{ "cells": [ { "cell_type": "markdown", "id": "improved-register", "metadata": {}, "source": [ "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", "
\n", "

Komputerowe wspomaganie tłumaczenia

\n", "

8. Wykorzystanie tłumaczenia automatycznego we wspomaganiu tłumaczenia [laboratoria]

\n", "

Rafał Jaworski (2021)

\n", "
\n", "\n", "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)" ] }, { "cell_type": "markdown", "id": "hungarian-davis", "metadata": {}, "source": [ "W dzisiejszych czasach, niezwykle ważną techniką wspomagania tłumaczenia jest użycie tłumaczenia maszynowego. Tekst źródłowy do tłumaczenia jest najpierw tłumaczony całkowicie autommatycznie, a następnie tłumacz ludzki dokonuje korekty wyniku. Technologia tłumaczenia maszynowego jest już na tyle dojrzała, że oferuje bardzo wysoką jakość wyników. Coraz częstsze stają się scenariusze, w których ludzka korekta to niemal całkowicie machinalne (sic!) zatwierdzanie wyników tłumaczenia maszynowego. Na dzisiejszych zajęciach poznamy techniki ewaluacji tłumaczenia maszynowego oraz sprawdzania jego przydatności w procesie wspomagania tłumaczenia ludzkiego." ] }, { "cell_type": "markdown", "id": "posted-commons", "metadata": {}, "source": [ "Jakość tłumaczenia maszynowego możemy oceniać na dwóch niezależnych płaszczyznach: dokładność i płynność. Płynność jest subiektywnie odbieranym odczuciem, że czytany tekst jest napisany językiem naturalnym i zrozumiałym. Systemy tłumaczenia maszynowego oparte na uczeniu głębokim z wykorzystaniem sieci neuronowych osiągają duży stopień płynności tłumaczenia. Niestety jednak ich dokładność nie zawsze jest równie wysoka." ] }, { "cell_type": "markdown", "id": "referenced-implement", "metadata": {}, "source": [ "Dokładność tłumaczenia maszynowego jest parametrem, który łatwiej zmierzyć. Wartość takich pomiarów daje obraz tego, jaka jest faktyczna jakość tłumaczenia maszynowego i jaka jest jego potencjalna przydatność we wspomaganiu tłumaczenia." ] }, { "cell_type": "markdown", "id": "disturbed-january", "metadata": {}, "source": [ "Najczęściej stosowaną techniką oceny tłumaczenia maszynowego jest ocena BLEU. Do obliczenia tej oceny potrzebny jest wynik tłumaczenia maszynowego oraz referencyjne tłumaczenie ludzkie wysokiej jakości." ] }, { "cell_type": "markdown", "id": "dental-combination", "metadata": {}, "source": [ "### Ćwiczenie 1: Zaimplementuj program do obliczania oceny BLEU dla korpusu w folderze data. Użyj implementacji BLEU z pakietu nltk. Dodatkowe wymaganie techniczne - napisz program tak, aby nie musiał rozpakwowywać pliku zip z korpusem na dysku." ] }, { "cell_type": "code", "execution_count": 1, "id": "moving-clothing", "metadata": {}, "outputs": [], "source": [ "def calculate_bleu():\n", " return 0" ] }, { "cell_type": "markdown", "id": "jewish-ethics", "metadata": {}, "source": [ "### Ćwiczenie 2: Oblicz wartość bleu na różnych fragmentach przykładowego korpusu (np. na pierwszych 100 zdaniach, zdaniach 500-600). Czy w jakimś fragmencie korpusu jakość tłumaczenia znacząco odbiega od średniej?" ] }, { "cell_type": "code", "execution_count": 2, "id": "lasting-rolling", "metadata": {}, "outputs": [], "source": [ "def analyze_bleu():\n", " return []" ] }, { "cell_type": "markdown", "id": "listed-bikini", "metadata": {}, "source": [ "Inną metodą oceny jakości tłumaczenia maszynowego jest parametr WER - Word Error Rate. Definiuje się on w następujący sposób:\n", "\n", "$WER = \\frac{S+D+I}{N}=\\frac{S+D+I}{S+D+C}$\n", "\n", "gdzie:\n", " * S - liczba substytucji (słów)\n", " * D - liczba usunięć\n", " * I - liczba wstawień\n", " * C - liczba poprawnych śłów\n", " * N - liczba słów w tłumaczeniu referencyjnym (N=S+D+C)" ] }, { "cell_type": "markdown", "id": "conscious-cookbook", "metadata": {}, "source": [ "Miara ta jest zwykle używana w do oceny systemów automatycznego rozpoznawania mowy, jednak w kontekście wspomagania tłumaczenia może być rozumiana jako wielkość nakładu pracy tłumacza nad poprawieniem tłumaczenia maszynowego." ] }, { "cell_type": "markdown", "id": "split-palace", "metadata": {}, "source": [ "### Ćwiczenie 3: Oblicz wartość WER dla przykładowego korpusu. Skorzystaj z gotowej implementacji WER." ] }, { "cell_type": "code", "execution_count": 3, "id": "occupied-swing", "metadata": {}, "outputs": [], "source": [ "def calculate_wer():\n", " return 0" ] }, { "cell_type": "markdown", "id": "stretch-wound", "metadata": {}, "source": [ "Poza wymienionymi powyżej, stosować można jeszcze inne miary oparte na porównywaniu tłumaczenia maszynowego z ludzkim. Przypomnijmy sobie jedną, którą stosowaliśmy wcześniej." ] }, { "cell_type": "markdown", "id": "abstract-wilderness", "metadata": {}, "source": [ "### Ćwiczenie 4: Oblicz średnią wartość dystansu Levenshteina pomiędzy zdaniami przetłumaczonymi automatycznie oraz przez człowieka. Użyj implementacji z ćwiczeń nr 2." ] }, { "cell_type": "code", "execution_count": 4, "id": "immediate-element", "metadata": {}, "outputs": [], "source": [ "def calculate_levenshtein():\n", " return 0" ] }, { "cell_type": "markdown", "id": "filled-burton", "metadata": {}, "source": [ "A teraz sprawdźmy coś jeszcze. W danych przykładowego korpusu znajduje się także angielski tekst źródłowy. Teoretycznie, dobre tłumaczenie niemieckie powinno zawierać jak najwięcej słów z angielskiego źródła. Wykonajmy najstępujący eksperyment:" ] }, { "cell_type": "markdown", "id": "grateful-recruitment", "metadata": {}, "source": [ "### Ćwiczenie 5: Dla każdej trójki zdań z korpusu przykładowego wykonaj następujące kroki:\n", " * Przetłumacz każde angielskie słowo na niemiecki przy użyciu modułu PyDictionary.\n", " * Sprawdź, które z niemieckich tłumaczeń zawiera więcej spośród tych przetłumaczonych słów - automatyczne, czy ludzkie.\n", "Następnie wypisz statystyki zbiorcze. Które tłumaczenie zawiera więcej słownikowych tłumaczeń słów ze źródła?" ] }, { "cell_type": "code", "execution_count": 5, "id": "descending-easter", "metadata": {}, "outputs": [], "source": [ "def analyze_translations():\n", " return []" ] } ], "metadata": { "author": "Rafał Jaworski", "email": "rjawor@amu.edu.pl", "lang": "pl", "subtitle": "8. Wykorzystanie tłumaczenia automatycznego we wspomaganiu tłumaczenia", "title": "Komputerowe wspomaganie tłumaczenia", "year": "2021", "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.10" } }, "nbformat": 4, "nbformat_minor": 5 }