KWT-2024/lab/lab_08.ipynb
2024-04-23 20:45:56 +02:00

571 lines
64 KiB
Plaintext

{
"cells": [
{
"cell_type": "markdown",
"id": "improved-register",
"metadata": {},
"source": [
"![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n",
"<div class=\"alert alert-block alert-info\">\n",
"<h1> Komputerowe wspomaganie tłumaczenia </h1>\n",
"<h2> 8. <i>Wykorzystanie tłumaczenia automatycznego we wspomaganiu tłumaczenia</i> [laboratoria]</h2> \n",
"<h3>Rafał Jaworski (2021)</h3>\n",
"</div>\n",
"\n",
"![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)"
]
},
{
"cell_type": "markdown",
"id": "hungarian-davis",
"metadata": {},
"source": [
"W dzisiejszych czasach, niezwykle ważną techniką wspomagania tłumaczenia jest użycie tłumaczenia maszynowego. Tekst źródłowy do tłumaczenia jest najpierw tłumaczony całkowicie autommatycznie, a następnie tłumacz ludzki dokonuje korekty wyniku. Technologia tłumaczenia maszynowego jest już na tyle dojrzała, że oferuje bardzo wysoką jakość wyników. Coraz częstsze stają się scenariusze, w których ludzka korekta to niemal całkowicie machinalne (sic!) zatwierdzanie wyników tłumaczenia maszynowego. Na dzisiejszych zajęciach poznamy techniki ewaluacji tłumaczenia maszynowego oraz sprawdzania jego przydatności w procesie wspomagania tłumaczenia ludzkiego."
]
},
{
"cell_type": "markdown",
"id": "posted-commons",
"metadata": {},
"source": [
"Jakość tłumaczenia maszynowego możemy oceniać na dwóch niezależnych płaszczyznach: dokładność i płynność. Płynność jest subiektywnie odbieranym odczuciem, że czytany tekst jest napisany językiem naturalnym i zrozumiałym. Systemy tłumaczenia maszynowego oparte na uczeniu głębokim z wykorzystaniem sieci neuronowych osiągają duży stopień płynności tłumaczenia. Niestety jednak ich dokładność nie zawsze jest równie wysoka."
]
},
{
"cell_type": "markdown",
"id": "referenced-implement",
"metadata": {},
"source": [
"Dokładność tłumaczenia maszynowego jest parametrem, który łatwiej zmierzyć. Wartość takich pomiarów daje obraz tego, jaka jest faktyczna jakość tłumaczenia maszynowego i jaka jest jego potencjalna przydatność we wspomaganiu tłumaczenia."
]
},
{
"cell_type": "markdown",
"id": "disturbed-january",
"metadata": {},
"source": [
"Najczęściej stosowaną techniką oceny tłumaczenia maszynowego jest ocena BLEU. Do obliczenia tej oceny potrzebny jest wynik tłumaczenia maszynowego oraz referencyjne tłumaczenie ludzkie wysokiej jakości."
]
},
{
"cell_type": "markdown",
"id": "dental-combination",
"metadata": {},
"source": [
"### Ćwiczenie 1: Zaimplementuj program do obliczania oceny BLEU dla korpusu w folderze data. Użyj implementacji BLEU z pakietu nltk. Dodatkowe wymaganie techniczne - napisz program tak, aby nie musiał rozpakwowywać pliku zip z korpusem na dysku."
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "10ba41d5-aec6-4a8c-96ad-8167af126735",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Defaulting to user installation because normal site-packages is not writeable\n",
"Collecting nltk\n",
" Downloading nltk-3.8.1-py3-none-any.whl.metadata (2.8 kB)\n",
"Requirement already satisfied: click in /usr/local/lib/python3.9/dist-packages (from nltk) (8.1.3)\n",
"Requirement already satisfied: joblib in /usr/lib/python3/dist-packages (from nltk) (0.17.0)\n",
"Requirement already satisfied: regex>=2021.8.3 in /usr/local/lib/python3.9/dist-packages (from nltk) (2023.5.5)\n",
"Requirement already satisfied: tqdm in /usr/local/lib/python3.9/dist-packages (from nltk) (4.64.1)\n",
"Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)\n",
"\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m1.5/1.5 MB\u001b[0m \u001b[31m17.1 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m00:01\u001b[0m0:01\u001b[0m\n",
"\u001b[?25hInstalling collected packages: nltk\n",
"\u001b[33m WARNING: The script nltk is installed in '/home/students/s444820/.local/bin' which is not on PATH.\n",
" Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.\u001b[0m\u001b[33m\n",
"\u001b[0mSuccessfully installed nltk-3.8.1\n",
"Note: you may need to restart the kernel to use updated packages.\n"
]
}
],
"source": [
"pip install nltk"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "1e80adcf-ac34-4c38-a2c2-5735985c963e",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"1001\n",
"1001\n"
]
},
{
"data": {
"text/plain": [
"0.7476897494228967"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"import nltk\n",
"import zipfile\n",
"import string\n",
"from nltk.translate.bleu_score import corpus_bleu\n",
"def deletePunctuation(text):\n",
" translator = str.maketrans('', '', string.punctuation)\n",
" return text.translate(translator)\n",
"\n",
"def tokenization(i):\n",
" zip_path = './data/corpus_corrected.zip'\n",
" files = ['corpus_de_human.txt', 'corpus_de_nmt.txt', 'corpus_en.txt']\n",
" \n",
" result = []\n",
" with zipfile.ZipFile(zip_path, 'r') as zf:\n",
" with zf.open(files[i]) as f:\n",
" text = f.read().decode('utf-8')\n",
" text = text.split(\"\\n\") \n",
" for sentence in text:\n",
" if i == 0: \n",
" result.append([deletePunctuation(sentence).split()])\n",
" else:\n",
" result.append(deletePunctuation(sentence).split())\n",
" \n",
" return result\n",
"\n",
"\n",
"HUMAN = tokenization(0)\n",
"MACHINE = tokenization(1)\n",
"STANDARD = tokenization(2)\n",
"print(len(HUMAN))\n",
"print(len(MACHINE))\n",
"corpus_bleu(HUMAN,MACHINE)"
]
},
{
"cell_type": "code",
"execution_count": 21,
"id": "e0df3d36-9e5f-4111-a67b-3f5cc04d2cfe",
"metadata": {
"tags": []
},
"outputs": [
{
"data": {
"text/plain": [
"0.7476897494228967"
]
},
"execution_count": 21,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"def calculate_bleu():\n",
" HUMAN = tokenization(0)\n",
" MACHINE = tokenization(1)\n",
" return corpus_bleu(HUMAN,MACHINE)\n",
"\n",
"calculate_bleu()"
]
},
{
"cell_type": "markdown",
"id": "jewish-ethics",
"metadata": {},
"source": [
"### Ćwiczenie 2: Oblicz wartość bleu na różnych fragmentach przykładowego korpusu (np. na pierwszych 100 zdaniach, zdaniach 500-600). Czy w jakimś fragmencie korpusu jakość tłumaczenia znacząco odbiega od średniej?"
]
},
{
"cell_type": "code",
"execution_count": 48,
"id": "lasting-rolling",
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 640x480 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"text/plain": [
"['[800-900)', 52]"
]
},
"execution_count": 48,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"from nltk.translate.bleu_score import sentence_bleu\n",
"import matplotlib.pyplot as plt\n",
"def analyze_bleu(interval):\n",
" bleuResults = []\n",
" errorNumber = 0\n",
" er = []\n",
" index = 0\n",
" x = range(len(HUMAN)-1)\n",
" for y in x:\n",
" bleu = sentence_bleu(HUMAN[y], MACHINE[y])\n",
" if bleu <= 0.7476897494228967:\n",
" errorNumber += 1\n",
" \n",
" bleuResults.append(bleu)\n",
" if index % interval == 0 and index != 0:\n",
" er.append([f\"[{index-interval}-{index})\",errorNumber])\n",
" errorNumber = 0\n",
" index += 1\n",
"\n",
" plt.plot(x, bleuResults, 'o',markersize=1.7)\n",
" plt.xlabel('Nr zdania')\n",
" plt.ylabel('Bleu')\n",
" plt.title('Wynik BLEU w zależności od wartości zdań')\n",
" plt.grid(True)\n",
" plt.show()\n",
" \n",
" maxEr = max(er, key=lambda x: x[1])\n",
" return maxEr\n",
"\n",
"analyze_bleu(100)"
]
},
{
"cell_type": "markdown",
"id": "listed-bikini",
"metadata": {},
"source": [
"Inną metodą oceny jakości tłumaczenia maszynowego jest parametr WER - Word Error Rate. Definiuje się on w następujący sposób:\n",
"\n",
"$WER = \\frac{S+D+I}{N}=\\frac{S+D+I}{S+D+C}$\n",
"\n",
"gdzie:\n",
" * S - liczba substytucji (słów)\n",
" * D - liczba usunięć\n",
" * I - liczba wstawień\n",
" * C - liczba poprawnych śłów\n",
" * N - liczba słów w tłumaczeniu referencyjnym (N=S+D+C)"
]
},
{
"cell_type": "markdown",
"id": "conscious-cookbook",
"metadata": {},
"source": [
"Miara ta jest zwykle używana w do oceny systemów automatycznego rozpoznawania mowy, jednak w kontekście wspomagania tłumaczenia może być rozumiana jako wielkość nakładu pracy tłumacza nad poprawieniem tłumaczenia maszynowego."
]
},
{
"cell_type": "markdown",
"id": "split-palace",
"metadata": {},
"source": [
"### Ćwiczenie 3: Oblicz wartość WER dla przykładowego korpusu. Skorzystaj z gotowej implementacji WER."
]
},
{
"cell_type": "code",
"execution_count": 43,
"id": "occupied-swing",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"0.17738143121880412"
]
},
"execution_count": 43,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"from jiwer import wer\n",
"\n",
"def calculate_wer():\n",
" x = range(len(HUMAN)-1)\n",
" w = 0\n",
" for y in x:\n",
" w += wer(\" \".join(HUMAN[y][0]),\" \".join(MACHINE[y]))\n",
" \n",
" \n",
" return w/(len(HUMAN)-1)\n",
"calculate_wer()"
]
},
{
"cell_type": "code",
"execution_count": 47,
"id": "c822988d-fcbf-4a6c-977d-3eda1fab0d3f",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"0.0\n"
]
}
],
"source": [
"print(wer(\" \".join(HUMAN[0][0]),\" \".join(MACHINE[0])))"
]
},
{
"cell_type": "markdown",
"id": "stretch-wound",
"metadata": {},
"source": [
"Poza wymienionymi powyżej, stosować można jeszcze inne miary oparte na porównywaniu tłumaczenia maszynowego z ludzkim. Przypomnijmy sobie jedną, którą stosowaliśmy wcześniej."
]
},
{
"cell_type": "markdown",
"id": "abstract-wilderness",
"metadata": {},
"source": [
"### Ćwiczenie 4: Oblicz średnią wartość dystansu Levenshteina pomiędzy zdaniami przetłumaczonymi automatycznie oraz przez człowieka. Użyj implementacji z ćwiczeń nr 2."
]
},
{
"cell_type": "code",
"execution_count": 50,
"id": "immediate-element",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"0.8802718348367172"
]
},
"execution_count": 50,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"from Levenshtein import distance as levenshtein_distance\n",
"\n",
"def levenshtein_similarity(x,y):\n",
" return 1 - levenshtein_distance(x,y) / max(len(x), len(y))\n",
"\n",
"def calculate_levenshtein():\n",
" x = range(len(HUMAN)-1)\n",
" l = 0\n",
" for y in x:\n",
" l += levenshtein_similarity(\" \".join(HUMAN[y][0]),\" \".join(MACHINE[y]))\n",
" \n",
" return l/(len(HUMAN)-1)\n",
"\n",
"calculate_levenshtein()"
]
},
{
"cell_type": "markdown",
"id": "filled-burton",
"metadata": {},
"source": [
"A teraz sprawdźmy coś jeszcze. W danych przykładowego korpusu znajduje się także angielski tekst źródłowy. Teoretycznie, dobre tłumaczenie niemieckie powinno zawierać jak najwięcej słów z angielskiego źródła. Wykonajmy najstępujący eksperyment:"
]
},
{
"cell_type": "markdown",
"id": "grateful-recruitment",
"metadata": {},
"source": [
"### Ćwiczenie 5: Dla każdej trójki zdań z korpusu przykładowego wykonaj następujące kroki:\n",
" * Przetłumacz każde angielskie słowo na niemiecki przy użyciu modułu PyDictionary.\n",
" * Sprawdź, które z niemieckich tłumaczeń zawiera więcej spośród tych przetłumaczonych słów - automatyczne, czy ludzkie.\n",
"Następnie wypisz statystyki zbiorcze. Które tłumaczenie zawiera więcej słownikowych tłumaczeń słów ze źródła?"
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "49c68adb-f242-434a-94e0-8236bb944e1b",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Invalid Word\n",
"None\n"
]
}
],
"source": [
"\n"
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "descending-easter",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n",
"Invalid Word\n"
]
}
],
"source": [
"from PyDictionary import PyDictionary\n",
"#Szanowny Panie, na prawdę starałem się wykonać to zadanie. zauważyłem, że przy pierwszym odpaleniu to działało.\n",
"#teraz jednak nie chce się odpalić. TO samo miałem na prywatnym komputerze, restart również nie pomógł. Ponoć powodem\n",
"#jest fakt, że biblioteka ta używa goole translate, a goole z tym walczy\n",
"\n",
"def analyze_translations():\n",
" dictionary = PyDictionary()\n",
" result = []\n",
" for sentence in STANDARD:\n",
" words = []\n",
" for word in sentence:\n",
" words.append(dictionary.translate(word,'de'))\n",
" result.append(words)\n",
" return result\n",
"\n",
"x = 0\n",
"y = 0\n",
"#wordSET = analyze_translations() \n",
"for i in len(wordSET) - 1:\n",
" for word in wordSET[i]:\n",
" if word in HUMAN[i][0]:\n",
" x += 1\n",
" if word in MACHINE[i]:\n",
" y += 1\n",
"\n",
"print(x)\n",
"print(y) "
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "ff84873c-9f1a-4a2b-b31b-b10a49ce65e6",
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"author": "Rafał Jaworski",
"email": "rjawor@amu.edu.pl",
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"lang": "pl",
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.9.2"
},
"subtitle": "8. Wykorzystanie tłumaczenia automatycznego we wspomaganiu tłumaczenia",
"title": "Komputerowe wspomaganie tłumaczenia",
"year": "2021"
},
"nbformat": 4,
"nbformat_minor": 5
}