13 KiB
Komputerowe wspomaganie tłumaczenia
2. Zaawansowane użycie pamięci tłumaczeń [laboratoria]
Rafał Jaworski (2021)
Wiemy już, do czego służy pamięć tłumaczeń. Spróbujmy przeprowadzić mały research, którego celem będzie odkrycie, w jaki sposób do pamięci tłumaczeń podchodzą najwięksi producenci oprogramowania typu CAT.
Ćwiczenie 1: Wykonaj analizę funkcjonalności pamięci tłumaczeń w programach SDL Trados Studio 2021 oraz Kilgray memoQ. Dla obu programów wypisz funkcje, które są związane z TM oraz zaznacz, które funkcje są wspólne dla obu programów oraz których funkcji Tradosa brakuje w memoQ oraz odwrotnie.
Odpowiedź:
Jedną z funkcji dostępnych we wszystkich większych programach do wspomagania tłumaczenia jest znajdowanie bardzo pewnych dopasowań w pamięci tłumaczeń. Są one zwane ICE (In-Context Exact match) lub 101% match. Są to takie dopasowania z pamięci tłumaczeń, dla których nie tylko zdanie źródłowe z TM jest identyczne z tłumaczonym, ale także poprzednie zdanie źródłowe z TM zgadza się z poprzednim zdaniem tłumaczonym oraz następne z TM z następnym tłumaczonym.
Rozważmy przykładową pamięć tłumaczeń z poprzednich zajęć (można do niej dorzucić kilka przykładów):
translation_memory = [
('Wciśnij przycisk Enter', 'Press the ENTER button'),
('Sprawdź ustawienia sieciowe', 'Check the network settings'),
('Drukarka jest wyłączona', 'The printer is switched off'),
('Wymagane ponowne uruchomienie komputera', 'System restart required')
]
translation_memory = { k:v for k,v in translation_memory}
Ćwiczenie 2: Zaimplementuj funkcję ice_lookup, przyjmującą trzy parametry: aktualnie tłumaczone zdanie, poprzednio tłumaczone zdanie, następne zdanie do tłumaczenia. Funkcja powinna zwracać dopasowania typu ICE. Nie pozwól, aby doszło do błędów podczas sprawdzania pierwszego i ostatniego przykładu w pamięci (ze względu na brak odpowiednio poprzedzającego oraz następującego przykładu).
def ice_lookup(sentence, prev_sentence, next_sentence):
s_t = translation_memory.get(sentence, False)
p_s = translation_memory.get(prev_sentence, False)
n_s = translation_memory.get(next_sentence, False)
if s_t and p_s and n_s:
return s_t
Inną powszechnie stosowaną techniką przeszukiwania pamięci tłumaczeń jest tzw. fuzzy matching. Technika ta polega na wyszukiwaniu zdań z pamięci, które są tylko podobne do zdania tłumaczonego. Na poprzednich zajęciach wykonywaliśmy funkcję tm_lookup, która pozwalała na różnicę jednego słowa.
Zazwyczaj jednak funkcje fuzzy match posiadają znacznie szersze możliwości. Ich działanie opiera się na zdefiniowaniu funkcji $d$ dystansu pomiędzy zdaniami $x$ i $y$. Matematycznie, funkcja dystansu posiada następujące właściwości:
- $\forall_{x,y} d(x,y)\geqslant 0$
- $\forall_{x,y} d(x,y)=0 \Leftrightarrow x=y$
- $\forall_{x,y} d(x,y)=d(y,x)$
- $\forall_{x,y,z} d(x,y) + d(y,z)\geqslant d(x,z)$
Rozważmy następującą funkcję:
def sentence_distance(x,y):
return abs(len(y) - len(x))
Ćwiczenie 3: Czy to jest poprawna funkcja dystansu? Które warunki spełnia?
Odpowiedź: Nie jest to poprawna funkcja dystansu fuzzy match. Warunki 1,3,4 sa spelnione. 2 warunek jest nie spełniony poniewaz odleglosc pomiedzy dwoma zdaniami/slowami o tej samej dlugosci ale innych znakach bedzie rowna zero.
A teraz spójrzmy na taką funkcję:
def sentence_distance(x,y):
if (x == y):
return 0
else:
return 3
Ćwiczenie 4: Czy to jest poprawna funkcja dystansu? Które warunki spełnia?
Odpowiedź: Tak, jest to poprawna funkcja dystansu. Wszystkie warunki sa spelnione.
Wprowadźmy jednak inną funkcję dystansu - dystans Levenshteina. Dystans Levenshteina pomiędzy dwoma łańcuchami znaków definiuje się jako minimalną liczbę operacji edycyjnych, które są potrzebne do przekształcenia jednego łańcucha znaków w drugi. Wyróżniamy trzy operacje edycyjne:
- dodanie znaku
- usunięcie znaku
- zamiana znaku na inny
Ćwiczenie 5: Czy dystans Levenshteina jest poprawną funkcją dystansu? Uzasadnij krótko swoją odpowiedź sprawdzając każdy z warunków.
from Levenshtein import distance as levenshtein_distance
# warunek 1
levenshtein_distance("smthn", "nothin")
# Output: 3
# zawsze nieujemne
# warunek 2
levenshtein_distance("and", "and")
# Output: 0
# dwa takie same zdania ktore sa w odleglosci 0 od siebie
# warunek 3
levenshtein_distance("zombie", "mombie") == levenshtein_distance("mombie", "zombie")
# Output: True
# zamiennosc zdan
# warunek 4
x,y,z = 'zombie', 'glombie', 'mombie'
levenshtein_distance(x,y) + levenshtein_distance(y,z) >= levenshtein_distance(x,z)
#Output: True
# miara każdej odleglosci musi być mniejsza lub równa sumie miar dwóch pozostałych
True
Odpowiedź: Tak jest poprawną funkcją dystansu.
W Pythonie dostępna jest biblioteka zawierająca implementację dystansu Levenshteina. Zainstaluj ją w swoim systemie przy użyciu polecenia:
pip3 install python-Levenshtein
I wypróbuj:
from Levenshtein import distance as levenshtein_distance
levenshtein_distance("kotek", "kotki")
2
Funkcja ta daje nam możliwość zdefiniowania podobieństwa pomiędzy zdaniami:
def levenshtein_similarity(x,y):
return 1 - levenshtein_distance(x,y) / max(len(x), len(y))
Przetestujmy ją!
levenshtein_similarity('Program jest uruchomiony', 'Program jest uruchamiany')
0.9166666666666666
levenshtein_similarity('Spróbuj wyłączyć i włączyć komputer', 'Spróbuj włączyć i wyłączyć komputer')
0.9428571428571428
levenshtein_similarity('Spróbuj wyłączyć i włączyć komputer', 'Nie próbuj wyłączać i włączać drukarki')
0.631578947368421
Ćwiczenie 6: Napisz funkcję fuzzy_lookup, która wyszuka w pamięci tłumaczeń wszystkie zdania, których podobieństwo Levenshteina do zdania wyszukiwanego jest większe lub równe od ustalonego progu.
def fuzzy_lookup(sentence, threshold):
return [ v for k,v in translation_memory.items() if levenshtein_similarity(sentence, k) > threshold ]
fuzzy_lookup('Spróbuj wyłączyć i włączyć komputer', 0.25)
['Press the ENTER button', 'System restart required']