KWT-2024/lab/lab_11.ipynb
2024-06-20 19:58:33 +02:00

12 KiB

Komputerowe wspomaganie tłumaczenia

Zajęcia 11 - urównoleglanie

Na poprzednich zajęciach poznaliśmy techniki pozyskiwania tekstu z Internetu. Jeśli uda nam się w ten sposób pozyskać tekst w jednym języku oraz jego tłumaczenie na inny język, jesteśmy tylko o krok od uzyskania najbardziej przydatnego zasobu z punktu widzenia wspomagania tłumaczenia - pamięci tłumaczeń. Krokiem tym jest automatyczne urównoleglanie tekstu.

Automatyczne urównoleglanie tekstu składa się z dwóch kroków:

  1. Podziału tekstu źródłowego oraz docelowego na zdania.
  2. Dopasowaniu zdań źródłowych do docelowych.

Zdania, o których mowa w punkcie 1., powinniśmy rozumieć jako segmenty, tj. niekoniecznie kompletne zdania w sensie gramatycznym. Standardowym sposobem podziału tekstu na segmenty jest dzielenie po znaku nowej linii lub zaraz po kropce, o ile jest ona częścią sekwencji: ".[spacja][Wielka litera]"

Ćwiczenie 1: Zaimplementuj podstawowy algorytm segmentacji tekstu. Użyj odpowiedniego wyrażenia regularnego, łapiącego wielkie litery w dowolnym języku, np. "Ż" (użyj klasy unikodowej). Zwróć listę segmentów.

def sentence_split(text):
    segments = []
    start = 0
    i = 0
    n = len(text)
    while i < n:
        if text[i] == ' ' and i + 1 < n and text[i + 1].isupper():
            segments.append(text[start:i])
            start = i + 1
        i += 1
    segments.append(text[start:])
    return segments
text = "Dzien dobry, CZy ten TEKST zostanie poprawnie podzielony?"
sentence_split(text)
['Dzien dobry,', 'CZy ten', 'TEKST zostanie poprawnie podzielony?']

Ćwiczenie 2: Uruchom powyższy algorytm na treści wybranej przez siebie strony internetowej (do ściągnięcia treści strony wykorzystaj kod z laboratoriów nr 7). Zidentyfikuj co najmniej dwa wyjątki od ogólnej reguły podziału na segmenty i ulepsz algorytm.

import re
import requests
from bs4 import BeautifulSoup
def fetch_page_content(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    for unwanted in soup(["script", "style"]):
        unwanted.decompose()

    page_text = soup.get_text()

    clean_text = re.sub(r"\s+", " ", page_text)
    return clean_text
text = fetch_page_content('https://www.mountainjade.co.nz/pages/greenstone-meanings-and-designs/toki-adze')
split = sentence_split(text)
print(split)
['Toki', 'Meaning |', 'New', 'Zealand', 'Pounamu', 'Meanings &', 'Designs |', 'Mountain', 'Jade', 'NZToki (Adze)Worn as a symbol of strength, the', 'Toki carries with it deep meaning and symbolism associated with mana, reverence, strength and bravery.The', 'Meaning of the', 'TokiTraditionally, a', 'Toki (Adze) was an everyday tool used by', 'Māori for different woodworking tasks, such as felling trees, hollowing out waka (canoes), and constructing houses and wharenui (Māori communal houses).', 'Using abrasion techniques,', 'Māori would painstakingly carve an adze from pounamu and lash it to a wooden handle using natural materials such as harakeke (flax).', 'It was then swung powerfully to cut wood.Māori were skilful woodworkers, and as they did not have metal, pounamu served well as a woodcutting tool because of its exceptional toughness and ability to retain a hard, sharp cutting edge.', 'For this reason, the', 'Toki holds great significance and meaning in', 'Māori culture as a powerful symbol of strength and power.DiscoverToki (Adze)', 'NecklacesShop', 'All', 'TokiA', 'Toki', 'Poutangata is an adze worked from pounamu and lashed to an elaborately carved wooden handle, and adorned with the feathers of significant native birds.', 'Mana and', 'Life', 'ForceMauri is considered to be a life force or essence - it is a spark or the essential vitality of a being.', 'Māori hold that all people and all things have mauri.', 'Many believe that as pounamu has a spiritual value, it can take on the mauri of the person wielding or wearing the stone, such as when', 'Māori chiefs with great mana (prestige) wielded the', 'Toki', 'Poutangata.', 'As the stone passes down through generations of whanau (family), it continues to carry the spirit, energy, and strength of previous owners, growing in mana and honour with its rich histories and stories.', 'A', 'Symbol of', 'StrengthToki are worn today as a symbol of strength, with this association linking back to when pounamu adze were powerful woodcutting tools, and wielded by fearsome', 'Māori warriors.', 'They symbolise courage, determination, success, and bravery, and their significance is steeped in', 'Māori tradition and meaning.Shop', 'All', 'TokiWatch how we carve', 'TokiMorepounamu meanings & designsTwist (Pikorua)Koru (spiral)Hei', 'Matau (hook)HeartManaiaHei', 'TikiWe', 'Ship', 'WorldwidePremium', 'Gift', 'WrappingFree', 'Shipping*We', 'Ship', 'WorldwidePremium', 'Gift', 'WrappingFree', 'Shipping*ShopLearnToursFind', 'Us$NZD$AUD£GBP$CAD$USD€EUR¥JPYFollow usStay in the know on new releases, special offers, and more.Your email addressSupportContactFAQsShippingGift', 'WrappingReturnsCarePrivacy', 'PolicyTerms &', 'ConditionsWarrantyGift', 'CardsReviewsAboutOur', 'StorySustainabilityLearn about', 'JadeNewsletterAuckland', 'StoreRotorua', 'StoreOur', 'ToursTen', 'Reasons to', 'GiftNeed', 'Help?+64 7 349 3968customercare@mountainjade.co.nz1288', 'Fenton', 'Street,', 'RotoruaNew', 'ZealandSupportAboutNeed', 'Help?Website by']

Po podziale tekstu na segmenty po stronie źródłowej oraz docelowej, możemy przystąpić do kroku drugiego - dopasowania segmentów. Głównym wyzwaniem tego kroku jest fakt, iż po stronie źródłowej może być inna liczba segmentów, niż po stronie docelowej. Takie rozbieżności są bardzo częste, a wynikają między innymi z:

  • tłumaczenia jednego zdania źródłowego przy użyciu więcej niż jednego zdania
  • tłumaczenia więcej niż jednego zdania źródłowego przy użyciu jednego zdania
  • pominięcia zdania podczas tłumaczenia
  • rozbieżności pomiędzy wersjami tekstu źródłowego i docelowego (np. tekst źródłowy mógł być modyfikowany po przetłumaczeniu i tłumaczenie nie zostało zaktualizowane)
  • przetłumaczenia tekstu źródłowego tylko częściowo

Problemy te rozwiązwyane są na różne sposoby. Najpopularniejszym programem do przeprowadzania urównoleglania jest Hunalign. Wejściem do programu są dwa pliki, zawierające po jednym segmencie w linii. Wyjściem - plik urównoleglony w wewnętrznym formacie hunaligna.

Ćwiczenie 3: Odnajdź dowolną stronę, która jest dostępna w wielu językach. Pobierz z tej strony tekst oryginalny (tylko ze strony głównej) oraz przetłumaczony na dowolny inny język. Przy użyciu Pythona przygotuj pliki dla Hunaligna i uruchom go.

Wyjściem z Hunaligna jest plik w specjalnym formacie Hunaligna. Problem jednak w tym, że niestety nie można go w prosty sposób zaimportować do jakiegokolwiek narzędzia typu CAT. Potrzebna jest konwersja do któregoś z bardziej popularnych formatów, np. XLIFF.

XLIFF jest formatem do przechowywania pamięci tłumaczeń, który opiera się na XML-u. Przykładowy plik XLIFF wygląda następująco:

<?xml version="1.0" encoding="UTF-8"?> <xliff xmlns="urn:oasis:names:tc:xliff:document:1.2" version="1.2"> <file datatype="plaintext" original="self" source-language="en" target-language="es"> <header> <sxmd:metadata xmlns:sxmd="urn:x-sap:mlt:xliff12:metadata:1.0" xmlns="urn:x-sap:mlt:tsmetadata:1.0"> <object-name>sample</object-name> <collection>KWT</collection> <domain>KWT</domain> <developer>123</developer> <description>sample XLIFF file</description> </sxmd:metadata> </header> <body> <trans-unit> <source>Hello world!</source> <target>Hola mundo!</target> </trans-unit> <trans-unit> <source>File</source> <target>Archivo</target> </trans-unit> <trans-unit> <source>New</source> <target>Nuevo</target> </trans-unit> <trans-unit> <source>Exit</source> <target>Salir</target> </trans-unit> </body> </file> </xliff>

Ćwiczenie 4: Napisz konwerter formatu hunaligna na XLIFF.

def convert2xliff(hunalign_file_name):
    return 0