{ "cells": [ { "cell_type": "markdown", "id": "expanded-entrance", "metadata": {}, "source": [ "# Komputerowe wspomaganie tłumaczenia" ] }, { "cell_type": "markdown", "id": "atlantic-greenhouse", "metadata": {}, "source": [ "# Zajęcia 11 - urównoleglanie" ] }, { "cell_type": "markdown", "id": "hungarian-davis", "metadata": {}, "source": [ "Na poprzednich zajęciach poznaliśmy techniki pozyskiwania tekstu z Internetu. Jeśli uda nam się w ten sposób pozyskać tekst w jednym języku oraz jego tłumaczenie na inny język, jesteśmy tylko o krok od uzyskania najbardziej przydatnego zasobu z punktu widzenia wspomagania tłumaczenia - pamięci tłumaczeń. Krokiem tym jest automatyczne urównoleglanie tekstu." ] }, { "cell_type": "markdown", "id": "bronze-removal", "metadata": {}, "source": [ "Automatyczne urównoleglanie tekstu składa się z dwóch kroków:\n", "1. Podziału tekstu źródłowego oraz docelowego na zdania.\n", "2. Dopasowaniu zdań źródłowych do docelowych." ] }, { "cell_type": "markdown", "id": "junior-works", "metadata": {}, "source": [ "Zdania, o których mowa w punkcie 1., powinniśmy rozumieć jako segmenty, tj. niekoniecznie kompletne zdania w sensie gramatycznym. Standardowym sposobem podziału tekstu na segmenty jest dzielenie po znaku nowej linii lub zaraz po kropce, o ile jest ona częścią sekwencji: \".[spacja][Wielka litera]\"" ] }, { "cell_type": "markdown", "id": "legitimate-corrections", "metadata": {}, "source": [ "### Ćwiczenie 1: Zaimplementuj podstawowy algorytm segmentacji tekstu. Użyj odpowiedniego wyrażenia regularnego, łapiącego wielkie litery w dowolnym języku, np. \"Ż\" (użyj klasy unikodowej). Zwróć listę segmentów." ] }, { "cell_type": "code", "execution_count": 1, "id": "german-dispute", "metadata": {}, "outputs": [], "source": [ "import regex\n", "\n", "def sentence_split(text):\n", " # Regular expression pattern to match sentence-ending punctuation followed by a space and an uppercase letter\n", " pattern = regex.compile(r'(?<=[.!?])\\s+(?=\\p{Lu})', regex.UNICODE)\n", " \n", " # Split the text using the defined pattern\n", " segments = regex.split(pattern, text)\n", "\n", " # Remove leading and trailing whitespace from each segment\n", " segments = [segment.strip() for segment in segments]\n", "\n", " # Replace multiple newlines with a single newline\n", " segments = [regex.sub(r'\\n+', '\\n', segment) for segment in segments]\n", "\n", " # Replace multiple spaces with a single space\n", " segments = [regex.sub(r'\\s+', ' ', segment) for segment in segments]\n", "\n", " # Remove empty segments\n", " segments = [segment for segment in segments if segment]\n", " \n", " return segments" ] }, { "cell_type": "markdown", "id": "continued-assessment", "metadata": {}, "source": [ "### Ćwiczenie 2: Uruchom powyższy algorytm na treści wybranej przez siebie strony internetowej (do ściągnięcia treści strony wykorzystaj kod z laboratoriów nr 7). Zidentyfikuj co najmniej dwa wyjątki od ogólnej reguły podziału na segmenty i ulepsz algorytm." ] }, { "cell_type": "code", "execution_count": 2, "id": "guilty-morocco", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Segment 1: Wydział Matematyki i Informatyki | Wydział Matematyki i Informatyki Brak obsługi JavaScript Do pełnej funkcjonalności strony potrzebujesz włączonej obsługi skryptów.\n", "Segment 2: Instrukcje, które pozwolą Ci włączyć skrypty w Twojej przeglądarce znajdziesz tutaj Przejdź do TreśćPrzejdź do Menu głównePrzejdź do Mapa serwisuPrzejdź do Dostępność A A A en pl Wyszukaj Wyszukaj Nawigacja mobilna Wydział - Wydział Matematyki i Informatyki Wydział - Wydział Matematyki i Informatyki NO XML TR1A Wydział Pokaż menu szczegółowe Powrót do głównego menu O wydziale Władze wydziału Struktura wydziału Rada Naukowa Dyscyplin Rady programowe Pracownicy Projekty Historia Biblioteka wydziałowa Informator WMI w mediach Wybory 2024 Kontakt Życie naukowe Pokaż menu szczegółowe Powrót do głównego menu Awanse naukowe Wykłady i seminaria Cykle wykładów Towarzystwa i redakcje Konferencje Doktorzy honoris causa Profesorowie Członkowie Akademii Konkurs im.\n", "Segment 3: Edyty Szymańskiej Dla Kandydata Pokaż menu szczegółowe Powrót do głównego menu Rekrutacja krok po kroku Studia I stopnia Studia II stopnia Studia doktoranckie Studia podyplomowe Akademia CISCO Samorząd studencki Koła i organizacje studenckie Uniwersytet Otwarty Dla Studenta Dla Pracownika Dla szkół Pokaż menu szczegółowe Powrót do głównego menu Edukacja matematyczno-informatyczna Współpraca ze szkołami Współpraca Pokaż menu szczegółowe Powrót do głównego menu Współpraca z biznesem Współpraca ze szkołami Targi pracy i staży branży IT Oferty pracy 30-LECIE Pokaż menu szczegółowe Powrót do głównego menu Harmonogram Wykłady naukowe z okazji 30-lecia WMI Wydarzenia KWUMI Galeria Zjazd Absolwentów powrót do góry Uniwersytet im.\n", "Segment 4: Adama Mickiewicza w PoznaniuIntranet pracownikaIntranet studenta Stypendium dla olimpijczykówJesteś laureatem lub finalistą olimpiady przedmiotowej?\n", "Segment 5: Sprawdź jak uzyskać stypendium!Czytaj więcej Jubileusz 30-leciaWydziału Matematyki i Informatyki UAMCzytaj więcej Z okazji 30-lecia wydziału22 czerwca 2024 r. serdecznie zapraszamy na zjazd absolwentówZAREJESTRUJ SIĘ!\n", "Segment 6: Data on CampusZapraszamy na Data on Campus #1Czytaj więcejStypendium dla olimpijczykówSprawdź!Jubileusz 30-leciaWydziału Matematyki i InformatykiZjazd absolwentów22 czerwca 2024 r.Data on Campus #18 czerwca 2024 r.\n", "Segment 7: Wiadomości Absolutorium 2024 28 maja 2024 IX edycja konkursu Study@research - laureaci z WMI 21 maja 2024 Pozytywna ocena PKA dla kierunku informatyka 14 maja 2024 Wyjazdowa Rada Pracodawców 13 maja 2024 Sportowe sukcesy WMI 09 maja 2024 Czytaj więcej Wydarzenia 5 czerwca 2024 Publiczna obrona rozprawy doktorskiej mgra Tomasza Ziętkiewicza 8 czerwca 2024 Data on Campus #1 10 czerwca 2024 Wykład 23: Grafowe modele sieci społecznościowych, czyli o światach dużych i małych 11 czerwca 2024 Wykład nr 24: O zbiorach rozmytych, czyli o tym, jak nauczyć komputer rozumieć oraz wykorzystywać informację nieprecyzyjną 13 czerwca 2024 Wykład nr 25: Jak z dwóch kryształów otrzymać jeden, czyli o dodawaniu i odejmowaniu wielościanów 15 czerwca 2024 Ultimate Hackathon Mission 3.0 Czytaj więcej O wydziale Jako jednostka uczelni badawczej, Wydział Matematyki i Informatyki UAM w Poznaniu kontynuuje ponad 100-letnią tradycję poznańskiej matematyki.\n", "Segment 8: Jest też jednym z najlepszych ośrodków badawczo-dydaktycznych w zakresie informatyki w Polsce.\n", "Segment 9: Obecnie Wydział prowadzi studia na czterech kierunkach: matematyce, informatyce, analizie i przetwarzaniu danych oraz na nauczaniu matematyki i informatyki.\n", "Segment 10: Ostatni z wymienionych kierunków stanowi ofertę wyjątkową w skali całego kraju.\n" ] } ], "source": [ "import requests\n", "from bs4 import BeautifulSoup\n", "\n", "def fetch_webpage_content(url):\n", " response = requests.get(url)\n", " response.raise_for_status() # Raise an exception for HTTP errors\n", " soup = BeautifulSoup(response.content, 'html.parser')\n", " return soup.get_text()\n", "\n", "url = \"https://wmi.amu.edu.pl/\"\n", "webpage_content = fetch_webpage_content(url)\n", "\n", "import re\n", "import unicodedata\n", "\n", "segments = sentence_split(webpage_content)\n", "for i, segment in enumerate(segments[:10]):\n", " print(f\"Segment {i+1}: {segment}\")" ] }, { "cell_type": "markdown", "id": "3cd97d83", "metadata": {}, "source": [ "### Wyjątek 1: Skróty zakończone kropką\n", "Skróty takie jak \"mgr.\", \"prof.\", \"dr.\" mogą powodować niepotrzebne podziały segmentów. Musimy upewnić się, że algorytm nie dzieli zdania po skrótach." ] }, { "cell_type": "markdown", "id": "fd509273", "metadata": {}, "source": [ "### Wyjątek 2: Daty i inne liczby zakończone kropką\n", "Daty, takie jak \"22 czerwca 2024 r.\", mogą również powodować nieprawidłowe podziały. Musimy uwzględnić takie przypadki." ] }, { "cell_type": "code", "execution_count": 3, "id": "20b69c09", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Segment 1: Wydział Matematyki i Informatyki | Wydział Matematyki i Informatyki Brak obsługi JavaScript Do pełnej funkcjonalności strony potrzebujesz włączonej obsługi skryptów.\n", "Segment 2: Instrukcje, które pozwolą Ci włączyć skrypty w Twojej przeglądarce znajdziesz tutaj Przejdź do TreśćPrzejdź do Menu głównePrzejdź do Mapa serwisuPrzejdź do Dostępność A A A en pl Wyszukaj Wyszukaj Nawigacja mobilna Wydział - Wydział Matematyki i Informatyki Wydział - Wydział Matematyki i Informatyki NO XML TR1A Wydział Pokaż menu szczegółowe Powrót do głównego menu O wydziale Władze wydziału Struktura wydziału Rada Naukowa Dyscyplin Rady programowe Pracownicy Projekty Historia Biblioteka wydziałowa Informator WMI w mediach Wybory 2024 Kontakt Życie naukowe Pokaż menu szczegółowe Powrót do głównego menu Awanse naukowe Wykłady i seminaria Cykle wykładów Towarzystwa i redakcje Konferencje Doktorzy honoris causa Profesorowie Członkowie Akademii Konkurs im. Edyty Szymańskiej Dla Kandydata Pokaż menu szczegółowe Powrót do głównego menu Rekrutacja krok po kroku Studia I stopnia Studia II stopnia Studia doktoranckie Studia podyplomowe Akademia CISCO Samorząd studencki Koła i organizacje studenckie Uniwersytet Otwarty Dla Studenta Dla Pracownika Dla szkół Pokaż menu szczegółowe Powrót do głównego menu Edukacja matematyczno-informatyczna Współpraca ze szkołami Współpraca Pokaż menu szczegółowe Powrót do głównego menu Współpraca z biznesem Współpraca ze szkołami Targi pracy i staży branży IT Oferty pracy 30-LECIE Pokaż menu szczegółowe Powrót do głównego menu Harmonogram Wykłady naukowe z okazji 30-lecia WMI Wydarzenia KWUMI Galeria Zjazd Absolwentów powrót do góry Uniwersytet im. Adama Mickiewicza w PoznaniuIntranet pracownikaIntranet studenta Stypendium dla olimpijczykówJesteś laureatem lub finalistą olimpiady przedmiotowej?\n", "Segment 3: Sprawdź jak uzyskać stypendium!Czytaj więcej Jubileusz 30-leciaWydziału Matematyki i Informatyki UAMCzytaj więcej Z okazji 30-lecia wydziału22 czerwca 2024 r. serdecznie zapraszamy na zjazd absolwentówZAREJESTRUJ SIĘ!\n", "Segment 4: Data on CampusZapraszamy na Data on Campus #1Czytaj więcejStypendium dla olimpijczykówSprawdź!Jubileusz 30-leciaWydziału Matematyki i InformatykiZjazd absolwentów22 czerwca 2024 r.Data on Campus #18 czerwca 2024 r. Wiadomości Absolutorium 2024 28 maja 2024 IX edycja konkursu Study@research - laureaci z WMI 21 maja 2024 Pozytywna ocena PKA dla kierunku informatyka 14 maja 2024 Wyjazdowa Rada Pracodawców 13 maja 2024 Sportowe sukcesy WMI 09 maja 2024 Czytaj więcej Wydarzenia 5 czerwca 2024 Publiczna obrona rozprawy doktorskiej mgra Tomasza Ziętkiewicza 8 czerwca 2024 Data on Campus #1 10 czerwca 2024 Wykład 23: Grafowe modele sieci społecznościowych, czyli o światach dużych i małych 11 czerwca 2024 Wykład nr 24: O zbiorach rozmytych, czyli o tym, jak nauczyć komputer rozumieć oraz wykorzystywać informację nieprecyzyjną 13 czerwca 2024 Wykład nr 25: Jak z dwóch kryształów otrzymać jeden, czyli o dodawaniu i odejmowaniu wielościanów 15 czerwca 2024 Ultimate Hackathon Mission 3.0 Czytaj więcej O wydziale Jako jednostka uczelni badawczej, Wydział Matematyki i Informatyki UAM w Poznaniu kontynuuje ponad 100-letnią tradycję poznańskiej matematyki.\n", "Segment 5: Jest też jednym z najlepszych ośrodków badawczo-dydaktycznych w zakresie informatyki w Polsce.\n", "Segment 6: Obecnie Wydział prowadzi studia na czterech kierunkach: matematyce, informatyce, analizie i przetwarzaniu danych oraz na nauczaniu matematyki i informatyki.\n", "Segment 7: Ostatni z wymienionych kierunków stanowi ofertę wyjątkową w skali całego kraju.\n", "Segment 8: W ofercie Wydziału można także znaleźć studia podyplomowe. 4 kierunki studiów 1700+ studentów 6000+ absolwentów Studia I stopnia Matematyka Fascynuje Cię królowa nauk?\n", "Segment 9: Jesteś umysłem ścisłym?\n", "Segment 10: Chcesz studiować matematykę na wiodącej uczelni w Polsce?\n" ] } ], "source": [ "import regex\n", "\n", "def enhanced_sentence_split(text):\n", " # Lista wyjątków, po których nie dzielimy nawet jeśli jest kropka\n", " exceptions = ['r.', 'tzn.', 'np.', 'itp.', 'etc.', 'dr.', 'prof.', 'im.']\n", "\n", " # Regular expression pattern to match sentence-ending punctuation followed by a space and an uppercase letter\n", " pattern = regex.compile(r'(?<=[.!?])\\s+(?=\\p{Lu})', regex.UNICODE)\n", "\n", " # Split the text using the defined pattern\n", " segments = regex.split(pattern, text)\n", "\n", " # Remove leading and trailing whitespace from each segment\n", " segments = [segment.strip() for segment in segments]\n", "\n", " # Rejoin segments that were incorrectly split due to exceptions\n", " i = 0\n", " while i < len(segments) - 1:\n", " for exception in exceptions:\n", " if segments[i].endswith(exception):\n", " segments[i] += ' ' + segments.pop(i + 1)\n", " break\n", " else:\n", " i += 1\n", "\n", " # Replace multiple newlines with a single newline\n", " segments = [regex.sub(r'\\n+', '\\n', segment) for segment in segments]\n", "\n", " # Replace multiple spaces with a single space\n", " segments = [regex.sub(r'\\s+', ' ', segment) for segment in segments]\n", "\n", " # Remove empty segments\n", " segments = [segment for segment in segments if segment]\n", "\n", " return segments\n", "\n", "segments = enhanced_sentence_split(webpage_content)\n", "for i, segment in enumerate(segments[:10]):\n", " print(f\"Segment {i+1}: {segment}\")" ] }, { "cell_type": "markdown", "id": "experimental-recipient", "metadata": {}, "source": [ "Po podziale tekstu na segmenty po stronie źródłowej oraz docelowej, możemy przystąpić do kroku drugiego - dopasowania segmentów. Głównym wyzwaniem tego kroku jest fakt, iż po stronie źródłowej może być inna liczba segmentów, niż po stronie docelowej. Takie rozbieżności są bardzo częste, a wynikają między innymi z:\n", "* tłumaczenia jednego zdania źródłowego przy użyciu więcej niż jednego zdania\n", "* tłumaczenia więcej niż jednego zdania źródłowego przy użyciu jednego zdania\n", "* pominięcia zdania podczas tłumaczenia\n", "* rozbieżności pomiędzy wersjami tekstu źródłowego i docelowego (np. tekst źródłowy mógł być modyfikowany po przetłumaczeniu i tłumaczenie nie zostało zaktualizowane)\n", "* przetłumaczenia tekstu źródłowego tylko częściowo" ] }, { "cell_type": "markdown", "id": "australian-hundred", "metadata": {}, "source": [ "Problemy te rozwiązwyane są na różne sposoby. Najpopularniejszym programem do przeprowadzania urównoleglania jest [Hunalign](https://github.com/danielvarga/hunalign). Wejściem do programu są dwa pliki, zawierające po jednym segmencie w linii. Wyjściem - plik urównoleglony w wewnętrznym formacie hunaligna." ] }, { "cell_type": "markdown", "id": "russian-chambers", "metadata": {}, "source": [ "### Ćwiczenie 3: Odnajdź dowolną stronę, która jest dostępna w wielu językach. Pobierz z tej strony tekst oryginalny (tylko ze strony głównej) oraz przetłumaczony na dowolny inny język. Przy użyciu Pythona przygotuj pliki dla Hunaligna i uruchom go." ] }, { "cell_type": "markdown", "id": "controlled-pacific", "metadata": {}, "source": [ "Wyjściem z Hunaligna jest plik w specjalnym formacie Hunaligna. Problem jednak w tym, że niestety nie można go w prosty sposób zaimportować do jakiegokolwiek narzędzia typu CAT. Potrzebna jest konwersja do któregoś z bardziej popularnych formatów, np. XLIFF." ] }, { "cell_type": "markdown", "id": "divided-chain", "metadata": {}, "source": [ "XLIFF jest formatem do przechowywania pamięci tłumaczeń, który opiera się na XML-u" ] }, { "cell_type": "code", "execution_count": 4, "id": "169d0134", "metadata": {}, "outputs": [], "source": [ "text_hu = fetch_webpage_content(\"https://hu.wikipedia.org/wiki/Sz%C3%A1m%C3%ADt%C3%A1studom%C3%A1ny\")\n", "text_en = fetch_webpage_content(\"https://en.wikipedia.org/wiki/Computer_science\")" ] }, { "cell_type": "code", "execution_count": 5, "id": "f3549418", "metadata": {}, "outputs": [], "source": [ "hu_segments = enhanced_sentence_split(text_hu)\n", "en_segments = enhanced_sentence_split(text_en)" ] }, { "cell_type": "code", "execution_count": 6, "id": "143730e4", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['Számítástudomány – Wikipédia Ugrás a tartalomhoz Főmenü Főmenü áthelyezés az oldalsávba elrejtés Navigáció KezdőlapTartalomKiemelt szócikkekFriss változtatásokLap találomraTudakozó Részvétel KezdőknekSegítségKözösségi portálKapcsolatfelvételAdományok Keresés Keresés Fiók létrehozása Bejelentkezés Személyes eszközök Fiók létrehozása Bejelentkezés Lapok kijelentkezett szerkesztőknek további információk KözreműködésekVitalap Tartalomjegyzék áthelyezés az oldalsávba elrejtés Bevezető 1Vizsgálati területei A(z) Vizsgálati területei alszakasz kinyitása/becsukása 1.1Számítástudomány 1.2Számítógép-tudomány 2Története és alágai 3Kapcsolódó szócikkek 4Jegyzetek 5További információk Tartalomjegyzék kinyitása/becsukása Számítástudomány 161 nyelv EnglishAfrikaansAlemannischአማርኛAragonésالعربيةمصرىঅসমীয়াAsturianuAzərbaycancaتۆرکجهБашҡортсаBoarischŽemaitėškaBikol CentralБеларускаяБеларуская (тарашкевіца)БългарскиभोजपुरीবাংলাBrezhonegBosanskiCatalàکوردیCorsuČeštinaKaszëbscziCymraegDanskDeutschZazakiΕλληνικάEmiliàn e rumagnòlEsperantoEspañolEestiEuskaraEstremeñuفارسیSuomiVõroFøroysktFrançaisNordfriiskFurlanFryskGaeilgeKriyòl gwiyannenGalegoGaelg客家語/Hak-kâ-ngîעבריתहिन्दीHrvatskiKreyòl ayisyenՀայերենInterlinguaBahasa IndonesiaInterlingueÍslenskaItalianoᐃᓄᒃᑎᑐᑦ / inuktitut日本語La .lojban.ქართულიQaraqalpaqshaTaqbaylitҚазақшаKalaallisutភាសាខ្មែរಕನ್ನಡ한국어KurdîLatinaLadinoLëtzebuergeschLigureLombardLietuviųLatgaļuLatviešuМокшеньMalagasyОлык марийMinangkabauМакедонскиമലയാളംМонголꯃꯤꯇꯩ ꯂꯣꯟBahasa MelayuMirandésမြန်မာဘာသာNapulitanoNedersaksiesनेपालीनेपाल भाषाNederlandsNorsk nynorskNorsk bokmålNovialNouormandOccitanOromooଓଡ଼ିଆPicardपालिPolskiPiemontèisپښتوPortuguêsRuna SimiRomânăArmãneashtiРусскийРусиньскыйसंस्कृतम्Саха тылаSarduSicilianuScotsسنڌيSrpskohrvatski / српскохрватскиTaclḥitၽႃႇသႃႇတႆး සිංහලSimple EnglishSlovenčinaSlovenščinaShqipСрпски / srpskiSeelterskSundaSvenskaKiswahiliதமிழ்తెలుగుTetunТоҷикӣไทยትግርኛTagalogTok PisinTürkçeТатарча / tatarçaئۇيغۇرچە / UyghurcheУкраїнськаاردوOʻzbekcha / ўзбекчаVènetoTiếng ViệtWalonWinarayWolof吴语მარგალურიYorùbáZeêuws中文閩南語 / Bân-lâm-gú粵語IsiZulu Hivatkozások szerkesztése SzócikkVitalap magyar OlvasásSzerkesztésLaptörténet Eszközök Eszközök áthelyezés az oldalsávba elrejtés Műveletek OlvasásSzerkesztésLaptörténet Általános Mi hivatkozik erre?Kapcsolódó változtatásokSpeciális lapokHivatkozás erre a változatraLapinformációkHogyan hivatkozz erre a lapra?Rövidített URL készítéseQR-kód letöltéseWikidata-adatlap Nyomtatás/\\u200bexportálás Könyv készítéseLetöltés PDF-kéntNyomtatható változat Társprojektek Wikimédia Commons A Wikipédiából, a szabad enciklopédiából Ez a közzétett változat, ellenőrizve: 2023. június 30.Pontosságellenőrzött Lásd még: Informatika A számítástudomány (computing science) és a számítógép-tudomány (computer science) egymáshoz nagyon közeli, egymást majdnem teljesen átfedő és szorosan összefüggő területeket ölel fel, ezért tárgyalásuk csak együttesen értelmezhető.',\n", " 'Mindkét tudományág lényege, hogy az információkezelést és -feldolgozást állítja vizsgálata fókuszába elméleti és gyakorlati megközelítésben.',\n", " 'Kialakulása az 1940-es években kezdődött, nemcsak időben egybeesve, de szoros kapcsolatban is az első elektronikus számítógépek tervezésével.',\n", " 'A számítástudomány nem azonos sem az informatikával, sem a számítástechnikával (főleg ha a szilíciumcsipek gyártásának technikáját is ideértjük), sem pedig az információelmélettel, bár vannak kisebb-nagyobb átfedések.',\n", " 'A számítástudománynak nem feladata konkrét szoftverek fejlesztése, bár foglalkozik azzal, miképp lehet a szoftverek hatékony tervezését segíteni, és ennek milyen elméleti alapjai vannak.',\n", " 'Nem feladata konkrét információfeldolgozó gépek tervezése, bár szintén foglalkozik azzal, hogyan lehet ezek hatékonyságát elméleti szinten növelni; végképp nem feladata pedig ezek megépítése, bár a tudományág úttörői, mint Alan Turing vagy Neumann János, munkatársként részt vettek a számítógépek korai modelljeinek építésében, kialakításában is (elméleti munkásságukkal szoros kapcsolatban).',\n", " 'Vizsgálati területei[szerkesztés] Számítástudomány[szerkesztés] A számítástudomány[1][2] a matematika egyik, igen fiatal tudományága, amely az információfeldolgozó gépek (például számítógépek) tervezésének és működtetésének elméleti, matematikai alapjaival foglalkozik.[3] Némileg elnagyoltan az algoritmusok általános elméletének is nevezhető.[4] „A számítógépek megjelenése, a mechanikus számítási eljárások megindították az algoritmus definíciójának és a programok írásmódjának formalizálását, az algoritmusok és programok szintaktikai (utasítások, vezérlési struktúra), szemantikai (helyesség, ekvivalencia), valamint kiszámíthatósági (a bemeneti értékekhez tartozó kiszámítási idő és memóriaszükséglet) tulajdonságainak mélyreható vizsgálatát.',\n", " 'E kutatási területeket összefoglalóan matematikai számítástudománynak nevezzük.”[5][6] Az információkezelés és -feldolgozás matematikai alapjai köré csoportosul, és a számítások alapvető természetének megértésére irányul, mely számos alkalmazáshoz vezet a hatékony algoritmusok elemzésében és tervezésében, valamint a megbízható hardver- és szoftverrendszerek tervezésére és ellenőrzésére szolgáló formális módszerek fejlesztésében.',\n", " 'Elméleti alapjai: az automataelmélet, a fordítóprogramok, az adatbázis-elmélet.',\n", " 'Gyakorlati területei: a számítógépes irányítás és szabályozás, a nagy rendszerek analízise és szintézise, a mérnöki tervezés.',\n", " 'Ezek alapjait a halmazok, ítéletek, relációk, függvények, a számelmélet, a különböző algebrai struktúrák, azon belül főként a Boole-algebra adja.',\n", " 'Fontos része a kódelmélet, azon belül a zajmentes és zajos csatornák, az optimális és hibajavító kódolás alapelemei, az automaták és formális nyelvek elmélete, a párhuzamos és elosztott számítási rendszerek elmélete, valamint az algebra, a logika és a kategóriák a számítástudományban.',\n", " 'Komplex vizsgálati területe a kiszámíthatóságelmélet, valamint annak kiterjesztése, a bonyolultságelmélet, mely azt vizsgálja, miképp lehet osztályozni az algoritmikusan megoldható problémákat, feladatokat a megoldásukhoz szükséges erőforrások mennyisége szerint.',\n", " 'A számítógép-tudománnyal átfedésben levő átmeneti elemei: az adatstruktúrák, az algoritmusok, a programozási nyelvek, a szoftvertechnológia, a mesterséges intelligencia, az adatbázis-kezelés.',\n", " 'Számítógép-tudomány[szerkesztés] A számítógép-tudomány[7][8][9] tárgya maga a számítógép mint eszköz; az információfeldolgozó gépek tervezésének és használatának elméleti kérdéseit kutatja.',\n", " 'A matematika egyik igen fiatal tudományága, amely az információfeldolgozó gépek (például számítógépek) tervezésének és működtetésének elméleti, matematikai alapjaival foglalkozik.',\n", " 'Némileg elnagyoltan az algoritmusok általános elméletének is nevezhető.[10] Eredményei és tárgya közé tartoznak a számításokat végző rendszerek és módszerek megértésével, tervezési módszerekkel, algoritmusokkal és eszközökkel, a fogalmak tesztelésének, valamint az analízisnek és verifikációnak módszereivel, a tudásreprezentációval és ennek implementációjával foglalkozó elméletek.',\n", " 'Komplex vizsgálati területei a véges automaták, valamint a veremautomaták, mint a Turing-gép speciális esetei.',\n", " 'Fő elemei: az algoritmusok és adatszerkezetek, a programozási módszertan és nyelvek, valamint a számítógépes elemek és architektúrák.',\n", " 'Története és alágai[szerkesztés] A számítógép-tudomány a matematika egyik legkésőbb, mintegy fél évszázada önállósult ága.',\n", " 'Keletkezését 1936-tól, Alan Turing angol matematikus automata- és algoritmuselméleti cikkeinek megjelenésétől, illetve Neumann János, Stephen Cole Kleene, Andrej Markov, George H.',\n", " 'Mealy, Edward Forrest Moore, Emil Post, Kurt Gödel, John McCarthy és más kutatók hasonló jellegű munkáinak napvilágra kerülésétől kezdve számíthatjuk.',\n", " 'A számítógép-tudomány fejlődése rendkívül gyors, a legtöbb alágnak azonban már van kialakult és közmegegyezéses jellegű elnevezése és feladatköre.',\n", " 'Néhány alága, elméletcsoportja:[11] kiszámíthatóságelmélet, rekurzióelmélet: az algoritmusok futásának befejeződését, eredményes lefutásának lehetőségét és viszonyait vizsgálja,[12] más szavakkal: egyes függvényeknek, műveleteknek más függvényekkel való kiszámíthatóságával foglalkozik, tekinthető a számításelmélet egy olyan ágának vagy testvérterületének is, mely Turing-gépek és automaták helyett hagyományos matematikai fogalmakra (függvény, generált struktúra stb.) alapoz.',\n", " 'E terület úttörője Stephen Cole Kleene volt (érdekesség, hogy a matematikai logika részének is tekinthető).[13] A bonyolultságelmélet a kiszámíthatóságelmélet kiterjesztése.',\n", " 'Azt vizsgálja, hogyan lehet osztályozni az algoritmikusan megoldható problémákat, feladatokat a megoldásukhoz szükséges erőforrások mennyisége szerint.[14] automataelmélet,[8] számításelmélet, bonyolultságelmélet vagy komplexitáselmélet: formális nyelvek, formális nyelvtanok és automaták elmélete: ide sorolhatóak a generatív nyelvtanok, általánosabban a produkciós rendszerek, az automatatípusok által generált és elfogadott nyelvek vizsgálata, az egyes automatatípusok összehasonlítása.',\n", " 'Ennek az alágnak rengeteg fontos kutatója volt mind nyugaton, mind a Szovjetunióban, ill.',\n", " 'Oroszországban.',\n", " 'Fontos terület a Turing-gépek és hasonló automaták elmélete, mégpedig az ezek által futtatott algoritmusok idő-és memóriaigényének vizsgálata.',\n", " 'Központi problémája a hatékonysági vagy bonyolultsági osztályok (P, NP stb.) közti kapcsolatok megállapítása, illetve az indeterminisztikus algoritmusok vizsgálata és alkalmazása; absztrakt adatszerkezetek elmélete:[6] ide tartozik a gráfelméleti algoritmusok vizsgálata (keresési problémák és például a matroidok alkalmazása az ilyesfajta problémákra), az informatika bizonyos alapfogalmainak (adatszerkezetek) matematikai leírása; formális szemantika: ez a fordítóprogramok különböző formális nyelvtanokkal való leírásának matematikai elméletéből nőtte ki magát; fontos szerepet játszanak benne az attribútumnyelvtanok és rekurzív nyelvtanok elmélete (például), vagy például a logikai programozás elméleti leírása; logikai tervezés és optimalizálás:[8] ez a hagyományosan mérnöki tudomány a számítógép-tudomány absztrakt modelljeinek tanulmányozásával egy időben alakult ki, nagyrészt tőlük függetlenül, logikai áramköröket ugyanis nemcsak számítógépekben, hanem egyszerűbb automatákban is használnak.',\n", " 'Az áramkörök tervezésével és optimalizálásával foglalkozik, logikainak azért nevezik, mert az áramkörmodelleket ún. logikai kapukból építi fel: egy logikai kapu olyan elektronikus szerkezet, amely a bemenő digitális (a gyakorlatban szinte mindig elektronikus) jelek valamilyen logikai függvényét képes előállítani.',\n", " 'Optimális egy áramkör (általában), ha a kapuk számát sikerül minimalizálni. mesterségesintelligencia-kutatás[8] (pontosabban ennek matematikai alapjai): az az algoritmusok hatékonyságát azok önállóságának, önműködésének szempontjából vizsgálja; ez az elmélet a számítógép-tudomány, az informatika és a kognitív tudomány érdekes határterületeiből nőtt össze és ki; Számos terület (pl. a párhuzamos algoritmusok elmélete, az axiomatikus bonyolultságelmélet stb.) azonban még mindig inkább csak születőfélben lévő elmélet, mintsem önálló névvel rendelkező tudományág formájában létezik, és nehezebben sorolható a fenti alágak közé.',\n", " 'Kapcsolódó szócikkek[szerkesztés] algoritmus Informatika Jegyzetek[szerkesztés] ↑ Katona Gyula – Recski András – Szabó Csaba: A számítástudomány alapjai.',\n", " 'Typotex Kft., 2002.; ISBN 978-963-9664-19-7; ISBN 963-9664-19-7. ↑ A BME számítástudományi és információelméleti tanszékének honlapja.',\n", " 'Hiv. beill.: 2011. 12. 19. ↑ Computer science Archiválva 2010. május 27-i dátummal a Wayback Machine-ben - Szótári bejegyzés az amerikai NITRD (A Hálózati és Információs Technológia Nemzeti Együttműködést Irányító Hivatala - National Coordination Office for Networking and Information Technology) honlapján. ↑ Dayton Codebreakers.com[halott link] ↑ Giorgio Ausiello: Algoritmusok és rekurzív függvények bonyolultságelmélete.',\n", " 'Műszaki Könyvkiadó, Bp., 1984.',\n", " 'ISBN 963-10-5159-5. 14. o. ↑ a b U.',\n", " 'S.',\n", " 'National Research Council Committee on the Fundamentals of Computer Science : Computer Science.',\n", " 'Google elektronikus könyv (PDF), (erősen) korlátozott előnézet.',\n", " 'Hiv. beill. 2010. július 12.; 11.-13. o.Hiv. beillesztése: 2011. 12. 19. ↑ A kombinatorika és a séta mestere (beszélgetés Szemerédi Endre matematikussal).',\n", " 'Magyar Tudomány; 2008./06.; hiv. beill. 2010. augusztus 1.',\n", " 'Vö.: „Az elméleti számítástechnika művelése ugyanis sokszor nagyon nehéz, bonyolult matematikai eszközöket és gondolatokat igényel: szóval, az elméleti számítástechnika szerintem a matematika egyik ága!',\n", " 'Egyébként Magyarországon folyt vita arról, miképp nevezzék a gyereket, elméleti számítástechnika, számítógép-tudomány és ki tudja, mi még – egyik sem tűnik túl szerencsésnek.',\n", " 'Talán az elméleti számítástechnika a legjobb magyar fordítás…” ↑ a b c d Ralston, Anthony: Programozás és számítógép-tudomány.',\n", " 'Műszaki Könyvkiadó, Bp., 1974.',\n", " 'ISBN 963-10-0616-6. ↑ Az ELTE számítógép-tudományi tanszékének honlapja Archiválva 2010. május 15-i dátummal a Wayback Machine-ben.',\n", " 'Hiv. beill.: 2011. 12. 19. ↑ Tudomány és még sok minden. mindenkilapja.hu. [2016. augusztus 15-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. január 13.) ↑ Tasnádi Attila: Számítástudomány gazdaságinformatikusoknak | bookline. [2008. november 9-i dátummal az eredetiből archiválva]. (Hozzáférés: 2010. július 12.) ↑ Algoritmizálás alapjai. tankonyvtar.hu, 2011. (Hozzáférés: 2016. január 13.) ↑ (ld. angolul). [2004. április 16-i dátummal az eredetiből archiválva]. (Hozzáférés: 2004. október 3.) ↑ Ésik, Zoltán.',\n", " 'A számítástudomány alapjai.',\n", " 'TypotexKiadó, 5. o. (2011).',\n", " 'Hozzáférés ideje: 2016. január 13.',\n", " 'További információk[szerkesztés] Alice és Bob – 6. rész: Alice és Bob a kiszámíthatóság határán Alice és Bob – 7. rész: Alice és Bob egymillió dolláros kérdése Alice és Bob – 8. rész: Alice és Bob biztonsága Ralston, Anthony: Programozás és számítógép-tudomány.',\n", " 'Műszaki Könyvkiadó, Bp., 1974.',\n", " 'ISBN 963-10-0616-6. (er. mű: Introduction to Programming and Computer Science, McGraw-Hill Inc.; ford.',\n", " 'Dr. Szabados József).',\n", " 'Informatikai portál • összefoglaló, színes tartalomajánló lap Nemzetközi katalógusok LCCN: sh89003285 GND: 4026894-9 NKCS: ph124511 BNF: cb11932109b BNE: XX525961 A lap eredeti címe: „https://hu.wikipedia.org/w/index.php?title=Számítástudomány&oldid=26253398” Kategória: Számítógép-tudományRejtett kategóriák: Minden szócikk halott külső hivatkozásokkalSzócikkek halott külső hivatkozásokkal 2019 áprilisábólWikipédia-szócikkek LCCN azonosítóvalWikipédia-szócikkek GND azonosítóvalWikipédia-szócikkek BNF azonosítóval A lap utolsó módosítása: 2023. június 30., 11:20 A lap szövege Creative Commons Nevezd meg! – Így add tovább! 4.0 licenc alatt van; egyes esetekben más módon is felhasználható.',\n", " 'Részletekért lásd a felhasználási feltételeket.',\n", " 'Adatvédelmi irányelvek A Wikipédiáról Jogi nyilatkozat Code of Conduct Fejlesztők Statisztikák Sütinyilatkozat Mobil nézet Korlátozott tartalomszélesség ki/be']" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "hu_segments" ] }, { "cell_type": "code", "execution_count": 7, "id": "af282c08", "metadata": {}, "outputs": [], "source": [ "# Save the Polish and English segments to separate files\n", "with open('hu_segments.txt', 'w', encoding='utf-8') as file:\n", " for segment in hu_segments:\n", " file.write(segment + '\\n')\n", "\n", "with open('en_segments.txt', 'w', encoding='utf-8') as file:\n", " for segment in en_segments:\n", " file.write(segment + '\\n')" ] }, { "cell_type": "code", "execution_count": 8, "id": "4134e233", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Reading dictionary...\n", "59 source language sentences read.\n", "379 target language sentences read.\n", "Sizes differing too much. Ignoring files to avoid a rare loop bug.\n" ] } ], "source": [ "!hunalign/src/hunalign/hunalign hunalign/data/hu-en.stem.dic hu_segments.txt en_segments.txt -hand=hunalign/examples/demo.manual.ladder -text > align.txt" ] }, { "cell_type": "markdown", "id": "falling-greenhouse", "metadata": {}, "source": [ "### Ćwiczenie 4: Napisz konwerter formatu hunaligna na XLIFF." ] }, { "cell_type": "code", "execution_count": 9, "id": "a30fb7bc", "metadata": {}, "outputs": [], "source": [ "import xml.etree.ElementTree as ET\n", "\n", "def hunalign_to_xliff(hunalign_content, source_lang, target_lang, xliff_file):\n", " xliff = ET.Element('xliff', {\n", " 'xmlns': 'urn:oasis:names:tc:xliff:document:1.2',\n", " 'version': '1.2'\n", " })\n", " \n", " file_elem = ET.SubElement(xliff, 'file', {\n", " 'datatype': 'plaintext',\n", " 'original': 'self',\n", " 'source-language': source_lang,\n", " 'target-language': target_lang\n", " })\n", " \n", " header = ET.SubElement(file_elem, 'header')\n", " metadata = ET.SubElement(header, 'sxmd:metadata', {\n", " 'xmlns:sxmd': 'urn:x-sap:mlt:xliff12:metadata:1.0',\n", " 'xmlns': 'urn:x-sap:mlt:tsmetadata:1.0'\n", " })\n", " ET.SubElement(metadata, 'object-name').text = 'sample'\n", " ET.SubElement(metadata, 'collection').text = 'KWT'\n", " ET.SubElement(metadata, 'domain').text = 'KWT'\n", " ET.SubElement(metadata, 'developer').text = '123'\n", " ET.SubElement(metadata, 'description').text = 'sample XLIFF file'\n", " \n", " body = ET.SubElement(file_elem, 'body')\n", " \n", " for i, line in enumerate(hunalign_content.strip().split('\\n')):\n", " src_tgt = line.strip().split(' ||| ')\n", " if len(src_tgt) == 2:\n", " trans_unit = ET.SubElement(body, 'trans-unit', {'id': str(i + 1)})\n", " ET.SubElement(trans_unit, 'source').text = src_tgt[0]\n", " ET.SubElement(trans_unit, 'target').text = src_tgt[1]\n", " \n", " tree = ET.ElementTree(xliff)\n", " ET.indent(tree, space=\" \", level=0) # Formatowanie z wcięciami\n", " tree.write(xliff_file, encoding='utf-8', xml_declaration=True)" ] }, { "cell_type": "code", "execution_count": 10, "id": "6b68cbed", "metadata": {}, "outputs": [], "source": [ "hunalign_content = \"\"\"\n", "0-0 Hello world! ||| Witaj świecie!\n", "1-1 This is a test. ||| To jest test.\n", "2-2 How are you? ||| Jak się masz?\n", "\"\"\"\n", "hunalign_to_xliff(hunalign_content, 'en', 'pl', 'output.xliff')" ] }, { "cell_type": "code", "execution_count": 11, "id": "d799237b", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "\n", " \n", "
\n", " \n", " sample\n", " KWT\n", " KWT\n", " 123\n", " sample XLIFF file\n", " \n", "
\n", " \n", " \n", " 0-0 Hello world!\n", " Witaj świecie!\n", " \n", " \n", " 1-1 This is a test.\n", " To jest test.\n", " \n", " \n", " 2-2 How are you?\n", " Jak się masz?\n", " \n", " \n", "
\n", "
\n" ] } ], "source": [ "with open(\"output.xliff\", \"r\") as file:\n", " print(file.read())" ] } ], "metadata": { "author": "Rafał Jaworski", "email": "rjawor@amu.edu.pl", "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "lang": "pl", "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.14" }, "subtitle": "11. Urównoleglanie", "title": "Komputerowe wspomaganie tłumaczenia", "year": "2021" }, "nbformat": 4, "nbformat_minor": 5 }