Komputerowe wspomaganie tłumaczenia

4,5. Klasyfikacja tematyczna (terminologii ciąg dalszy) [laboratoria]

Rafał Jaworski (2021)

Komputerowe wspomaganie tłumaczenia

Zajęcia 4 i 5 - klasyfikacja tematyczna (terminologii ciąg dalszy)

Na poprzednich zajęciach opracowaliśmy nasz własny ekstraktor terminologii. Mówiliśmy również, jak ważna jest ekstrakcja terminów specjalistycznych. Dziś zajmiemy się zagadnieniem, w jaki sposób wyciągnąć z tekstu terminy, które naprawdę są specjalistyczne.

Dlaczego nasze dotychczasowe rozwiązanie mogło nie spełniać tego warunku? Wykonajmy następujące ćwiczenie:

Ćwiczenie 1: Zgromadź korpus w języku angielskim składający się z co najmniej 100 dokumentów, z których każdy zawiera co najmniej 100 zdań. Wykorzystaj stronę Dobrze, aby dokumenty pochodziły z różnych dziedzin (np. prawo Unii Europejskiej, manuale programistyczne, medycyna). Ściągnięty korpus zapisz na swoim dysku lokalnym, nie załączaj go do niniejszego notatnika.

Taki korpus pozwoli nam zaobserwować, co się stanie, jeśli do ekstrakcji terminologii będziemy stosowali wyłącznie kryterium częstościowe. Aby wykonać odpowiedni eksperyment musimy uruchomić ekstraktor z poprzednich zajęć.

Ćwiczenie 2: Uruchom ekstraktor terminologii (wykrywacz rzeczowników) z poprzednich zajęć na każdym dokumencie z osobna. Jako wynik ekstraktora w każdym przypadku wypisz 5 najczęściej występujących rzeczowników. Wyniki działania komendy umieść w notatniku.

import spacy
from collections import Counter
nlp = spacy.load("en_core_web_sm")
documents = {
    'bible': './books/bible.en',
    'forgein_affair': './books/forgein_affair.en',
    'justice': './books/justice.en'}
def extract_terms(path: str, k: int = 5):
    with open(path, 'r') as f:
        text =[:1000000]
    doc = nlp(text.lower())
    noun_counts = Counter([w.lemma_ for w in doc if w.pos_ == 'NOUN'])
    return noun_counts.most_common(k)
[('man', 966), ('child', 943), ('son', 930), ('land', 805), ('day', 783)]
[('%', 654), ('country', 567), ('market', 312), ('year', 297), ('state', 251)]
[('project', 78),
 ('account', 40),
 ('information', 39),
 ('application', 34),
 ('victim', 28)]

Czy wyniki uzyskane w ten sposób to zawsze terminy specjalistyczne? Niestety może zdarzyć się, że w wynikach pojawią się rzeczowniki, które są po prostu częste w języku, a niekoniecznie charakterystyczne dla przetwarzanych przez nas tekstów. Aby wyniki ekstrakcji były lepsze, konieczne jest zastosowanie bardziej wyrafinowanych metod.

Jedną z tych metod jest znana z dyscypliny Information Retrieval technika zwana TF-IDF. Jej nazwa wywodzi się od Term Frequency Inverted Document Frequency. Według tej metody, dla każdego odnalezionego przez nas termu powinniśmy obliczyć czynnik TF-IDF, a następnie wyniki posortować malejąco po wartości tego czynnika.

Jak obliczyć czynnik TF-IDF? Czym jest TF, a czym jest IDF?

Zacznijmy od TF, bo ten czynnik już znamy. Jest to nic innego jak częstość wystąpienia terminu w tekście, który przetwarzamy. Idea TF-IDF skupia się na drugim czynniku - IDF. Słowo _inverted oznacza, że czynnik ten będzie odwrócony, czyli trafi do mianownika. W związku z tym TF-IDF to w istocie: $\frac{TF}{DF}$

Czym zatem jest document frequency? Jest to liczba dokumentów, w których wystąpił dany termin. Dokumenty w tym przypadku są rozumiane jako jednostki, na które podzielony jest korpus, nad którym pracujemy (dokładnie taki, jak korpus z ćwiczenia pierwszego).

Zastanówmy się nad sensem tego czynnika. Pamiętajmy, że naszym zadaniem jest ekstracja terminów z tylko jednego dokumentu na raz. Mamy jednak do dyspozycji wiele innych dokumentów, zawierających wiele innych słów i termów. Wartość TF-IDF jest tym większa, im częściej termin występuje w dokumencie, na którym dokonujemy ekstrakcji. Czynnik ten jednak zmniejsza się, jeśli słowo występuje w wielu różnych dokumentach. Zatem, popularne słowa będą miały wysoki czynnik DF i niski TF-IDF. Natomiast najwyższą wartość TF-IDF będą miały terminy, które są częste w przetwarzanym przez nas dokumencie, ale nie występują nigdzie indziej.

Ćwiczenie 3: Zaimplementuj czynnik TF-IDF i dokonaj ekstrakcji terminologii za jego pomocą, używając korpusu z ćwiczenia nr 1. Czy wyniki różnią się od tych uzyskanych tylko za pomocą TF?

from typing import List, Dict

def count_words(path: str):
    with open(path, 'r') as f:
        text =[:1000000]
    doc = nlp(text.lower())
    noun_counts = Counter([w.lemma_ for w in doc if w.pos_ == 'NOUN'])
    return noun_counts

def tfidf_extract(document: str, documents: Dict[str, Counter], k: int = 5):
    tf = documents[document]
    rest = [d for d in documents.keys() if d != document]
from collections import Counter
from typing import Dict
import math

def tfidf_extract(document: str, documents: Dict[str, Counter], idf: Dict[str, float], k: int = 5):
    tf = documents[document]
    tfidf = {term: tf[term] * idf[term] for term in tf}
    top_k_terms = sorted(tfidf.items(), key=lambda x: x[1], reverse=True)[:k]
    return top_k_terms

def precompute_idf(documents: Dict[str, Counter]):
    idf = {}
    num_docs = len(documents)
    all_terms = [term for doc in documents.values() for term in doc]
    for term in all_terms:
        num_docs_with_term = sum(1 for doc in documents.values() if term in doc)
        idf[term] = math.log(num_docs / (1 + num_docs_with_term))
    return idf

def load_dict(path: str):
    with open(path, 'r') as f:
        text =[:1000000]
    doc = nlp(text.lower())
    return Counter([w.lemma_ for w in doc if w.pos_ == 'NOUN'])

documents = {
    'bible': './books/bible.en',
    'forgein_affair': './books/forgein_affair.en',
    'justice': './books/justice.en'}

loaded = {k: load_dict(v) for k, v in documents.items()}
idf = precompute_idf(loaded)

for doc_name in documents:
    top_terms = tfidf_extract(doc_name, loaded, idf)
    print(f"Top terms in {doc_name}: {top_terms}")
Top terms in bible: [('son', 377.0825505405929), ('offering', 282.6091803513906), ('father', 250.5774368108456), ('house', 149.61662489191266), ('priest', 145.96743891893917)]
Top terms in forgein_affair: [('%', 265.17418070273953), ('market', 126.5051137297473), ('energy', 83.93127737839002), ('sector', 73.79464967568592), ('accession', 67.71267305406346)]
Top terms in justice: [('mediation', 8.920232378379616), ('proceeding', 6.48744172973063), ('prosecutor', 4.054651081081644), ('promoter', 3.6491859729734797), ('interrogation', 2.8382557567571505)]

Teraz potrafimy już w lepszy sposób wyciągać terminy z dokumentów. Spróbujmy jeszcze czegoś widowiskowego - wygenerujmy tzw. chmurę słów z tekstu przy użyciu biblioteki WordCloud dla artykułu z BBC News (

sudo pip install wordcloud

from wordcloud import WordCloud
wordcloud = WordCloud(background_color="white", max_words=5000, contour_width=3, contour_color='steelblue')

Ćwiczenie 4: Wykonaj chmurę słów dla całego korpusu z ćwiczenia nr 1.

def my_word_cloud(path: str):
    with open(path, 'r') as f:
        text =[:1000000]
    doc = nlp(text.lower())
    nouns = [w.lemma_ for w in doc if w.pos_ == 'NOUN']
    wordcloud = WordCloud(background_color="white", max_words=1000, contour_width=3, contour_color='steelblue')
    return wordcloud.generate(" ".join(nouns)).to_image()

Zastanówmy się nad jeszcze jednym zagadnieniem - jak pogrupować te terminy ze względu na dziedzinę? Zagadnienie to nosi nazwę klasyfikacji tematycznej. A dzięki pewnemu XIX-wiecznemu niemieckiemu matematykowi możliwe jest przeprowadzenie tego procesu automatycznie. Matematyk ten nosił nazwisko Peter Gustav Lejeune Dirichlet, a metoda klasyfikacji nazywa się LDA (Latent Dirichlet Allocation).

Ćwiczenie 5: Wykonaj tutorial dostępny pod Wklej do notatnika wyniki.