Go to file
2022-08-29 01:19:32 +02:00
.gitignore Add gitignore 2022-08-24 19:18:50 +02:00
Konopka_QA.ipynb Change cell to polish 2022-08-29 01:17:15 +02:00
Konopka_Raport.docx Update raport 2022-08-29 01:19:32 +02:00
README.md Add project jupyter, readme and requirements 2022-08-29 01:15:08 +02:00
requirements.txt Add project jupyter, readme and requirements 2022-08-29 01:15:08 +02:00

Projekt - Metody uczenia maszynowego w przetwarzaniu języka naturalnego

Wymagania

Do oceny projektu proszę przygotować:

  • odnośnik do repozytorium z plikami projektu (jeśli istnieje)
  • demonstrację projektu
  • krótki raport, zawierający:
    • cel projektu / definicję problemu (jakie zagadnienie Państwo rozwiązywali)
    • opis użytych danych (w jaki sposób zebrano dane, czy i jak dokonano wstępnego przetworzenia danych, ile przykładów zawierają zbiory uczący i testowy)
    • opis wykorzystanych metod (jakich modeli Państwo użyli)
    • tabelkę z wynikami ewaluacji
    • ewentualne wnioski

Wzór raportu znajduje się w pliku Wzór raportu.docx

Cel

Celem projektu było stworzenie modelu, który odpowiada na subiektywne pytania na podstawie kontekstu.

Zbiór danych

Dane pobrane są z przygotowanego korpusu SubjQA w wersji tripadvisor oraz restaurants. Jest to zbiór zawierający subiektywne pytania, takich jak "How do you like the soup?".
Zbiór danych jest zbudowany z tekstów ze stron internetowych, zawierających recenzje hoteli oraz resturacji oraz pytań i odpowiedzi. Nie wszystkie pytania mają odpowiedzi. Zbiór jest podzielony na train,test i validation, gdzie:

  • tripadisor zawiera train:1165, test:230, validation:512 rekordów.
  • restaurants zawiera train:1400, test:267, validation:266 rekordów.

Ponieważ przy trenowaniu nie ma potrzeby używać splitu test, więc po połączeniu datasetów, przyłączeniu test do train i usunięciu rekordów ktore nie mają odpowiedzi na pytanie powstaje zbiór o wielkości:

  • train: 1666
  • validation: 265

Tokenizowany kontekst musi mieć ograniczoną wielkość, w tym przypadku 384, z tego powodu dany zbiór został przetworzony używając stride=128 i max_lenght=384, co sprawiło że całkowita wielkość zbiru wyniosła:

  • train 2030 features
  • validation 327 features