.gitignore | ||
Konopka_QA.ipynb | ||
Konopka_Raport.docx | ||
README.md | ||
requirements.txt |
Projekt - Metody uczenia maszynowego w przetwarzaniu języka naturalnego
Wymagania
Do oceny projektu proszę przygotować:
- odnośnik do repozytorium z plikami projektu (jeśli istnieje)
- demonstrację projektu
- krótki raport, zawierający:
- cel projektu / definicję problemu (jakie zagadnienie Państwo rozwiązywali)
- opis użytych danych (w jaki sposób zebrano dane, czy i jak dokonano wstępnego przetworzenia danych, ile przykładów zawierają zbiory uczący i testowy)
- opis wykorzystanych metod (jakich modeli Państwo użyli)
- tabelkę z wynikami ewaluacji
- ewentualne wnioski
Wzór raportu znajduje się w pliku Wzór raportu.docx
Cel
Celem projektu było stworzenie modelu, który odpowiada na subiektywne pytania na podstawie kontekstu.
Zbiór danych
Dane pobrane są z przygotowanego korpusu SubjQA w
wersji tripadvisor oraz restaurants. Jest to zbiór zawierający subiektywne pytania, takich jak "How do you like the soup?".
Zbiór danych jest zbudowany z tekstów ze stron internetowych, zawierających recenzje hoteli oraz resturacji oraz pytań i odpowiedzi.
Nie wszystkie pytania mają odpowiedzi.
Zbiór jest podzielony na train,test i validation, gdzie:
- tripadisor zawiera train:1165, test:230, validation:512 rekordów.
- restaurants zawiera train:1400, test:267, validation:266 rekordów.
Ponieważ przy trenowaniu nie ma potrzeby używać splitu test, więc po połączeniu datasetów, przyłączeniu test do train i usunięciu rekordów ktore nie mają odpowiedzi na pytanie powstaje zbiór o wielkości:
- train: 1666
- validation: 265
Tokenizowany kontekst musi mieć ograniczoną wielkość, w tym przypadku 384, z tego powodu dany zbiór został przetworzony używając stride=128 i max_lenght=384, co sprawiło że całkowita wielkość zbiru wyniosła:
- train 2030 features
- validation 327 features