Add project jupyter, readme and requirements

This commit is contained in:
Karolina 2022-08-29 01:15:08 +02:00
parent d52d43897f
commit db31835034
4 changed files with 2384 additions and 0 deletions

2332
Konopka_QA.ipynb Normal file

File diff suppressed because one or more lines are too long

BIN
Konopka_Raport.docx Normal file

Binary file not shown.

42
README.md Normal file
View File

@ -0,0 +1,42 @@
# Projekt - Metody uczenia maszynowego w przetwarzaniu języka naturalnego
## Wymagania
Do oceny projektu proszę przygotować:
- odnośnik do repozytorium z plikami projektu (jeśli istnieje)
- demonstrację projektu
- krótki raport, zawierający:
- cel projektu / definicję problemu (jakie zagadnienie Państwo rozwiązywali)
- opis użytych danych (w jaki sposób zebrano dane, czy i jak dokonano wstępnego przetworzenia danych, ile przykładów
zawierają zbiory uczący i testowy)
- opis wykorzystanych metod (jakich modeli Państwo użyli)
- tabelkę z wynikami ewaluacji
- ewentualne wnioski
Wzór raportu znajduje się w pliku Wzór raportu.docx
## Cel
Celem projektu było stworzenie modelu, który odpowiada na subiektywne pytania na podstawie kontekstu.
## Zbiór danych
Dane pobrane są z przygotowanego korpusu [SubjQA](https://huggingface.co/datasets/subjqa) w
wersji tripadvisor oraz restaurants. Jest to zbiór zawierający subiektywne pytania, takich jak "How do you like the soup?".
Zbiór danych jest zbudowany z tekstów ze stron internetowych, zawierających recenzje hoteli oraz resturacji oraz pytań i odpowiedzi.
Nie wszystkie pytania mają odpowiedzi.
Zbiór jest podzielony na train,test i validation, gdzie:
- tripadisor zawiera train:1165, test:230, validation:512 rekordów.
- restaurants zawiera train:1400, test:267, validation:266 rekordów.
Ponieważ przy trenowaniu nie ma potrzeby używać splitu test, więc po połączeniu datasetów, przyłączeniu
test do train i usunięciu rekordów ktore nie mają odpowiedzi na pytanie powstaje zbiór o wielkości:
- train: 1666
- validation: 265
Tokenizowany kontekst musi mieć ograniczoną wielkość, w tym przypadku 384,
z tego powodu dany zbiór został przetworzony używając stride=128 i max_lenght=384, co sprawiło że całkowita
wielkość zbiru wyniosła:
- train 2030 features
- validation 327 features

10
requirements.txt Normal file
View File

@ -0,0 +1,10 @@
jupyter
torch==1.12.1+cu116
torchaudio==0.12.1+cu116
torchvision==0.13.1+cu116
--extra-index-url https://download.pytorch.org/whl/cu116
transformers==4.21.1
datasets==2.4.0
matplotlib
pandas
evaluate