Add project jupyter, readme and requirements
This commit is contained in:
parent
d52d43897f
commit
db31835034
2332
Konopka_QA.ipynb
Normal file
2332
Konopka_QA.ipynb
Normal file
File diff suppressed because one or more lines are too long
BIN
Konopka_Raport.docx
Normal file
BIN
Konopka_Raport.docx
Normal file
Binary file not shown.
42
README.md
Normal file
42
README.md
Normal file
@ -0,0 +1,42 @@
|
||||
# Projekt - Metody uczenia maszynowego w przetwarzaniu języka naturalnego
|
||||
|
||||
## Wymagania
|
||||
|
||||
Do oceny projektu proszę przygotować:
|
||||
|
||||
- odnośnik do repozytorium z plikami projektu (jeśli istnieje)
|
||||
- demonstrację projektu
|
||||
- krótki raport, zawierający:
|
||||
- cel projektu / definicję problemu (jakie zagadnienie Państwo rozwiązywali)
|
||||
- opis użytych danych (w jaki sposób zebrano dane, czy i jak dokonano wstępnego przetworzenia danych, ile przykładów
|
||||
zawierają zbiory uczący i testowy)
|
||||
- opis wykorzystanych metod (jakich modeli Państwo użyli)
|
||||
- tabelkę z wynikami ewaluacji
|
||||
- ewentualne wnioski
|
||||
|
||||
Wzór raportu znajduje się w pliku Wzór raportu.docx
|
||||
|
||||
## Cel
|
||||
|
||||
Celem projektu było stworzenie modelu, który odpowiada na subiektywne pytania na podstawie kontekstu.
|
||||
|
||||
## Zbiór danych
|
||||
|
||||
Dane pobrane są z przygotowanego korpusu [SubjQA](https://huggingface.co/datasets/subjqa) w
|
||||
wersji tripadvisor oraz restaurants. Jest to zbiór zawierający subiektywne pytania, takich jak "How do you like the soup?".
|
||||
Zbiór danych jest zbudowany z tekstów ze stron internetowych, zawierających recenzje hoteli oraz resturacji oraz pytań i odpowiedzi.
|
||||
Nie wszystkie pytania mają odpowiedzi.
|
||||
Zbiór jest podzielony na train,test i validation, gdzie:
|
||||
- tripadisor zawiera train:1165, test:230, validation:512 rekordów.
|
||||
- restaurants zawiera train:1400, test:267, validation:266 rekordów.
|
||||
|
||||
Ponieważ przy trenowaniu nie ma potrzeby używać splitu test, więc po połączeniu datasetów, przyłączeniu
|
||||
test do train i usunięciu rekordów ktore nie mają odpowiedzi na pytanie powstaje zbiór o wielkości:
|
||||
- train: 1666
|
||||
- validation: 265
|
||||
|
||||
Tokenizowany kontekst musi mieć ograniczoną wielkość, w tym przypadku 384,
|
||||
z tego powodu dany zbiór został przetworzony używając stride=128 i max_lenght=384, co sprawiło że całkowita
|
||||
wielkość zbiru wyniosła:
|
||||
- train 2030 features
|
||||
- validation 327 features
|
10
requirements.txt
Normal file
10
requirements.txt
Normal file
@ -0,0 +1,10 @@
|
||||
jupyter
|
||||
torch==1.12.1+cu116
|
||||
torchaudio==0.12.1+cu116
|
||||
torchvision==0.13.1+cu116
|
||||
--extra-index-url https://download.pytorch.org/whl/cu116
|
||||
transformers==4.21.1
|
||||
datasets==2.4.0
|
||||
matplotlib
|
||||
pandas
|
||||
evaluate
|
Loading…
Reference in New Issue
Block a user