BERT custom & cleanup

This commit is contained in:
Jakub Adamski 2023-02-18 01:26:59 +01:00
parent 2392c398de
commit bb87963601
8 changed files with 5445 additions and 8 deletions

File diff suppressed because one or more lines are too long

View File

@ -3,11 +3,13 @@ Wykrywanie czy podany SMS to spam - klasyfikacja.
## Zbiór danych
Wykorzystaliśmy zbiór danych [sms spam](https://huggingface.co/datasets/sms_spam). Dataset posiada tylko zbiór treningowy dlatego w trakcie uczenia modeli podzielilśmy go losowo na 3 podzbiory (wyjątek few-shot learning):
Wykorzystaliśmy zbiór danych [sms spam](https://huggingface.co/datasets/sms_spam). Dataset posiada tylko zbiór treningowy dlatego w trakcie uczenia modeli podzielilśmy go na 3 podzbiory (wyjątek few-shot learning):
- zbiór testowy 1 000 przykładów
- zbiór treningowy 4 116 przykładów
- zbiór walidacyjny 458 przykładów
W każdym podzbiorze ocenialiśmy zrównoważenie klas.
## Ewaluacja
Ewaluacja modeli występuje po etapie trenowania na zbiorze testowym. Metryki:
@ -32,6 +34,20 @@ Najważniejsze cechy:
- Accuracy: 99%
- MCC: 0.973
### Transformer Encoder - BERT - modyfikacja
Najważniejsze cechy:
- wytrenowany model: bert-base-uncased
- typ modelu zmodyfikowany transformers.BertForSequenceClassification - dodatkowa warstwa liniowa
- input modelu - treść smsa
- output modelu - klasa 1 lub 2
- finetuning na zbiorze treningowym
- adamW optimizer
- learning rade 2e-5
- 32 batch size
- 4 epoch
- Accuracy: 99.5%
- MCC: 0.981
### Transformer Decoder - GPT2
Najważniejsze cechy:
- wytrenowany model gpt2
@ -101,16 +117,20 @@ FLAN-T5 to zoptymalizowany model T5. Został dodatkowo finetunowany na większym
### FLAN-T5 - testy
|Wersja|Rozmiar|Prefiks|Acc|
|---|---|---|---|
|1|base|SMS - Content of the text message: <br />Result - Answer if this text message is spam or not|0.503593244699964|
|2|large|SMS - Content of the text message: <br />Result - Answer if this text message is spam or not|0.46119295724038806|
|3|base|SMS - The text message contains the following content: <br />Result - Is it true that the content of a text message is spam:|0.2551203736974488|
|4|large|SMS - The text message contains the following content: <br />Result - Is it true that the content of a text message is spam:|0.1433704635285663|
|5|base|SMS - The text message: <br />Result - Is this sms spam? Ans:|0.28404599353215954|
|6|large|SMS - The text message: <br />Result - Is this sms spam? Ans:|0.20786920589292132|
|1|base|Content of the text message: [sms_content]<br />Answer if this text message is spam or not [True,False]|0.503593244699964|
|2|large|Content of the text message: [sms_content]<br />Answer if this text message is spam or not [True,False]|0.46119295724038806|
|3|base|The text message contains the following content: [sms_content]<br />Is it true that the content of a text message is spam: [True,False]|0.2551203736974488|
|4|large|The text message contains the following content: [sms_content]<br />Is it true that the content of a text message is spam: [True,False]|0.1433704635285663|
|5|base|The text message: [sms_content]<br />Is this sms spam? Ans: [True,False]|0.28404599353215954|
|6|large|The text message: [sms_content]<br />Is this sms spam? Ans: [True,False]|0.20786920589292132|
### Modele FLAN_T5
## Modele
### Bazowe rozwiązania
https://drive.google.com/drive/folders/1wpoxkwzDtiQhygXCRT4M-Gbrenz-QOLH?usp=sharing
### Modele FLAN_T5 - testy
1. https://drive.google.com/drive/folders/1XO2TEMIKKFXCwpeW1X51hpC89LShCZ6c?usp=share_link
2. https://drive.google.com/drive/folders/1-3DEVCcxhRGSmEVx3jK4SUVVIUixNKqS?usp=share_link
3. https://drive.google.com/drive/folders/1-0Ct4JFzRhyo3bGuOc9ttZhaV4ghQRFx?usp=share_link