Przetwarzanie_tekstu/projekt/UGP_2022_12_project.ipynb

280 lines
231 KiB
Plaintext
Raw Normal View History

2023-02-05 16:53:53 +01:00
{
"cells": [
{
"cell_type": "markdown",
"metadata": {
"id": "2B2CXxJNpfx_"
},
"source": [
"![Logo 1](
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "RRIBeWQNpfyC"
},
"source": [
"<div class=\\\"alert alert-block alert-info\\\">\n",
" <h1>Uczenie głębokie w przetwarzaniu tekstu </h1>\n",
" <h2>12. <i>Projekt</i> [laboratoria]</h2>\n",
" <h3>Karol Kaczmarek (2022/2023)</h3>\n",
"</div>"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "rx1HPQebpfyC"
},
"source": [
"![Logo 2](
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "UjLnzxMBOu7A"
},
"source": [
"# Projekt na zaliczenie przedmiotu"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "k5U138Q6QPoD"
},
"source": [
"## Wymagania\n",
"\n",
"- Przed przystąpieniem do przygotowywania rozwiązania należy zgłosić zespół (maksymalnie 2-3 osobowy) oraz wybrać zbiór danych (na którym zostaną wykonane eksperymenty) - zalecane jest wybór zbiór danych dla problemu klasyfikacji\n",
"- Utworzenie 4 rozwiązań opartych o:\n",
" - Transformer Encoder, np. RoBERTa\n",
" - Transformer Decoder, np. GPT-2\n",
" - Transformer Encoder-Decoder, np. T5\n",
" - Transformer w trybie few-shot/zero-shot learning, np. FLAN-T5\n",
"- Jakość modeli nie powinna znacznie odbiegać od akceptowalnego wyniku, który zostanie zaznaczony podczas wyboru zbioru danych\n",
"- Rozwiązanie powinno zostać dostarczone w postaci:\n",
" - Jupyter Notebook z **kodem źródłowym<sup>1</sup>, historią i wynikami z processu trenowania**\n",
" - katalogu z plikami wytrenowanych modeli\n",
" - plików tekstowych z wykorzystanym korpusem - **tylko w przypadku, gdy zbiór testowy został wydzielone z innego zbioru, np. ze zbioru uczącego**\n",
"- Rozwiązanie powinno zostać opartę o rozwiązaniu na podstawie biblioteki `transformers` - podobnie jak przykłady przedstawione na zajęciach\n",
" - Akceptowalne jest rozwiązanie opartę o inne biblioteki, ale będzie dodatkowa rozmowa o przygotowanych rozwiązaniu (pytania o kod, czy wykorzystane rozwiązania)\n",
"\n",
"<sup>1</sup> - Kod źródłowy modyfikowanych architektur i skryptów wykorzystanych do trenowania/ewaluacji modeli.\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "sdM6u5OqPlbU"
},
"source": [
"## Ograniczenia\n",
"\n",
"- Zespoły maksymalnie 2-3 osobowe\n",
"- Maksymalnie 3 zespoły na podany zbiór danych\n",
"- Zbiór danych, który został wykorzystany na zajęciach nie może być użyty w projekcie - nie akceptowane zbiory to:\n",
" - imdb\n",
" - squad (każda wesja)\n",
"- Nie akceptowany jest zbiór, który zawiera tylko i wyłącznie zbiór treningowy\n",
" - Akceptowalny jest zbiór, który **zawiera tylko i wyłącznie zbiór treningowy i walidacyjny (bez zbioru testowego)** - **dodatkowo wymagane będzie poprawne wydzielenie/utworzenie zbioru testowego ze zbioru walidacyjnego**\n",
"- Nie akceptowany jest zbiór z liczbą przykładów w zbiorze uczącym mniejszy niż 5000\n",
" - Odpowiednio zbiór testowy powienien posiadać przynajmniej ~1000 przykładów\n"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "MSuETV5nWpPP"
},
"source": [
"## Ocena\n",
"\n",
"Ocena:\n",
"\n",
"- **3** - wykorzystanie domyślnych modeli dostępnych w bibliotece `transformers`\n",
" - marginalna zmiana w process trenowania modeli, np. wykorzystanie rozwiązania opartego o model `RobertaForSequenceClassification`\n",
" - wykorzystanie **identycznych rozwiązań**, które zostały przedstawione na zajęciach\n",
"- **4** - wykonanie po 1 **modyfikacji** dla każdego z 3 rozwiązań<sup>1</sup>\n",
"- **5** - wykonanie przynajmniej 4 **modyfikacji** dla 3 rozwiązań<sup>1</sup> (w każdym rozwiązaniu musi być wykonana przynajmniej 1 modyfikacja)\n",
"\n",
"Modyfikacje rozwiązania obejmuje:\n",
"\n",
"- modyfikacja architektury, np. utworzenie własnej głowy klasyfikacyjnej\n",
"- wykorzystanie stanów ukrytych (hidden states) z innych warstw transformera\n",
"- zamrożenie części wag modelu\n",
"- inne nieszablonowe modyfikacje\n",
"\n",
"Im bardziej **różna** modyfikacja, niż ta która została przedstawiona na zajęciach tym lepiej, np.\n",
" - wykorzystanie ukrytych stanów z 3 ostatnich warst Transformera\n",
" - zbudowanie własnej głowy klasyfikacyjne z wykorzystanie innych funkcji aktywacji\n",
" - zbudowanie kilku-warstwowej głowy klasyfikacyjnej\n",
" - zmniejszenie głowy klasyfikacjynej (wymiaru/hidden states)\n",
" - zamrożenie początkowych warst modelu Transformera (nie całego modelu)\n",
" - zamrożenie co drugą watswę modelu Transformera (nie całego modelu)\n",
"\n",
"<sup>1</sup> - modyfikacja modelu nie dotyczy modelu few-shot/zero-shot learning"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "LfHMGKGQKMyd"
},
"source": [
"# Termin"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "kDAhKJVSKOZ5"
},
"source": [
"14.02.2022 (do końca dnia włącznie)"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "IDyJPbYZVjxc"
},
"source": [
"## Dodatkowe punkty:\n",
"\n",
"Dodatkowe punkt, a zarazem zwiększenie oceny można uzyskać dzięki:\n",
"\n",
"- Stworzeniu nieszablonowego rozwiązania, np. wykorzystania innej architektu niż ta, która została przedstawiona na zajęciach\n",
"- Wykorzystanie większego modelu, np. zamiast modelu `T5-base` zostanie wykorzystany `T5-large`\n",
"- Wykorzystaniu wielojęzycznego zbioru danych oraz wielojęzycznych modeli (przynajmniej 3 z 4 modeli powinny być wielojęzyczne)\n",
"- Niestandardowemu podejściu do procesu trenowania - wykorzystanie dodatkowych argumenetów, które dostarcza biblioteka `transformers`\n",
"- \\+ pół oceny za rozmowę o przygotowanym rozwiązaniu"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "4rDUiRzHO0UD"
},
"source": [
"## Wykorzystane zbiory danych\n",
"\n",
"Lista zbiorów danych:\n",
"\n",
"| Nazwa zbioru danych | Link do zbioru danych | Aktualna liczba zespołów | Akceptowalny wynik | Baseline<sup>1</sup> | Metryka |\n",
"| - | - | - | - | - | - |\n",
"| emotion | [LINK](https://huggingface.co/datasets/emotion) | 3 (max) | 0.865 | ~0.928 | Accuracy |\n",
"| sms_spam<sup>2<sup> | [LINK](https://huggingface.co/datasets/sms_spam) | 1 (max) | 0.96 | ~0.972 | Accuracy |\n",
"| rotten_tomatoes | [LINK](https://huggingface.co/datasets/rotten_tomatoes) | 3 (max) | 0.84 | ~0.86 | Accuracy |\n",
" | beer_reviews_label_drift_neg | [LINK](https://huggingface.co/datasets/arize-ai/beer_reviews_label_drift_neg) | 1 | 0.66 | ~0.68 | Accuracy |\n",
"| ag_news | [LINK](https://huggingface.co/datasets/ag_news) | 3 (max) | 0.87 | ~0.9 | Accuracy |\n",
"| sst2 | [LINK](https://huggingface.co/datasets/sst2) | 1 | 0.915 | ~0.94 | Accuracy |\n",
"\n",
"<sup>1</sup> - Wyniki dla baseline: RoBERTa z długością sekwencji 128 (bez wykorzystania ukrytych stanów z innych warst Transformera oraz bez użycia własnej implementacji głowy klasyfikacyjnej)\n",
"\n",
"<sup>2</sup> - Ze względu iż przedstawiony zbiór posiada tylko i wyłącznie zbiór treningowy, nie możliwe jest wykorzystanie tego zbioru danych"
]
},
{
"cell_type": "markdown",
"source": [
"# Ujemne punkty\n",
"\n",
"Ujemne punkty = 0,5 oceny niżej w przypadku gdy podpunkt został spełniony, każdy spełniony podpunkt to 0,5 oceny niżej. Następuje to gdy:\n",
"\n",
"- wykorzystany zostanie (fragment) zbioru trenującego jako zbiór testowy\n",
"- zbiór treningowy oraz walidacyjny będą posiadać wspólną część (może wystąpić, gdy wymagane było wydzielenie zbioru walidacyjnego ze zbioru treningowego)\n",
"- nie zostanie udostępniony: kod źródłowy, pliki modelu, procces (historia) trenowania"
],
"metadata": {
"id": "Mqfuyibftsfa"
}
},
{
"cell_type": "markdown",
"metadata": {
"id": "_zh-jfzSjZaj"
},
"source": [
"# Tips\n",
"\n",
"- Przykładowe zbiory danych można znaleźć tutaj:\n",
" - [huggingface/datasets](https://huggingface.co/datasets)\n",
" - [paperswithcode.com/datasets/text-classification](https://paperswithcode.com/datasets?mod=texts&task=text-classification)\n",
"- Podłączyć Google Drive w Google Colab - pozwala zapisać dane, aby nie przepadły/zostały usunięte\n",
"- Podczas lokalego trenowania warto ustawić zmienne środowiskowe:\n",
" - `TRANSFORMERS_CACHE` - odpowiada za cache modeli z biblioteki `transformers`, np. `export TRANSFORMERS_CACHE=PROJECT_PATH/.cache/transformers` (gdzie `PROJECT_PATH` to ścieżka do projektu)\n",
" - `HF_DATASETS_CACHE` - odpowiada za cache zbiorów danych, jak i przetworzonych zbiorów danych (w tym danych przygotowanych do treningu), np. `export TRANSFORMERS_CACHE=PROJECT_PATH/.cache/datasets` (gdzie `PROJECT_PATH` to ścieżka do projektu)\n",
"- Zamiast gotowego modelu (np. `--model_name_or_path t5-base`) można podać wcześniej wytrenowany model (np. `--model_name_or_path out/my_t5/best`)"
]
}
],
"metadata": {
"colab": {
"provenance": []
},
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.10.8"
},
"toc": {
"base_numbering": 1,
"nav_menu": {},
"number_sections": true,
"sideBar": true,
"skip_h1_title": false,
"title_cell": "Table of Contents",
"title_sidebar": "Contents",
"toc_cell": false,
"toc_position": {},
"toc_section_display": true,
"toc_window_display": false
},
"varInspector": {
"cols": {
"lenName": 16,
"lenType": 16,
"lenVar": 40
},
"kernels_config": {
"python": {
"delete_cmd_postfix": "",
"delete_cmd_prefix": "del ",
"library": "var_list.py",
"varRefreshCmd": "print(var_dic_list())"
},
"r": {
"delete_cmd_postfix": ") ",
"delete_cmd_prefix": "rm(",
"library": "var_list.r",
"varRefreshCmd": "cat(var_dic_list()) "
}
},
"types_to_exclude": [
"module",
"function",
"builtin_function_or_method",
"instance",
"_Feature"
],
"window_display": false
}
},
"nbformat": 4,
"nbformat_minor": 0
}