GPT-2 NEW

2023-02-13 00:49:10 +01:00 · 2023-02-13 00:49:10 +01:00 · 7640b12c35
commit 7640b12c35
parent 24409ffb1b
10 changed files with 2393 additions and 1508 deletions
--- a/GPT_2.ipynb
+++ b/GPT_2.ipynb
--- a/README.md
+++ b/README.md
@ -4,8 +4,8 @@

 # Transformer Decoder - GPT-2
 ## Modyfikacje
-1. Zamrożenie pierwszych 40 warstw
-2. Zmiana głowy klasyfikacyjnej poprzez dodanie po 2 warstwy dropout i relu()
+1. Dodanie dodatkowej warstwy Linear do głowy
+2. Wykorzystanie ukrytych stanów z t ostatnich warstw


 # Transformer Encoder-Decoder - T5
--- a/models/gpt2/README.md
+++ b/models/gpt2/README.md
@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->

 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
- Loss: 0.2178
- Accuracy: 0.9231
+- Loss: 0.1925
+- Accuracy: 0.9355

 ## Model description

@ -36,13 +36,13 @@ More information needed
 ### Training hyperparameters

 The following hyperparameters were used during training:
- learning_rate: 2e-05
- train_batch_size: 24
- eval_batch_size: 24
+- learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
- num_epochs: 5.0
+- num_epochs: 1.0

 ### Training results

--- a/models/gpt2/all_results.json
+++ b/models/gpt2/all_results.json
@ -1,14 +1,14 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.9230769276618958,
-    "eval_loss": 0.2177695333957672,
-    "eval_runtime": 10.0539,
-    "eval_samples": 1274,
-    "eval_samples_per_second": 126.717,
-    "eval_steps_per_second": 5.371,
-    "train_loss": 0.689463275015069,
-    "train_runtime": 490.8844,
-    "train_samples": 4999,
-    "train_samples_per_second": 50.918,
-    "train_steps_per_second": 2.129
+    "epoch": 1.0,
+    "eval_accuracy": 0.9355000257492065,
+    "eval_loss": 0.19254431128501892,
+    "eval_runtime": 17.1165,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 116.846,
+    "eval_steps_per_second": 14.606,
+    "train_loss": 0.4504347610473633,
+    "train_runtime": 524.6759,
+    "train_samples": 16000,
+    "train_samples_per_second": 30.495,
+    "train_steps_per_second": 3.812
 }
--- a/models/gpt2/eval_results.json
+++ b/models/gpt2/eval_results.json
@ -1,9 +1,9 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.9230769276618958,
-    "eval_loss": 0.2177695333957672,
-    "eval_runtime": 10.0539,
-    "eval_samples": 1274,
-    "eval_samples_per_second": 126.717,
-    "eval_steps_per_second": 5.371
+    "epoch": 1.0,
+    "eval_accuracy": 0.9355000257492065,
+    "eval_loss": 0.19254431128501892,
+    "eval_runtime": 17.1165,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 116.846,
+    "eval_steps_per_second": 14.606
 }
--- a/models/gpt2/predict_results_None.txt
+++ b/models/gpt2/predict_results_None.txt
--- a/models/gpt2/pytorch_model.bin
+++ b/models/gpt2/pytorch_model.bin
--- a/models/gpt2/train_results.json
+++ b/models/gpt2/train_results.json
@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 0.689463275015069,
-    "train_runtime": 490.8844,
-    "train_samples": 4999,
-    "train_samples_per_second": 50.918,
-    "train_steps_per_second": 2.129
+    "epoch": 1.0,
+    "train_loss": 0.4504347610473633,
+    "train_runtime": 524.6759,
+    "train_samples": 16000,
+    "train_samples_per_second": 30.495,
+    "train_steps_per_second": 3.812
 }
--- a/models/gpt2/trainer_state.json
+++ b/models/gpt2/trainer_state.json
@ -1,37 +1,49 @@
 {
  "best_metric": null,
  "best_model_checkpoint": null,
-  "epoch": 5.0,
-  "global_step": 1045,
+  "epoch": 1.0,
+  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
-      "epoch": 2.39,
-      "learning_rate": 1.0430622009569378e-05,
-      "loss": 1.0247,
+      "epoch": 0.25,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.9449,
      "step": 500
    },
    {
-      "epoch": 4.78,
-      "learning_rate": 8.612440191387561e-07,
-      "loss": 0.3843,
+      "epoch": 0.5,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3705,
      "step": 1000
    },
    {
-      "epoch": 5.0,
-      "step": 1045,
-      "total_flos": 1723489601126400.0,
-      "train_loss": 0.689463275015069,
-      "train_runtime": 490.8844,
-      "train_samples_per_second": 50.918,
-      "train_steps_per_second": 2.129
+      "epoch": 0.75,
+      "learning_rate": 1.25e-05,
+      "loss": 0.264,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 0.2223,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0,
+      "step": 2000,
+      "total_flos": 1204741472256000.0,
+      "train_loss": 0.4504347610473633,
+      "train_runtime": 524.6759,
+      "train_samples_per_second": 30.495,
+      "train_steps_per_second": 3.812
    }
  ],
-  "max_steps": 1045,
-  "num_train_epochs": 5,
-  "total_flos": 1723489601126400.0,
+  "max_steps": 2000,
+  "num_train_epochs": 1,
+  "total_flos": 1204741472256000.0,
  "trial_name": null,
  "trial_params": null
 }
--- a/models/gpt2/training_args.bin
+++ b/models/gpt2/training_args.bin