424 B
424 B
Transformer Encoder - RoBERTa
Modyfikacje
- Głowa klasyfikacyjna używająca LeakyReLU
Transformer Decoder - GPT-2
Modyfikacje
- Zamrożenie pierwszych 40 warstw
- Zmiana głowy klasyfikacyjnej poprzez dodanie po 2 warstwy dropout i relu()
Transformer Encoder-Decoder - T5
Modyfikacje
- Zamrożenie pierwszych 20 warstw