Add RoBERTa classifier

2020-04-17 08:53:46 +02:00 · 2020-04-17 08:53:46 +02:00 · fe340ca26e
commit fe340ca26e
parent 943a7c8c78
5 changed files with 428605 additions and 0 deletions
--- a/best_model.tar.xz
+++ b/best_model.tar.xz
--- a/dev-0/out-model=base.tsv
+++ b/dev-0/out-model=base.tsv
--- a/dev-1/out-model=base.tsv
+++ b/dev-1/out-model=base.tsv
--- a/eval.py
+++ b/eval.py
@ -0,0 +1,67 @@
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+
+import gzip
+import logging
+import lzma
+from typing import List
+
+from simpletransformers.classification import ClassificationModel
+from tqdm import tqdm
+
+MAPPER_LABERL2ID = {
+    'F': 0,
+    'M': 1,
+}
+MAPPER_ID2LABEL = dict([(v, k) for k, v in MAPPER_LABERL2ID.items()])
+
+logger = logging.getLogger(__name__)
+
+
+def open_file(path, *args):
+    if path.endswith('gz'):
+        fopen = gzip.open
+    elif path.endswith('xz'):
+        fopen = lzma.open
+    else:
+        fopen = open
+    return fopen(path, *args)
+
+
+def load_test(path: str) -> List[str]:
+    data = []
+
+    logger.info(f'Loading {path}')
+    with open_file(path, 'rt') as f:
+        for line in tqdm(f):
+            line = line.strip()
+            data.append(line)
+
+    return data
+
+if __name__ == '__main__':
+    logging.basicConfig(level=logging.INFO)
+    transformers_logger = logging.getLogger('transformers')
+    #transformers_logger.setLevel(logging.WARNING)
+
+    args = {
+        'train_batch_size': 200,
+        'num_train_epochs': 2,
+        'evaluate_during_training': True,
+        'save_steps': 15000,
+        'evaluate_during_training_steps': 15000,
+    }
+
+    model = ClassificationModel('roberta', 'outputs/best_model',
+                                num_labels=2, args=args)
+    output_name = 'model=base'
+
+    for test_name in ['dev-0', 'dev-1', 'test-A']:
+        logger.info(f'START TESTING {test_name}')
+        test_data = load_test(f'data/{test_name}/in.tsv.xz')
+        predictions, raw_outputs = model.predict(test_data)
+        logger.info(f'Saving predictions')
+        with open_file(f'data/{test_name}/out-{output_name}.tsv', 'wt') as w:
+            for prediction in predictions:
+                label_name = MAPPER_ID2LABEL[prediction]
+                w.write(f'{label_name}\n')
--- a/test-A/out-model=base.tsv
+++ b/test-A/out-model=base.tsv