ireland-news-headlines/roberta_year_as_text_better_finetunning_100k/04_predict.py

import pickle
from config import LABELS_LIST, MODEL
from transformers import AutoTokenizer
from tqdm import tqdm

device = 'cuda'
model_path= './roberta-ireland'

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(model_path).cuda()
tokenizer = AutoTokenizer.from_pretrained(MODEL)

for dataset in ('dev-0', 'test-A', 'test-B'):
    with open(f'../{dataset}/huggingface_format_year_as_text.csv') as f_in, open(f'../{dataset}/out.tsv','w') as f_out:
        first_line = True
        for line_in in tqdm(f_in, total=150_000):
            if first_line:
                first_line = False
                continue
            text = line_in.split('\t')[0]
            text = text.rstrip('\n')
            inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt").to(device)
            outputs = model(**inputs)
            probs = outputs[0].softmax(1)
            prediction = LABELS_LIST[probs.argmax(1)]
            f_out.write(prediction + '\n')
roberta_year_as_text_better_finetunning 100k trainset 2022-02-20 09:49:36 +01:00			`import pickle`
			`from config import LABELS_LIST, MODEL`
			`from transformers import AutoTokenizer`
			`from tqdm import tqdm`

			`device = 'cuda'`
			`model_path= './roberta-ireland'`

			`from transformers import AutoModelForSequenceClassification`

			`model = AutoModelForSequenceClassification.from_pretrained(model_path).cuda()`
			`tokenizer = AutoTokenizer.from_pretrained(MODEL)`

			`for dataset in ('dev-0', 'test-A', 'test-B'):`
			`with open(f'../{dataset}/huggingface_format_year_as_text.csv') as f_in, open(f'../{dataset}/out.tsv','w') as f_out:`
			`first_line = True`
			`for line_in in tqdm(f_in, total=150_000):`
			`if first_line:`
			`first_line = False`
			`continue`
			`text = line_in.split('\t')[0]`
			`text = text.rstrip('\n')`
			`inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt").to(device)`
			`outputs = model(**inputs)`
			`probs = outputs[0].softmax(1)`
			`prediction = LABELS_LIST[probs.argmax(1)]`
			`f_out.write(prediction + '\n')`