twitter140-sentiment-analysis/roberta_year_text_from_scratch/04_predict.py

import pickle
from config import LABELS_LIST, MODEL
from transformers import AutoTokenizer
from tqdm import tqdm

device = 'cuda'
model_path= './roberta-ireland'

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(model_path).cuda()
tokenizer = AutoTokenizer.from_pretrained(MODEL)

for dataset in ('dev-0', 'test-A'):
    with open(f'./{dataset}_huggingface_format_year_as_text.csv') as f_in, open(f'../{dataset}/out.tsv','w') as f_out:
        next(f_in)
        for line_in in tqdm(f_in, total=150_000):
            text = line_in.rstrip('\n')
            inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt").to(device)
            outputs = model(**inputs)
            probs = outputs[0].softmax(1)
            prediction = LABELS_LIST[probs.argmax(1)]
            f_out.write(prediction + '\n')
roberta_year_text_from_scratch 2021-11-03 21:29:44 +01:00			`import pickle`
			`from config import LABELS_LIST, MODEL`
			`from transformers import AutoTokenizer`
			`from tqdm import tqdm`

			`device = 'cuda'`
			`model_path= './roberta-ireland'`

			`from transformers import AutoModelForSequenceClassification`

			`model = AutoModelForSequenceClassification.from_pretrained(model_path).cuda()`
			`tokenizer = AutoTokenizer.from_pretrained(MODEL)`

			`for dataset in ('dev-0', 'test-A'):`
			`with open(f'./{dataset}_huggingface_format_year_as_text.csv') as f_in, open(f'../{dataset}/out.tsv','w') as f_out:`
			`next(f_in)`
			`for line_in in tqdm(f_in, total=150_000):`
			`text = line_in.rstrip('\n')`
			`inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt").to(device)`
			`outputs = model(**inputs)`
			`probs = outputs[0].softmax(1)`
			`prediction = LABELS_LIST[probs.argmax(1)]`
			`f_out.write(prediction + '\n')`