Use Marian pretrained

2020-10-27 00:41:38 +01:00 · 2020-10-27 00:41:38 +01:00 · e5d8b26718
commit e5d8b26718
parent c4cf2343e5
4 changed files with 1971 additions and 1951 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/simple_translator.py
+++ b/simple_translator.py
@ -0,0 +1,30 @@
+# -*- coding: utf-8 -*-
+from transformers import MarianTokenizer, MarianMTModel
+import sys
+from typing import List
+from numba import jit
+
+@jit
+def count():
+	data={}
+	for doc_id,line in enumerate(sys.stdin):
+		data[doc_id]=line.rstrip()
+	return data 
+
+def translate(data):
+	for key in data.keys():
+		batch = tok.prepare_seq2seq_batch(src_texts=[data[key]])
+		gen = model.generate(**batch)
+		translate = tok.batch_decode(gen, skip_special_tokens=True)
+		print(translate[0])
+
+if __name__ =="__main__":
+	src = 'pl'  # source language
+	trg = 'en'  # target language
+	mname = f'Helsinki-NLP/opus-mt-{src}-{trg}'
+
+	#print('Data ready!')
+	model = MarianMTModel.from_pretrained(mname)
+	tok = MarianTokenizer.from_pretrained(mname)
+	data=count()
+	translate(data)
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
--- a/translate.py
+++ b/translate.py
@ -1,10 +0,0 @@
-# -*- coding: utf-8 -*-
-import sys
-from googletrans import Translator
-
-translator = Translator()
-
-for line in sys.stdin:
-    sentence = line.rstrip()
-    translation = translator.translate(sentence, src='pl', dest='en')
-    print(translation.text)