First version of ML_NLU

2021-05-16 19:42:35 +02:00 · 2021-05-16 19:42:35 +02:00 · eac184bbc7
commit eac184bbc7
parent 9bf3d9293c
1 changed files with 112 additions and 3 deletions
--- a/Makiety.py
+++ b/Makiety.py
@ -1,8 +1,116 @@
 import jsgf
 import codecs
 from conllu import parse_incr
 from tabulate import tabulate
 import os.path
 from flair.data import Corpus, Sentence, Token
 from flair.datasets import SentenceDataset
 from flair.embeddings import StackedEmbeddings
 from flair.embeddings import WordEmbeddings
 from flair.embeddings import CharacterEmbeddings
 from flair.embeddings import FlairEmbeddings
 from flair.models import SequenceTagger
 from flair.trainers import ModelTrainer
-class NLU: #Natural Language Understanding
+import random
 import torch
 random.seed(42)
 torch.manual_seed(42)
 if torch.cuda.is_available():
    torch.cuda.manual_seed(0)
    torch.cuda.manual_seed_all(0)
    torch.backends.cudnn.enabled = False
    torch.backends.cudnn.benchmark = False
    torch.backends.cudnn.deterministic = True
 class ML_NLU:
    def __init__(self, acts, arguments):
        self.acts = acts
        self.arguments = arguments
    def nolabel2o(self, line, i):
        return 'O' if line[i] == 'NoLabel' else line[i]
    def conllu2flair(self, sentences, label=None):
        fsentences = []
        for sentence in sentences:
            fsentence = Sentence()
            for token in sentence:
                ftoken = Token(token['form'])
                if label:
                    ftoken.add_tag(label, token[label])
                fsentence.add_token(ftoken)
            fsentences.append(fsentence)
        return SentenceDataset(fsentences)
    def predict(self, model, sentence):
        csentence = [{'form': word} for word in sentence]
        fsentence = self.conllu2flair([csentence])[0]
        model.predict(fsentence)
        return [(token, ftoken.get_tag('slot').value) for token, ftoken in zip(sentence, fsentence)]
    def setup(self):
        if os.path.isfile('slot-model/final-model.pt'):
            model = SequenceTagger.load('slot-model/final-model.pt')
        else:
            fields = ['id', 'form', 'frame', 'slot']
            with open('Janet_test.conllu', encoding='utf-8') as trainfile:
                trainset = list(parse_incr(trainfile, fields=fields, field_parsers={'slot': self.nolabel2o}))
            with open('Janet_test.conllu', encoding='utf-8') as testfile:
                testset = list(parse_incr(testfile, fields=fields, field_parsers={'slot': self.nolabel2o}))
            tabulate(trainset[0], tablefmt='html')
            corpus = Corpus(train=self.conllu2flair(trainset, 'slot'), test=self.conllu2flair(testset, 'slot'))
            tag_dictionary = corpus.make_tag_dictionary(tag_type='slot')
            embedding_types = [
            WordEmbeddings('pl'),
            FlairEmbeddings('pl-forward'),
            FlairEmbeddings('pl-backward'),
            CharacterEmbeddings(),
            ]
            embeddings = StackedEmbeddings(embeddings=embedding_types)
            tagger = SequenceTagger(hidden_size=256, embeddings=embeddings,
                                    tag_dictionary=tag_dictionary,
                                    tag_type='slot', use_crf=True)
            trainer = ModelTrainer(tagger, corpus)
            trainer.train('slot-model',
                        learning_rate=0.1,
                        mini_batch_size=32,
                        max_epochs=10,
                        train_with_dev=False)
            model = SequenceTagger.load('slot-model/final-model.pt')
        return model
    def test_nlu(self, utterance):
        model = self.setup()
        if utterance:
            return tabulate(self.predict(model, 'doktor lekarza rodzinnego najlepiej dzisiaj w godzinach popołudniowych dziś '.split()), tablefmt='html')
        else:
            return 'Critical Error'
 class Book_NLU: #Natural Language Understanding
    """
    Moduł odpowiedzialny za analizę tekstu. W wyniku jego działania tekstowa reprezentacja wypowiedzi użytkownika zostaje zamieniona na jej reprezentację semantyczną, najczęściej w postaci ramy.
@ -136,10 +244,11 @@ class Janet:
        self.nlg = NLG(self.acts, self.arguments)
        self.dp = DP(self.acts, self.arguments)
        self.dst = DST(self.acts, self.arguments)
-        self.nlu = NLU(self.acts, self.arguments, jsgf.parse_grammar_file('book.jsgf'))
+        self.nlu = Book_NLU(self.acts, self.arguments, jsgf.parse_grammar_file('book.jsgf'))
        self.nlu_v2 = ML_NLU(self.acts, self.arguments)
    def test(self, command):
-        out = self.nlu.test_nlu(command)
+        out = self.nlu_v2.test_nlu(command)
        return out
    def process(self, command):