add: polish char, multi lang model

This commit is contained in:
filnow 2024-06-02 19:29:23 +02:00
parent 5d83b7b0e8
commit 88741c2d2b
3 changed files with 20683 additions and 20725 deletions

41244
nlg_data.csv

File diff suppressed because it is too large Load Diff

View File

@ -2,36 +2,36 @@ import pandas as pd
import random import random
addresses = ["ulica Zielona 15", "ulica Czerwona 20", "ulica Niebieska 30", "ulica Biala 5", "ulica Czarna 10", "ulica Fioletowa 25", "ulica Pomaranczowa 35", "ulica Zolta 40", "ulica Rozowa 45", "ulica Szara 50", "ulica Brzowa 55", "ulica Srebrna 60", "ulica Zlota 65", "ulica Platynowa 70", "ulica Miedziana 75", "ulica Niklowa 80", "ulica Aluminium 85", "ulica Stalowa 90", "ulica Zelazna 95", "ulica Miedziana 100"] addresses = ["ulica Zielona 15", "ulica Czerwona 20", "ulica Niebieska 30", "ulica Biala 5", "ulica Czarna 10", "ulica Fioletowa 25", "ulica Pomaranczowa 35", "ulica Zolta 40", "ulica Różowa 45", "ulica Szara 50", "ulica Brązowa 55", "ulica Srebrna 60", "ulica Złota 65", "ulica Platynowa 70", "ulica Miedziana 75", "ulica Niklowa 80", "ulica Aluminium 85", "ulica Stalowa 90", "ulica Żelazna 95", "ulica Miedziana 100"]
payment_methods = ["karta kredytowa", "gotowka", "blik", "przelew", "google pay"] payment_methods = ["karta kredytowa", "gotowka", "blik", "przelew", "google pay"]
dishes = ["spaghetti", "pierogi", "schabowy", "pizza", "burger", "tatar", "poledwica", "tiramisu", "zrazy", "pyzy", "placki", "makaron", "zupa", "ryba", "cole", "tiramisu", "zupa grzybowa", "stek", "soki", "napoj"] dishes = ["spaghetti", "pierogi", "schabowy", "pizza", "burger", "tatar", "poledwica", "tiramisu", "zrazy", "pyzy", "placki", "makaron", "zupa", "ryba", "cole", "tiramisu", "zupa grzybowa", "stek", "soki", "napoj"]
times = ["8:00", "12:00", "18:00", "20:00", "10:00", "dziesiata", "dziewiata", "osma", "siodma", "szosta", "czwarta", "trzecia", "druga", "pierwsza", "poludnie", "polnoc", "wschod", "zachod", "poludniowy wschod", "poludniowy zachod", "polnocny wschod", "polnocny zachod", "rano", "wieczor", "noc", "popoludnie", "przedpoludnie", "po poludniu", "po polnocy", "przed polnoca", "przed poludniem"] times = ["8:00", "12:00", "18:00", "20:00", "10:00", "dziesiata", "dziewiata", "osma", "siodma", "szosta", "czwarta", "trzecia", "druga", "pierwsza", "poludnie", "polnoc", "wschod", "zachod", "poludniowy wschod", "poludniowy zachod", "polnocny wschod", "polnocny zachod", "rano", "wieczor", "noc", "popoludnie", "przedpoludnie", "po poludniu", "po polnocy", "przed polnoca", "przed poludniem"]
portion_sizes = ["mala", "srednia", "duza", "gigantyczna", "mini"] portion_sizes = ["mała", "średnia", "duża", "gigantyczna", "mini"]
price = ["10", "50", "100", "150", "tanio", "drogo"] price = ["10", "50", "100", "150", "tanio", "drogo"]
ingredient = ["mieso", "mleko", "jajka", "maka", "cukier", "sol", "pieprz", "oliwa", "maslo", "ser", "warzywa", "owoce", "ryz", "makaron", "zupa", "ryba", "sos", "przyprawy", "soki", "napoje", "alkohol", "kawa", "herbata", "deser", "ciasto", "chleb", "pasta", "sos", "danie", "potrawa", "zupa", "salatka", "kanapka", "tost", "jajecznica", "omlet", "placki", "pierogi", "schabowy", "kotlet", "kotlet schabowy", "kotlet mielony", "kotlet z kurczaka", "kotlet z indyka", "kotlet z ryby", "kotlet z warzyw", "kotlet ziemniaczany", "kotlet z kaszy", "kotlet z makaronu", "kotlet z ziemniakow", "kotlet z ryzu"] ingredient = ["mięso", "mleko", "jajka", "mąka", "cukier", "sól", "pieprz", "oliwa", "masło", "ser", "warzywa", "owoce", "ryż", "makaron", "zupa", "ryba", "sos", "przyprawy", "soki", "napoje", "alkohol", "kawa", "herbata", "deser", "ciasto", "chleb", "pasta", "sos", "danie", "potrawa", "zupa", "sałatka", "kanapka", "tost", "jajecznica", "omlet", "placki", "pierogi", "schabowy", "kotlet", "kotlet schabowy", "kotlet mielony", "kotlet z kurczaka", "kotlet z indyka", "kotlet z ryby", "kotlet z warzyw", "kotlet ziemniaczany", "kotlet z kaszy", "kotlet z makaronu", "kotlet z ziemniaków", "kotlet z ryżu"]
allergy = ["gluten", "laktoza", "jajka", "orzechy", "soja", "ryby", "skorupiaki", "mleko", "seler", "gorczyca", "sezam", "siarczyny", "lubin", "migdaly", "orzechy laskowe", "orzechy wloskie", "orzechy nerkowca", "orzechy ziemne", "orzechy brazylijskie", "orzechy makadamia", "orzechy pecan", "orzechy pistacjowe", "orzechy kasztanowe", "orzechy pinii", "orzechy arachidowe", "orzechy ziemne", "orzechy brazylijskie", "orzechy makadamia", "orzechy pecan", "orzechy pistacjowe", "orzechy kasztanowe", "orzechy pinii", "orzechy arachidowe", "orzechy ziemne", "orzechy brazylijskie", "orzechy makadamia", "orzechy pecan"] allergy = ["gluten", "laktoza", "jajka", "orzechy", "soja", "ryby", "skorupiaki", "mleko", "seler", "gorczyca", "sezam", "siarczyny", "łubin", "migdały", "orzechy laskowe", "orzechy włoskie", "orzechy nerkowca", "orzechy ziemne", "orzechy brazylijskie", "orzechy makadamia", "orzechy pecan", "orzechy pistacjowe", "orzechy kasztanowe", "orzechy pinii", "orzechy arachidowe", "orzechy ziemne", "orzechy brazylijskie", "orzechy makadamia", "orzechy pecan", "orzechy pistacjowe", "orzechy kasztanowe", "orzechy pinii", "orzechy arachidowe", "orzechy ziemne", "orzechy brazylijskie", "orzechy makadamia", "orzechy pecan", "orzechy pistacjowe"]
def create_ref(slot, value): def create_ref(slot, value):
ref_templates = { ref_templates = {
"address": [ "address": [
f"Zamowienie zostanie dostarczone na {value}.", f"Zamówienie zostanie dostarczone na {value}.",
f"Niestety nie dostarczamy na {value}.", f"Niestety nie dostarczamy na {value}.",
f"Oczywiscie, dostarczymy na {value}.", f"Oczywiście, dostarczymy na {value}.",
f"Dostawa mozliwa na {value}.", f"Dostawa możliwa na {value}.",
f"Nie dostarczamy na {value}." f"Nie dostarczamy na {value}."
], ],
"payment_method": [ "payment_method": [
f"Akceptujemy platnosc {value}.", f"Akceptujemy płatność {value}.",
f"Nie akceptujemy platnosci {value}.", f"Nie akceptujemy płatności {value}.",
f"Mozesz placic {value}.", f"Możesz płacić {value}.",
f"Platnosc {value} jest mozliwa.", f"Płatność {value} jest możliwa.",
f"Nie obslugujemy platnosci {value}." f"Nie obsługujemy płatności {value}."
], ],
"dish": [ "dish": [
f"Specjalnoscia jest {value}.", f"Specjalnością jest {value}.",
f"Nie mamy w ofercie {value}.", f"Nie mamy w ofercie {value}.",
f"Zapraszamy na {value}.", f"Zapraszamy na {value}.",
f"{value} jest dostepne.", f"{value} jest dostępne.",
f"Nie mamy {value} w menu." f"Nie mamy {value} w menu."
], ],
"time": [ "time": [
@ -39,19 +39,19 @@ def create_ref(slot, value):
f"Nieczynne o {value}.", f"Nieczynne o {value}.",
f"Zapraszamy o {value}.", f"Zapraszamy o {value}.",
f"Otwarte od {value}.", f"Otwarte od {value}.",
f"Zamkniete o {value}." f"Zamknięte o {value}."
], ],
"portion_size": [ "portion_size": [
f"Dostepne porcje: {value}.", f"Dostępne porcje: {value}.",
f"Brak porcji {value}.", f"Brak porcji {value}.",
f"Dostepne porcje: {value}.", f"Dostępne porcje: {value}.",
f"Porcja {value} jest dostepna.", f"Porcja {value} jest dostępna.",
f"Nie mamy porcji {value}." f"Nie mamy porcji {value}."
], ],
"price": [ "price": [
f"Cena to {value}.", f"Cena to {value}.",
f"Nie mamy ceny {value}.", f"Nie mamy ceny {value}.",
f"Mozesz kupic za {value}.", f"Możesz kupić za {value}.",
f"Cena wynosi {value}.", f"Cena wynosi {value}.",
], ],
"ingredient": [ "ingredient": [
@ -99,7 +99,7 @@ def generate_sample(num_slots):
mr_list.append(f"{slot}[{value}]") mr_list.append(f"{slot}[{value}]")
ref_list.append(random.choice(create_ref(slot, value))) ref_list.append(random.choice(create_ref(slot, value)))
if len(mr_list) == 1: if len(mr_list) == 1:
return {"mr": repr(mr_list[0]), "ref": ref_list[0]} return {"mr": repr(mr_list[0]), "ref": " ".join(ref_list)}
else: else:
return {"mr": ", ".join(mr_list), "ref": " ".join(ref_list)} return {"mr": ", ".join(mr_list), "ref": " ".join(ref_list)}
@ -108,4 +108,4 @@ for num_slots in range(0, 6):
data.append(generate_sample(num_slots)) data.append(generate_sample(num_slots))
df = pd.DataFrame(remove_duplicates(data)) df = pd.DataFrame(remove_duplicates(data))
df.to_csv('nlg_data.csv', index=False) df.to_csv('abc.csv', index=False)

File diff suppressed because one or more lines are too long