Systemy_dialogowe/evaluate/preprocess.ipynb
2022-04-26 18:33:20 +02:00

5.8 KiB
Raw Permalink Blame History

import pandas as pd
import re
def preprocess(line):
    txt = line
    txt = re.sub(
        "(£|§|@|#|\$|%|\^|&|\*|\(|\)|_|-|\+|=|\\{|\[|\\}|\]|:|;|\"|'|\|\\\\|\<|,|\>|/|~|`|\|||)",
        "",
        txt,
    )
    txt = txt.lower()
    txt = re.sub("[0-9]", "", txt)
    txt = re.sub("[ \t]+", " ", txt)
    txt = re.sub(" +$", "", txt)
    txt = re.sub("ą", "a", txt)
    txt = re.sub("ć", "c", txt)
    txt = re.sub("ę", "e", txt)
    txt = re.sub("ł", "l", txt)
    txt = re.sub("ń", "n", txt)
    txt = re.sub("ó", "o", txt)
    txt = re.sub("ś", "s", txt)
    txt = re.sub("ź", "z", txt)
    txt = re.sub("ż", "z", txt)
    return txt
preprocessed = pd.read_csv('in.tsv', sep='\t', header=None)
preprocessed = preprocessed.fillna('null')
preprocessed
0
0 Witam
1 Co możesz dla mnie zrobić?
2 Jakie są moje repozytoria?
3 ok. co nowego w Zajęcia AI?
4 ok. co nowego w Zajęcia AI?
... ...
586 upewniam się
587 pokaż mi raport
588 zmienić
589 Tak
590 elo

591 rows × 1 columns

preprocessed = preprocessed.apply(lambda row : preprocess(row[0]),axis=1)
preprocessed
0                            witam
1       co mozesz dla mnie zrobic?
2       jakie sa moje repozytoria?
3      ok. co nowego w zajecia ai?
4      ok. co nowego w zajecia ai?
                  ...             
586                   upewniam sie
587                pokaz mi raport
588                        zmienic
589                            tak
590                            elo
Length: 591, dtype: object
# preprocessed.to_csv('in.tsv', sep='\t', index=False, header=False)