5.8 KiB
5.8 KiB
import pandas as pd
import re
def preprocess(line):
txt = line
txt = re.sub(
"(£|§|@|#|\$|%|\^|&|\*|\(|\)|_|-|\+|=|\\{|\[|\\}|\]|:|;|\"|'|\|\\\\|\<|,|\>|/|~|`|\|–|–|)",
"",
txt,
)
txt = txt.lower()
txt = re.sub("[0-9]", "", txt)
txt = re.sub("[ \t]+", " ", txt)
txt = re.sub(" +$", "", txt)
txt = re.sub("ą", "a", txt)
txt = re.sub("ć", "c", txt)
txt = re.sub("ę", "e", txt)
txt = re.sub("ł", "l", txt)
txt = re.sub("ń", "n", txt)
txt = re.sub("ó", "o", txt)
txt = re.sub("ś", "s", txt)
txt = re.sub("ź", "z", txt)
txt = re.sub("ż", "z", txt)
return txt
preprocessed = pd.read_csv('in.tsv', sep='\t', header=None)
preprocessed = preprocessed.fillna('null')
preprocessed
0 | |
---|---|
0 | Witam |
1 | Co możesz dla mnie zrobić? |
2 | Jakie są moje repozytoria? |
3 | ok. co nowego w Zajęcia AI? |
4 | ok. co nowego w Zajęcia AI? |
... | ... |
586 | upewniam się |
587 | pokaż mi raport |
588 | zmienić |
589 | Tak |
590 | elo |
591 rows × 1 columns
preprocessed = preprocessed.apply(lambda row : preprocess(row[0]),axis=1)
preprocessed
0 witam 1 co mozesz dla mnie zrobic? 2 jakie sa moje repozytoria? 3 ok. co nowego w zajecia ai? 4 ok. co nowego w zajecia ai? ... 586 upewniam sie 587 pokaz mi raport 588 zmienic 589 tak 590 elo Length: 591, dtype: object
# preprocessed.to_csv('in.tsv', sep='\t', index=False, header=False)