challenging-america-word-ga.../utils.py

import nltk
import pandas as pd
import regex as re
from csv import QUOTE_NONE

ENCODING = "utf-8"


def clean_text(text):
    return re.sub(r"\p{P}", "", str(text).lower().replace("-\\n", "").replace("\\n", " "))


def get_csv(fname):
    return pd.read_csv(
        fname,
        sep="\t",
        on_bad_lines='skip',
        header=None,
        quoting=QUOTE_NONE,
        encoding=ENCODING
    )


def check_prerequisites():
    try:
        nltk.data.find('tokenizers/punkt')
    except LookupError:
        nltk.download('punkt')
440054 2022-04-04 15:07:07 +02:00			`import nltk`
			`import pandas as pd`
			`import regex as re`
			`from csv import QUOTE_NONE`

			`ENCODING = "utf-8"`


			`def clean_text(text):`
			`return re.sub(r"\p{P}", "", str(text).lower().replace("-\\n", "").replace("\\n", " "))`


			`def get_csv(fname):`
			`return pd.read_csv(`
			`fname,`
			`sep="\t",`
			`on_bad_lines='skip',`
			`header=None,`
			`quoting=QUOTE_NONE,`
			`encoding=ENCODING`
			`)`


			`def check_prerequisites():`
			`try:`
			`nltk.data.find('tokenizers/punkt')`
			`except LookupError:`
			`nltk.download('punkt')`