Taekwondo-Scraping/taekwondo.py

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import time
import re
import csv

data = []


class DF:

    def __init__(self, href, title, date, newspaper):
        self.href = href
        self.title = title
        self.date = date
        self.newspaper = newspaper
        self.add_to_file()
        self.print_data()

    def add_to_file(self):
        with open('data.csv', 'a', newline='', encoding='UTF-8') as file:
            writer = csv.writer(file)
            writer.writerow([self.date, self.title, self.newspaper, self.href])

    def print_data(self):
        print('<' + self.date + ', ' + self.title + ', ' +
              self.newspaper + ', ' + self.href + '>')


def parse_date(date: str):

    def parse_months(month):
        m = 'MM'
        month.strip()
        if(month == 'styczeń' or month == 'stycznia'):
            m = '01'
        if(month == 'lutego' or month == 'luty'):
            m = '02'
        if(month == 'marca' or month == 'marzec'):
            m = '03'
        if(month == 'kwiecień' or month == 'kwietnia'):
            m = '04'
        if(month == 'maj' or month == 'maja'):
            m = '05'
        if(month == 'czerwca' or month == 'czerwiec'):
            m = '06'
        if(month == 'lipiec' or month == 'lipca'):
            m = '07'
        if(month == 'sierpnia' or month == 'sierpień'):
            m = '08'
        if(month == 'wrzesień' or month == 'września'):
            m = '09'
        if(month == 'październik' or month == 'października'):
            m = '10'
        if(month == 'listopad' or month == 'listopada'):
            m = '11'
        if(month == 'grudzień' or month == 'grudnia'):
            m = '12'
        return m

    if (date):
        p_date = re.search(
            r'^(([0-9]*)-*[0-9]*)\ *([a-zA-ZAaĄąBbCcĆćDdEeĘęFfGgHhIiJjKkLlŁłMmNnŃńOoÓóPpRrSsŚśTtUuWwYyZzŹźŻż]*)\ *([0-9]{4})$', date.strip())
        if(p_date):
            if(p_date.group(4)):
                date = p_date.group(4)
            if(p_date.group(3)):
                date = date + '-' + parse_months(p_date.group(3))
            if(p_date.group(2)):
                if(len(p_date.group(2)) == 1):
                    date = date + '-0' + p_date.group(2)
                else:
                    date = date + '-' + p_date.group(2)
        else:
            date = 'Invalid date: ' + date
    else:
        date = 'Invalid date'
    return date


def parse_data(df):
    href = 'https://www2.pztkd.lublin.pl/' + df.attrs['href']
    title = df('div', {'class': "rounded18 glow"})[2].text

    res = df('span')[0]
    newspaper = re.search(r'>"(.*)"', str(res))
    date = re.search(r"<br\/>(.*)<", str(res))

    if(date):
        date = date.group(1)
    else:
        date = None

    if(newspaper):
        newspaper = newspaper.group(1)
    else:
        newspaper = 'Invalid newspaper'

    return DF(href, title.strip(), parse_date(date), newspaper)


def main():
    with open('data.csv', 'w', newline='', encoding='UTF-8') as file:
        writer = csv.writer(file)
        writer.writerow(['Data', 'Tytuł', 'Gazeta', 'Link'])

    driver = webdriver.Chrome(ChromeDriverManager().install())
    driver.get("https://www2.pztkd.lublin.pl/archpras.html#z1996")

    time.sleep(5)
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    links = soup('a', {'data-lightbox': "roadtrip"})

    for link in links:
        data.append(parse_data(link))

    print('Przetworzono ' + str(len(data)) + ' wycinków gazet.')

    driver.quit()


if __name__ == "__main__":
    main()
init 2021-04-13 02:02:12 +02:00			`from selenium import webdriver`
			`from webdriver_manager.chrome import ChromeDriverManager`
			`from bs4 import BeautifulSoup`
			`import time`
			`import re`
			`import csv`

			`data = []`


			`class DF:`

			`def __init__(self, href, title, date, newspaper):`
			`self.href = href`
			`self.title = title`
			`self.date = date`
			`self.newspaper = newspaper`
			`self.add_to_file()`
			`self.print_data()`

			`def add_to_file(self):`
			`with open('data.csv', 'a', newline='', encoding='UTF-8') as file:`
			`writer = csv.writer(file)`
			`writer.writerow([self.date, self.title, self.newspaper, self.href])`

			`def print_data(self):`
			`print('<' + self.date + ', ' + self.title + ', ' +`
			`self.newspaper + ', ' + self.href + '>')`


			`def parse_date(date: str):`

			`def parse_months(month):`
			`m = 'MM'`
			`month.strip()`
			`if(month == 'styczeń' or month == 'stycznia'):`
			`m = '01'`
			`if(month == 'lutego' or month == 'luty'):`
			`m = '02'`
			`if(month == 'marca' or month == 'marzec'):`
			`m = '03'`
			`if(month == 'kwiecień' or month == 'kwietnia'):`
			`m = '04'`
			`if(month == 'maj' or month == 'maja'):`
			`m = '05'`
			`if(month == 'czerwca' or month == 'czerwiec'):`
			`m = '06'`
			`if(month == 'lipiec' or month == 'lipca'):`
			`m = '07'`
			`if(month == 'sierpnia' or month == 'sierpień'):`
			`m = '08'`
			`if(month == 'wrzesień' or month == 'września'):`
			`m = '09'`
			`if(month == 'październik' or month == 'października'):`
			`m = '10'`
			`if(month == 'listopad' or month == 'listopada'):`
			`m = '11'`
			`if(month == 'grudzień' or month == 'grudnia'):`
			`m = '12'`
			`return m`

			`if (date):`
			`p_date = re.search(`
			`r'^(([0-9])-[0-9])\ ([a-zA-ZAaĄąBbCcĆćDdEeĘęFfGgHhIiJjKkLlŁłMmNnŃńOoÓóPpRrSsŚśTtUuWwYyZzŹźŻż])\ ([0-9]{4})$', date.strip())`
			`if(p_date):`
			`if(p_date.group(4)):`
			`date = p_date.group(4)`
			`if(p_date.group(3)):`
			`date = date + '-' + parse_months(p_date.group(3))`
			`if(p_date.group(2)):`
			`if(len(p_date.group(2)) == 1):`
			`date = date + '-0' + p_date.group(2)`
			`else:`
			`date = date + '-' + p_date.group(2)`
			`else:`
			`date = 'Invalid date: ' + date`
			`else:`
			`date = 'Invalid date'`
			`return date`


			`def parse_data(df):`
			`href = 'https://www2.pztkd.lublin.pl/' + df.attrs['href']`
			`title = df('div', {'class': "rounded18 glow"})[2].text`

			`res = df('span')[0]`
			`newspaper = re.search(r'>"(.*)"', str(res))`
			`date = re.search(r"<br\/>(.*)<", str(res))`

			`if(date):`
			`date = date.group(1)`
			`else:`
			`date = None`

			`if(newspaper):`
			`newspaper = newspaper.group(1)`
			`else:`
			`newspaper = 'Invalid newspaper'`

			`return DF(href, title.strip(), parse_date(date), newspaper)`


			`def main():`
			`with open('data.csv', 'w', newline='', encoding='UTF-8') as file:`
			`writer = csv.writer(file)`
			`writer.writerow(['Data', 'Tytuł', 'Gazeta', 'Link'])`

			`driver = webdriver.Chrome(ChromeDriverManager().install())`
			`driver.get("https://www2.pztkd.lublin.pl/archpras.html#z1996")`

			`time.sleep(5)`
			`html = driver.page_source`
			`soup = BeautifulSoup(html, 'html.parser')`
			`links = soup('a', {'data-lightbox': "roadtrip"})`

			`for link in links:`
			`data.append(parse_data(link))`

			`print('Przetworzono ' + str(len(data)) + ' wycinków gazet.')`

			`driver.quit()`


			`if __name__ == "__main__":`
			`main()`