lab 09-10

This commit is contained in:
Patryk 2024-05-27 00:53:56 +02:00
parent 78982a4f21
commit 6a0efac373

View File

@ -50,37 +50,36 @@
"name": "stdout", "name": "stdout",
"output_type": "stream", "output_type": "stream",
"text": [ "text": [
"Nastolatek ukradł znajomemu 4500 złotych. Wcześniej pił z nim alkohol\n", "W Poznaniu uroczyście odsłonięto monument upamiętniający cmentarz żydowski założony jeszcze w XIX wieku\n",
"Czekają nas kolejne podwyżki rachunków. Tym razem za ogrzewanie i ciepłą wodę\n", "Przez ulice Poznania przejdzie Marsz dla Życia. Będą utrudnienia\n",
"Nie żyje Piotr Ś. Czyściciel kamienic miał 47 lat\n", "Sierść psa zatopiona w żywicy? Taką biżuterię pamiątkową zlecają właściciele czworonożnych pociech\n",
"Maciej Skorża nie zmienił zdania o systemie na mecz z Rakowem. Kolejorz ma szybką okazję do rehabilitacji\n", "Nagrał film w jednej z poznańskich \"Biedronek\". Kilka spleśniałych cytryn w kartonie. \"Nikt się tym nie przejmuje\"\n",
"Kto zabił Kazimierę Kurkowiak? Poznańskie Archiwum X wraca do sprawy sprzed 30 lat\n", "Gniezno: poszkodowani po ulewie będą mogli ubiegać się o pomoc w ZUS i US. Powstała również specjalna infolinia\n",
"Mieszkańcy osiedla Kwiatowego zyskają nowy chodnik\n", "Zostawiła jedzenie dla potrzebujących. Coraz więcej głodnych osób, którym nie wystarcza pieniędzy po opłaceniu rachunków\n",
"Poznańskie ZOO ponownie się otwiera i apeluje o kupowanie biletów online\n", "Kolejne ostrzeżenie I stopnia od IMGW. Oprócz burz może wystąpić również grad\n",
"1700 zł mandatu dla motocyklisty: nie ma prawa jazdy, jechał za szybko\n", "Lech przegrał Koroną. Na trybunach marsz żałobny i 'mamy k**** dość'\n",
"Plac Wolności ma tętnić życiem. Jest koncepcja zagospodarowania\n", "Warta Poznań po przegranej z Jagielonią Białystok spada do I ligi\n",
"Dzikie wysypisko w Wielkopolskim Parku Narodowym, a w nim paczka z telefonem odbiorcy\n", "Mieszkańcy skarżą się na właściciela samochodu, w którym notorycznie włącza się alarm. \"Uprzykrza nam to życie!\"\n",
"Dobre wieści z Łazarza! \"Zielona Perła\" sprzedana!\n", "Leśne Placówki Montessori\n",
"Sokoły wędrowne w gnieździe na kominie poznańskiej elektrociepłowni! Są 4 młode\n", "Na autostradzie samochód wpadł w poślizg i stanął w poprzek. Są spore utrudnienia\n",
"720 nowych zakażeń w Wielkopolsce\n", "Wróciła plaga kradzieży katalizatorów. Zmora dla kierowców, którzy nie mogą garażować auta\n",
"Uderzył kobietę w sklepie: \"sprawca będzie rozliczony\"\n", "Nowy basen w Kiekrzu? W tunelu wody przybyło po same kolana\n",
"Zespół Szkół Geodezyjno- Drogowych. Przyszłość rysuje się w kolorowych barwach!\n", "Pierożki Dim Sum z Para Bar Rataje ze specjalną zniżką!\n",
"Tajemniczy wypadek i pożar pod Kwilczem. Auto spłonęło, w środku nikogo nie było\n", "Wielka głowa Darii Zawiałow zablokowała przez chwilę przejście dla pieszych na jednej z poznańskich ulic\n",
"Nad Jeziorem Maltańskim powstanie duży hotel? \"Ma uzupełniać infrastrukturę sportową\"\n", "Fałszywy pożar w centrum Poznania. Kłęby dymu w kamienicy?\n",
"Śmiertelny wypadek na trasie S8: samochód potrącił rowerzystę\n", "Jest kolejne ostrzeżenie pierwszego stopnia, tym razem hydrologiczne. Gwałtowny wzrost stanu wody\n",
"Specjaliści o poszukiwaniu Natalii Lick: \"niestety trop psa prowadził na Wartostradę\"\n", "Uwaga. Utrudnienia na drodze i ograniczenie prędkości. Potrwa to około 5 godzin\n",
"Korki przy skrzyżowaniu Grochowska / Grunwaldzka: ruszyły prace!\n", "Chcą pobić rekord w kręceniu lodów. Tona lodów w ciągu doby\n",
"Restauracja w Kaliszu przyjmuje klientów: sanepid i policja \"odwiedzili\" lokal\n", "Jest ostrzeżenie IMGW dla Wielkopolski. Lepiej schować przedmioty, które mogą przemieścić się pod wypływem silnego wiatru\n",
"Ile kosztuje wywóz odpadów?\n", "Nowe Centrum Medyczne Bizpark już w sprzedaży. Znajdź idealny lokal pod swoją działalność medyczną\n",
"Dachowanie auta na trasie Konin - Turek\n", "Rondo Obornickie: zderzenie samochodu z motocyklem. Poszkodowany został odwieziony do szpitala. Chwilowe utrudnienia\n",
"Kierowca BMW pod wpływem narkotyków, pasażer w ich posiadaniu. Obaj zostali zatrzymani\n", "Policjanci publikują wizerunek i szukają tego mężczyzny\n",
"Leszno: mężczyzna uderzył klientkę sklepu. Poszło o maseczkę?\n", "Grupa Stonewall będzie miała program na antenie TVP3 Poznań. \"To będzie odtrutka na lata dezinformacji\"\n",
"Od poniedziałku zapłacimy za parkowanie na kolejnych ulicach\n", "Ruszył remont ważnego mostu. Co z kłódkami zakochanych?\n",
"Włamał się do obiektu handlowego. Grozi mu nawet 15 lat więzienia\n", "Mieszkaniec spotkał wilka w Poznaniu?\n",
"Rondo Śródka: kolizja z udziałem dwóch pojazdów\n", "Włamanie do... lokomotywy\n",
"Europoseł PSL: oświadczenie Episkopatu ma wpływ na proces szczepień. \"Bardzo dużo ludzi zrezygnowało\"\n", "W nadwarciański krajobraz wpisały się... żurawie. \"Jeden jest największy na świecie\"\n",
"Bezcenna wygrana Enea Energetyka. Poznanianki zagrają w fazie play-off\n", "Robisz remont? Za to możesz słono zapłacić!\n"
"No to w drogę! Po odmienionych trasach w Wielkopolsce\n"
] ]
} }
], ],
@ -108,13 +107,51 @@
}, },
{ {
"cell_type": "code", "cell_type": "code",
"execution_count": 1, "execution_count": 10,
"id": "moving-clothing", "id": "moving-clothing",
"metadata": {}, "metadata": {},
"outputs": [], "outputs": [],
"source": [ "source": [
"def get_names(article_type):\n", "from bs4 import element\n",
" return []" "\n",
"def get_names(article_type, page_nr: int = 0):\n",
" url = 'https://www.ceneo.pl/;szukaj-' + article_type + ';0020-30-0-0-' + str(page_nr) + '.htm'\n",
" page = requests.get(url)\n",
" if page_nr != 0 and url != page.url:\n",
" return []\n",
" soup = BeautifulSoup(page.content, 'html.parser')\n",
" result = []\n",
"\n",
" def is_product_title_container(tag: element.Tag) -> bool:\n",
" if not tag.has_attr('class'):\n",
" return False\n",
"\n",
" classes = tag.attrs['class']\n",
" if len(classes) != 1:\n",
" return False\n",
"\n",
" return classes[0] == 'cat-prod-row__name'\n",
"\n",
" def is_product_title(tag: element.Tag) -> bool:\n",
" if not tag.has_attr('class'):\n",
" return True\n",
"\n",
" classes = tag.attrs['class']\n",
" if len(classes) != 1:\n",
" return False\n",
"\n",
" return classes[0] == 'font-bold'\n",
"\n",
" for tag in soup.find_all(is_product_title_container):\n",
" href = tag.find('a')\n",
" if type(href) is not element.Tag:\n",
" continue\n",
" spans = href.find_all('span')\n",
" for span in spans:\n",
" if is_product_title(span):\n",
" result.append(span.text)\n",
"\n",
" return result"
] ]
}, },
{ {
@ -135,13 +172,21 @@
}, },
{ {
"cell_type": "code", "cell_type": "code",
"execution_count": null, "execution_count": 9,
"id": "german-dispute", "id": "german-dispute",
"metadata": {}, "metadata": {},
"outputs": [], "outputs": [],
"source": [ "source": [
"def scrape_names():\n", "def scrape_names():\n",
" return []" " result = []\n",
" search = 'laptop'\n",
" page = 0\n",
" while True:\n",
" local_result = get_names(search, page)\n",
" if len(local_result) == 0:\n",
" return result\n",
" result = result + local_result\n",
" page += 1"
] ]
}, },
{ {
@ -197,13 +242,39 @@
}, },
{ {
"cell_type": "code", "cell_type": "code",
"execution_count": null, "execution_count": 8,
"id": "regulation-sheriff", "id": "regulation-sheriff",
"metadata": {}, "metadata": {},
"outputs": [], "outputs": [],
"source": [ "source": [
"def scrape_wmi():\n", "def scrape_wmi():\n",
" return []" " def get_text(soup_l: BeautifulSoup) -> str:\n",
" for trash in soup_l(['script', 'style']):\n",
" trash.extract()\n",
"\n",
" text = soup_l.get_text()\n",
"\n",
" return re.sub(r'\\s+', ' ', text)\n",
"\n",
" result = []\n",
"\n",
" base_url = 'https://wmi.amu.edu.pl/'\n",
" page = requests.get(base_url)\n",
" soup = BeautifulSoup(page.content, 'html.parser')\n",
" result.append(get_text(soup))\n",
" for href in soup.find_all('a'):\n",
" if type(href) != element.Tag:\n",
" continue\n",
"\n",
" if not href.has_attr('href'):\n",
" continue\n",
"\n",
" if base_url in href.attrs['href']:\n",
" sub_page = requests.get(href.attrs['href'])\n",
" result.append(get_text(BeautifulSoup(sub_page.content, 'html.parser')))\n",
"\n",
"\n",
" return result"
] ]
}, },
{ {
@ -222,30 +293,97 @@
"### Ćwiczenie 4: Pobierz jak najwięcej słów w języku albańskim z serwisu glosbe.com." "### Ćwiczenie 4: Pobierz jak najwięcej słów w języku albańskim z serwisu glosbe.com."
] ]
}, },
{
"cell_type": "markdown",
"id": "706d6cba-c7a7-4d1b-9c2f-eb2119f859b5",
"metadata": {},
"source": [
"Nie jest to rozwiązanie zbalansowane, ale pobierze najwięcej słów (Przy odpowiedniej rotacji adresów IP, z których korzystamy, ale założyłem, że kwestia infrastruktury i tego jak strona jest chroniona przed atakami DOS, jest poza zakresem tego zadania)"
]
},
{ {
"cell_type": "code", "cell_type": "code",
"execution_count": null, "execution_count": 7,
"id": "surgical-ozone", "id": "surgical-ozone",
"metadata": {}, "metadata": {},
"outputs": [], "outputs": [],
"source": [ "source": [
"def scrape_shqip():\n", "def scrape_shqip():\n",
" return []" " import string\n",
"\n",
" result = []\n",
" letters = list(string.ascii_lowercase)\n",
" letters_count = len(letters)\n",
" longest_sensible_english_word_len = 28\n",
" base_url = 'https://glosbe.com/en/sq/'\n",
"\n",
" def get_words(word_l: str) -> list[str]:\n",
" def is_translated_word(tag: element.Tag) -> bool:\n",
" if not tag.has_attr('id') or not tag.has_attr('lang'):\n",
" return False\n",
"\n",
" if not 'translation__' in tag.attrs['id'] or 'sq' != tag.attrs['lang']:\n",
" return False\n",
"\n",
" return True\n",
"\n",
" result_l = []\n",
" page = requests.get(base_url + word_l)\n",
" soup = BeautifulSoup(page.content, 'html.parser')\n",
" words_l = soup.find_all(is_translated_word)\n",
" for word_l in words_l:\n",
" text = word_l.text\n",
" result_l.append(re.sub(r'\\s+', ' ', text))\n",
"\n",
" return result_l\n",
"\n",
" def trans(word_l: list[int]) -> str:\n",
" result_l = ''\n",
" for letter_l in word_l:\n",
" result_l += letters[letter_l]\n",
"\n",
" return result_l\n",
"\n",
" def increment(word_l: list[int]) -> list[int]:\n",
" done = False\n",
" result_l = []\n",
" for letter_l in word_l:\n",
" if done:\n",
" result_l.append(letter_l)\n",
" continue\n",
" next_letter_l = letter_l + 1\n",
" if next_letter_l == letters_count:\n",
" result_l.append(0)\n",
" continue\n",
"\n",
" result_l.append(next_letter_l)\n",
" done = True\n",
"\n",
" return result_l\n",
"\n",
" for length in range(longest_sensible_english_word_len - 1):\n",
" length += 1\n",
" combos = pow(length, letters_count)\n",
" word = []\n",
" for pos in range(length):\n",
" word.append(0)\n",
" for i in range(combos):\n",
" result.append(get_words(trans(word)))\n",
" word = increment(word)\n",
"\n",
" return result"
] ]
} }
], ],
"metadata": { "metadata": {
"author": "Rafał Jaworski", "author": "Rafał Jaworski",
"email": "rjawor@amu.edu.pl", "email": "rjawor@amu.edu.pl",
"lang": "pl",
"subtitle": "9,10. Web scraping",
"title": "Komputerowe wspomaganie tłumaczenia",
"year": "2021",
"kernelspec": { "kernelspec": {
"display_name": "Python 3", "display_name": "Python 3 (ipykernel)",
"language": "python", "language": "python",
"name": "python3" "name": "python3"
}, },
"lang": "pl",
"language_info": { "language_info": {
"codemirror_mode": { "codemirror_mode": {
"name": "ipython", "name": "ipython",
@ -256,8 +394,11 @@
"name": "python", "name": "python",
"nbconvert_exporter": "python", "nbconvert_exporter": "python",
"pygments_lexer": "ipython3", "pygments_lexer": "ipython3",
"version": "3.8.10" "version": "3.10.4"
} },
"subtitle": "9,10. Web scraping",
"title": "Komputerowe wspomaganie tłumaczenia",
"year": "2021"
}, },
"nbformat": 4, "nbformat": 4,
"nbformat_minor": 5 "nbformat_minor": 5