forked from filipg/aitech-eks-pub
add cw1
This commit is contained in:
parent
f62e68ccab
commit
098588f2bd
81
cw/00_Informacje_na_temat_przedmiotu.ipynb
Normal file
81
cw/00_Informacje_na_temat_przedmiotu.ipynb
Normal file
@ -0,0 +1,81 @@
|
|||||||
|
{
|
||||||
|
"cells": [
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"# Informacje ogólne"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"## Kontakt z prowadzącym\n",
|
||||||
|
"\n",
|
||||||
|
"prowadzący: mgr inż. Jakub Pokrywka\n",
|
||||||
|
"\n",
|
||||||
|
"Najlepiej kontaktowąć się ze mną przez MS TEAMS na grupie kanału (ogólne sprawy) lub w prywatnych wiadomościach. Odpisuję co 2-3 dni. Można też umówić się na zdzwonko w godzinach dyżuru (wt 12.00-13.00) lub umówić się w innym terminie.\n",
|
||||||
|
"\n",
|
||||||
|
"\n",
|
||||||
|
"## Literatura\n",
|
||||||
|
"Polecana literatura do przedmiotu:\n",
|
||||||
|
"\n",
|
||||||
|
"\n",
|
||||||
|
"- https://www.manning.com/books/relevant-search#toc (darmowa) Polecam chociaż przejrzeć.\n",
|
||||||
|
"- Marie-Francine Moens. 2006. Information Extraction: Algorithms and Prospects in a Retrieval Context. Springer. (polecam mniej, jest trochę nieaktualna)\n",
|
||||||
|
"- Alex Graves. 2012. Supervised sequence labelling. Studies in Computational Intelligence, vol 385. Springer. Berlin, Heidelberg. \n",
|
||||||
|
"\n",
|
||||||
|
"- Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. North American Association for Computational Linguistics (NAACL). \n",
|
||||||
|
"\n",
|
||||||
|
"- Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. 2020. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research vol 21, number 140, pages 1-67. \n",
|
||||||
|
"\n",
|
||||||
|
"- Flip Graliński, Tomasz Stanisławek, Anna Wróblewska, Dawid Lipiński, Agnieszka Kaliska, Paulina Rosalska, Bartosz Topolski, Przemysław Biecek. 2020. Kleister: A novel task for information extraction involving long documents with complex layout. URL https://arxiv.org/abs/2003.02356 \n",
|
||||||
|
"\n",
|
||||||
|
"- Łukasz Garncarek, Rafał Powalski, Tomasz Stanisławek, Bartosz Topolski, Piotr Halama, Filip Graliński. 2020. LAMBERT: Layout-Aware (Language) Modeling using BERT. URL https://arxiv.org/pdf/2002.08087 \n",
|
||||||
|
"\n",
|
||||||
|
"## Zaliczenie\n",
|
||||||
|
"\n",
|
||||||
|
"\n",
|
||||||
|
"\n",
|
||||||
|
"Do zdobycia będzie conajmniej 500 punktów.\n",
|
||||||
|
"\n",
|
||||||
|
"Ocena:\n",
|
||||||
|
"\n",
|
||||||
|
"- -299 — 2\n",
|
||||||
|
"\n",
|
||||||
|
"- 300-349 — 3\n",
|
||||||
|
"\n",
|
||||||
|
"- 350-399 — 3+\n",
|
||||||
|
"\n",
|
||||||
|
"- 400-449 — 4\n",
|
||||||
|
"\n",
|
||||||
|
"- 450—499 — 4+\n",
|
||||||
|
"\n",
|
||||||
|
"- 500- — 5\n",
|
||||||
|
"\n"
|
||||||
|
]
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"metadata": {
|
||||||
|
"kernelspec": {
|
||||||
|
"display_name": "Python 3",
|
||||||
|
"language": "python",
|
||||||
|
"name": "python3"
|
||||||
|
},
|
||||||
|
"language_info": {
|
||||||
|
"codemirror_mode": {
|
||||||
|
"name": "ipython",
|
||||||
|
"version": 3
|
||||||
|
},
|
||||||
|
"file_extension": ".py",
|
||||||
|
"mimetype": "text/x-python",
|
||||||
|
"name": "python",
|
||||||
|
"nbconvert_exporter": "python",
|
||||||
|
"pygments_lexer": "ipython3",
|
||||||
|
"version": "3.8.5"
|
||||||
|
}
|
||||||
|
},
|
||||||
|
"nbformat": 4,
|
||||||
|
"nbformat_minor": 4
|
||||||
|
}
|
256
cw/01_Wyszukiwarki-wprowadzenie.ipynb
Normal file
256
cw/01_Wyszukiwarki-wprowadzenie.ipynb
Normal file
@ -0,0 +1,256 @@
|
|||||||
|
{
|
||||||
|
"cells": [
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"# Zajecia 1\n",
|
||||||
|
"\n",
|
||||||
|
"Na tych zajęciach za aktywnośc można otrzymać po 5 punktów za wartościową wypowiedź. Maksymalnie jedna osoba może zdobyć na tych ćwiczeniach do 15 punktów."
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"# Przydatne materiały:\n",
|
||||||
|
"\n",
|
||||||
|
"https://www.google.com/advanced_search\n",
|
||||||
|
"\n",
|
||||||
|
"https://www.google.pl/advanced_image_search\n",
|
||||||
|
"\n",
|
||||||
|
"https://support.google.com/websearch/answer/2466433?hl=en\n",
|
||||||
|
"\n",
|
||||||
|
"https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7\n",
|
||||||
|
"\n",
|
||||||
|
"https://allegro.pl/dla-sprzedajacych/trafnosc-xGmVjoPwOTo\n",
|
||||||
|
"\n",
|
||||||
|
"https://developer.allegro.pl/about/\n",
|
||||||
|
"\n",
|
||||||
|
"https://serpapi.com/"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"Będziemy omawiać: \n",
|
||||||
|
"- Wyszukiwarki ogólnego przeznaczenia (google, bing, ...)\n",
|
||||||
|
"- Wyszukiwarki na konkretną platformę (amazon, allegro, olx, spar, ...)"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"## Wyszukiwanie zaawansowane google\n",
|
||||||
|
"\n",
|
||||||
|
"- poduszka |/OR drzwi \n",
|
||||||
|
"- poduszka -biała\n",
|
||||||
|
"- poduszka * drzwi\n",
|
||||||
|
"- define:pillow\n",
|
||||||
|
"- cache:wp.pl\n",
|
||||||
|
"- poduszka filetype:pdf\n",
|
||||||
|
"- poduszka site:allegro.pl\n",
|
||||||
|
"- related:allegro.pl\n",
|
||||||
|
"- intitle:poduszka\n",
|
||||||
|
"- allintitle:poduszka biała\n",
|
||||||
|
"- inurl:poduszka\n",
|
||||||
|
"- allinurl:poduszka biała\n",
|
||||||
|
"- poduszka AROUND(4) drzwi\n",
|
||||||
|
"- weather:poznan\n",
|
||||||
|
"- stocks:gme\n",
|
||||||
|
"- map:poznań\n",
|
||||||
|
"- $329 in pln\n",
|
||||||
|
"- euro 1990..2000\n",
|
||||||
|
"- 15*30\n",
|
||||||
|
"- color picker\n",
|
||||||
|
"- elon musk @twitter\n",
|
||||||
|
"\n"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"## Komponenty wyszukiwarki google\n",
|
||||||
|
"- pole do wpisywania tekstu i search button \n",
|
||||||
|
"- sugestie do wpisywania\n",
|
||||||
|
"- ghosting\n",
|
||||||
|
"- autokorekta, np. pdouszka\n",
|
||||||
|
"- ilość wyświetleń dla wyniku \n",
|
||||||
|
"- elementy dodaktowe po wpisaniu frazy (odpowiedzi na pytania ogólne, wyszukiwania powiązane, itp)\n",
|
||||||
|
"- lista elementów (podzielona na strony)\n",
|
||||||
|
"- jak działają strony na urządzeniach mobilnych?\n",
|
||||||
|
"- prezentacja wyników: nazwa strony oraz tam gdzie jest match pogrubienie (czy google ma prawo do umieszczania takich tekstów na swojej stronie)?\n",
|
||||||
|
"- inne komponenty - np best games for nintendo switch\n",
|
||||||
|
"- reklamy"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"## Komponenty wyszukiwarki specjalistycznej na przykładzie allegro\n",
|
||||||
|
"\n",
|
||||||
|
"- wyszukiwarna tekstowa albo nawigowanie bezpośrednio po kategoriach\n",
|
||||||
|
"- każdy ma własny unikalny sposób wyszukiwania\n",
|
||||||
|
"- okno wyszukiwania\n",
|
||||||
|
"- sugestie przy wpisywaniu frazy\n",
|
||||||
|
"- ghosting (np santander.pl)\n",
|
||||||
|
"- autokorekta (sugestia oraz przekierowanie)\n",
|
||||||
|
"- można też wpisać, że szukamy również w opisach, parametrach itp.\n",
|
||||||
|
"- komentarz: tutaj wpisujemy jakąś frazę\n",
|
||||||
|
"- mamy zbiór dokumumentów oraz są posortowane w jakiś sposób (ale niekoniecznie tak musi być)\n",
|
||||||
|
"- jak działa odzyskiwanie dokumentów?\n",
|
||||||
|
" - stopwordy \n",
|
||||||
|
" - normalizacja do lowercase\n",
|
||||||
|
" - lista synonimów, fleksja, odmiana (także ujednoznacznienie do jednej formy → wielka poduszka/ wielki poduszka, kubek kubki)\n",
|
||||||
|
"- sortowania (omówić możliwe sortowania)- element którego nie ma w google\n",
|
||||||
|
"https://allegro.pl/dla-sprzedajacych/trafnosc-xGmVjoPwOTo#moja-oferta-ma-duza-sprzedaz-a-mimo-tego-jest-ona-nizej-w-sortowaniu-po-trafnosci-niz-inne-nowe-oferty-dlaczego-\n",
|
||||||
|
"- trafność dla każdego może znaczyć coś innego\n",
|
||||||
|
"- sortowanie domyślne- jakie jest jego znaczenie?\n",
|
||||||
|
"- inne rodzaje sortowania\n",
|
||||||
|
"- rerankowanie \n",
|
||||||
|
"- po lewej stronie mamy zawężenie do kategorii oraz filtry, wyszukiwanie facetowe- nie ma w google\n",
|
||||||
|
"- mamy także oferty sponsorowane oraz promowane - dylemat- ważniejszy jest biznes czy użytkownik\n",
|
||||||
|
"- rekomendacje dla użytkowników na dole- właściwie to jest osobny dział \n",
|
||||||
|
"- inne możliwości (szukaj wielu)\n",
|
||||||
|
"- wyszukiwanie zaawansowane: https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7\n",
|
||||||
|
"- ewaluacja jakości wyszukiwarki- dyskusja, kto by co wybrał, jak wygląda sprawa z uczeniem maszynowym?\n",
|
||||||
|
"- jakie cele musi spełniać inżynier trafonośći?\n",
|
||||||
|
"- jak ewaluować wyszukiwarki?"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"## API do wyszukiwarek\n",
|
||||||
|
"- https://developer.allegro.pl/listing/"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"## Google trends"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"## SEO (Search Engine Optimization)\n",
|
||||||
|
"- pod google\n",
|
||||||
|
"- pod wyszukiwarki typu allegro, olx \n",
|
||||||
|
"- https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7"
|
||||||
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "markdown",
|
||||||
|
"metadata": {},
|
||||||
|
"source": [
|
||||||
|
"## Zadanie domowe\n",
|
||||||
|
"\n",
|
||||||
|
"----------------------\n",
|
||||||
|
"Maksymalnie do zdobycia za zadania 100: 30\n",
|
||||||
|
"\n",
|
||||||
|
"Maksymalnie do zdobycia za zadania 101-107: 50\n",
|
||||||
|
"\n",
|
||||||
|
"\n",
|
||||||
|
"Zadania proszę oddawać w formie pliku pdf w MS TEAMS (grupa kanału → assignments) do końca 17.03.2021.\n",
|
||||||
|
"\n",
|
||||||
|
"Oprocz samego rozwiązania, proszę umieścić sposób w jaki Państwo do niego doszli (np frazy wpisywane w wysuzkiwarkę, itp.).\n",
|
||||||
|
"\n",
|
||||||
|
"## Zadanie 100\n",
|
||||||
|
"\n",
|
||||||
|
"Znaleźć przykłady „wyzwań” researcherskich — nagród pieniężnych za\n",
|
||||||
|
"znalezienie jakiejś informacji, najwcześniejszego wystąpienia jakiegoś słowa itp.\n",
|
||||||
|
"Wyzwanie musi polegać na znalezieniu jakieś informacji w powszechnie dostępnych źródłach (internet, biblioteki).\n",
|
||||||
|
"Zatem nie liczą sie np. nagrody za udzielenie informacji o jakimś mordercy, itp.\n",
|
||||||
|
"Interesują nas tylko „otwarte” wyzwania. Język, jakiego dotyczy wyzwanie — dowolny.\n",
|
||||||
|
"\n",
|
||||||
|
"Wyzwania podać w formie tabelki: nagroda, link, krótki opis.\n",
|
||||||
|
"\n",
|
||||||
|
"Liczba punktów za każde znalezione wyzwanie: max( 30, 5*log_10(nagroda w dolarach) )\n",
|
||||||
|
"\n",
|
||||||
|
"Przykład: [nagroda $250 za znalezienie wzmianki dotyczącej chupacabry\n",
|
||||||
|
"(potwora) przed 1990 rokiem](http://www.cryptozoonews.com/chupa-250/).\n",
|
||||||
|
"\n",
|
||||||
|
"Maksymalna liczba punktów: 30.\n",
|
||||||
|
"\n",
|
||||||
|
"\n",
|
||||||
|
"## Zadanie 101\n",
|
||||||
|
"\n",
|
||||||
|
"Podać 3 przykłady zapytań na allegro, które daje zaskakujące/niesatysfakcjonujące wyniki. Napisz jaka może być przyczyna takich wyników?\n",
|
||||||
|
"\n",
|
||||||
|
"Maksymalna liczba punktów: 20.\n",
|
||||||
|
"\n",
|
||||||
|
"## Zadanie 102\n",
|
||||||
|
" \n",
|
||||||
|
"Znaleźć PDF-a w języku francuskim opublikowanego w Internecie przed\n",
|
||||||
|
"10 marca 2021 roku z największą ilością stron.\n",
|
||||||
|
"\n",
|
||||||
|
"Punkty: 30 (za największy plik).\n",
|
||||||
|
" \n",
|
||||||
|
"## Zadanie 103\n",
|
||||||
|
"\n",
|
||||||
|
"Znajdź najwcześniejsze poświadczenie w języku angielskim słowa \"coronavirus\".\n",
|
||||||
|
"\n",
|
||||||
|
"Punkty: 35\n",
|
||||||
|
"\n",
|
||||||
|
"## Zadanie 104\n",
|
||||||
|
"\n",
|
||||||
|
"Znajdź najwcześniejsze poświadczenie w języku angielskim słowa \"SARS-CoV-2\".\n",
|
||||||
|
"Punkty: 35\n",
|
||||||
|
" \n",
|
||||||
|
" \n",
|
||||||
|
"## Zadanie 105\n",
|
||||||
|
" \n",
|
||||||
|
"Podaj 3 przykłady ofert na portalach (allegro, olx, inne), które mają nieoczywiste tytuły w celu pojawienia się\n",
|
||||||
|
"dla jak największej ilości zapytań. Powinny to być 3 różne powody. Napisz jakie to są powody przy ofercie.\n",
|
||||||
|
"\n",
|
||||||
|
"Punkty: 20\n",
|
||||||
|
"\n",
|
||||||
|
"\n",
|
||||||
|
"## Zadanie 106\n",
|
||||||
|
"\n",
|
||||||
|
"Znajdź wykres na google trends, który pokazuje równoczesny wzrost zainteresowania jednej frazy, gdy maleje\n",
|
||||||
|
"zainteresowanie drugą frazą. Obie frazy powinny być choć trochę popularne. Niekoniecznie musi występować \n",
|
||||||
|
"powiązanie przyczynowo-skutkowe, ale jeżeli zachodzi- tym lepiej. Skorzystaj z opcji porównywania trendów.\n",
|
||||||
|
"\n",
|
||||||
|
"Punkty: 20\n",
|
||||||
|
"\n",
|
||||||
|
"## Zadanie 107\n",
|
||||||
|
"\n",
|
||||||
|
"Znajdź zapytanie na google trends, które jest popularne w niektórych regionach polski, a w innych nie. Z czego mogą wynikać te różnice?\n",
|
||||||
|
"\n",
|
||||||
|
"Punkty: 20\n",
|
||||||
|
" \n",
|
||||||
|
" \n"
|
||||||
|
]
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"metadata": {
|
||||||
|
"kernelspec": {
|
||||||
|
"display_name": "Python 3",
|
||||||
|
"language": "python",
|
||||||
|
"name": "python3"
|
||||||
|
},
|
||||||
|
"language_info": {
|
||||||
|
"codemirror_mode": {
|
||||||
|
"name": "ipython",
|
||||||
|
"version": 3
|
||||||
|
},
|
||||||
|
"file_extension": ".py",
|
||||||
|
"mimetype": "text/x-python",
|
||||||
|
"name": "python",
|
||||||
|
"nbconvert_exporter": "python",
|
||||||
|
"pygments_lexer": "ipython3",
|
||||||
|
"version": "3.8.5"
|
||||||
|
}
|
||||||
|
},
|
||||||
|
"nbformat": 4,
|
||||||
|
"nbformat_minor": 4
|
||||||
|
}
|
Loading…
Reference in New Issue
Block a user