add cw1
This commit is contained in:
parent
f62e68ccab
commit
098588f2bd
81
cw/00_Informacje_na_temat_przedmiotu.ipynb
Normal file
81
cw/00_Informacje_na_temat_przedmiotu.ipynb
Normal file
@ -0,0 +1,81 @@
|
||||
{
|
||||
"cells": [
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"# Informacje ogólne"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"## Kontakt z prowadzącym\n",
|
||||
"\n",
|
||||
"prowadzący: mgr inż. Jakub Pokrywka\n",
|
||||
"\n",
|
||||
"Najlepiej kontaktowąć się ze mną przez MS TEAMS na grupie kanału (ogólne sprawy) lub w prywatnych wiadomościach. Odpisuję co 2-3 dni. Można też umówić się na zdzwonko w godzinach dyżuru (wt 12.00-13.00) lub umówić się w innym terminie.\n",
|
||||
"\n",
|
||||
"\n",
|
||||
"## Literatura\n",
|
||||
"Polecana literatura do przedmiotu:\n",
|
||||
"\n",
|
||||
"\n",
|
||||
"- https://www.manning.com/books/relevant-search#toc (darmowa) Polecam chociaż przejrzeć.\n",
|
||||
"- Marie-Francine Moens. 2006. Information Extraction: Algorithms and Prospects in a Retrieval Context. Springer. (polecam mniej, jest trochę nieaktualna)\n",
|
||||
"- Alex Graves. 2012. Supervised sequence labelling. Studies in Computational Intelligence, vol 385. Springer. Berlin, Heidelberg. \n",
|
||||
"\n",
|
||||
"- Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. North American Association for Computational Linguistics (NAACL). \n",
|
||||
"\n",
|
||||
"- Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. 2020. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research vol 21, number 140, pages 1-67. \n",
|
||||
"\n",
|
||||
"- Flip Graliński, Tomasz Stanisławek, Anna Wróblewska, Dawid Lipiński, Agnieszka Kaliska, Paulina Rosalska, Bartosz Topolski, Przemysław Biecek. 2020. Kleister: A novel task for information extraction involving long documents with complex layout. URL https://arxiv.org/abs/2003.02356 \n",
|
||||
"\n",
|
||||
"- Łukasz Garncarek, Rafał Powalski, Tomasz Stanisławek, Bartosz Topolski, Piotr Halama, Filip Graliński. 2020. LAMBERT: Layout-Aware (Language) Modeling using BERT. URL https://arxiv.org/pdf/2002.08087 \n",
|
||||
"\n",
|
||||
"## Zaliczenie\n",
|
||||
"\n",
|
||||
"\n",
|
||||
"\n",
|
||||
"Do zdobycia będzie conajmniej 500 punktów.\n",
|
||||
"\n",
|
||||
"Ocena:\n",
|
||||
"\n",
|
||||
"- -299 — 2\n",
|
||||
"\n",
|
||||
"- 300-349 — 3\n",
|
||||
"\n",
|
||||
"- 350-399 — 3+\n",
|
||||
"\n",
|
||||
"- 400-449 — 4\n",
|
||||
"\n",
|
||||
"- 450—499 — 4+\n",
|
||||
"\n",
|
||||
"- 500- — 5\n",
|
||||
"\n"
|
||||
]
|
||||
}
|
||||
],
|
||||
"metadata": {
|
||||
"kernelspec": {
|
||||
"display_name": "Python 3",
|
||||
"language": "python",
|
||||
"name": "python3"
|
||||
},
|
||||
"language_info": {
|
||||
"codemirror_mode": {
|
||||
"name": "ipython",
|
||||
"version": 3
|
||||
},
|
||||
"file_extension": ".py",
|
||||
"mimetype": "text/x-python",
|
||||
"name": "python",
|
||||
"nbconvert_exporter": "python",
|
||||
"pygments_lexer": "ipython3",
|
||||
"version": "3.8.5"
|
||||
}
|
||||
},
|
||||
"nbformat": 4,
|
||||
"nbformat_minor": 4
|
||||
}
|
256
cw/01_Wyszukiwarki-wprowadzenie.ipynb
Normal file
256
cw/01_Wyszukiwarki-wprowadzenie.ipynb
Normal file
@ -0,0 +1,256 @@
|
||||
{
|
||||
"cells": [
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"# Zajecia 1\n",
|
||||
"\n",
|
||||
"Na tych zajęciach za aktywnośc można otrzymać po 5 punktów za wartościową wypowiedź. Maksymalnie jedna osoba może zdobyć na tych ćwiczeniach do 15 punktów."
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"# Przydatne materiały:\n",
|
||||
"\n",
|
||||
"https://www.google.com/advanced_search\n",
|
||||
"\n",
|
||||
"https://www.google.pl/advanced_image_search\n",
|
||||
"\n",
|
||||
"https://support.google.com/websearch/answer/2466433?hl=en\n",
|
||||
"\n",
|
||||
"https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7\n",
|
||||
"\n",
|
||||
"https://allegro.pl/dla-sprzedajacych/trafnosc-xGmVjoPwOTo\n",
|
||||
"\n",
|
||||
"https://developer.allegro.pl/about/\n",
|
||||
"\n",
|
||||
"https://serpapi.com/"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Będziemy omawiać: \n",
|
||||
"- Wyszukiwarki ogólnego przeznaczenia (google, bing, ...)\n",
|
||||
"- Wyszukiwarki na konkretną platformę (amazon, allegro, olx, spar, ...)"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"## Wyszukiwanie zaawansowane google\n",
|
||||
"\n",
|
||||
"- poduszka |/OR drzwi \n",
|
||||
"- poduszka -biała\n",
|
||||
"- poduszka * drzwi\n",
|
||||
"- define:pillow\n",
|
||||
"- cache:wp.pl\n",
|
||||
"- poduszka filetype:pdf\n",
|
||||
"- poduszka site:allegro.pl\n",
|
||||
"- related:allegro.pl\n",
|
||||
"- intitle:poduszka\n",
|
||||
"- allintitle:poduszka biała\n",
|
||||
"- inurl:poduszka\n",
|
||||
"- allinurl:poduszka biała\n",
|
||||
"- poduszka AROUND(4) drzwi\n",
|
||||
"- weather:poznan\n",
|
||||
"- stocks:gme\n",
|
||||
"- map:poznań\n",
|
||||
"- $329 in pln\n",
|
||||
"- euro 1990..2000\n",
|
||||
"- 15*30\n",
|
||||
"- color picker\n",
|
||||
"- elon musk @twitter\n",
|
||||
"\n"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"## Komponenty wyszukiwarki google\n",
|
||||
"- pole do wpisywania tekstu i search button \n",
|
||||
"- sugestie do wpisywania\n",
|
||||
"- ghosting\n",
|
||||
"- autokorekta, np. pdouszka\n",
|
||||
"- ilość wyświetleń dla wyniku \n",
|
||||
"- elementy dodaktowe po wpisaniu frazy (odpowiedzi na pytania ogólne, wyszukiwania powiązane, itp)\n",
|
||||
"- lista elementów (podzielona na strony)\n",
|
||||
"- jak działają strony na urządzeniach mobilnych?\n",
|
||||
"- prezentacja wyników: nazwa strony oraz tam gdzie jest match pogrubienie (czy google ma prawo do umieszczania takich tekstów na swojej stronie)?\n",
|
||||
"- inne komponenty - np best games for nintendo switch\n",
|
||||
"- reklamy"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"## Komponenty wyszukiwarki specjalistycznej na przykładzie allegro\n",
|
||||
"\n",
|
||||
"- wyszukiwarna tekstowa albo nawigowanie bezpośrednio po kategoriach\n",
|
||||
"- każdy ma własny unikalny sposób wyszukiwania\n",
|
||||
"- okno wyszukiwania\n",
|
||||
"- sugestie przy wpisywaniu frazy\n",
|
||||
"- ghosting (np santander.pl)\n",
|
||||
"- autokorekta (sugestia oraz przekierowanie)\n",
|
||||
"- można też wpisać, że szukamy również w opisach, parametrach itp.\n",
|
||||
"- komentarz: tutaj wpisujemy jakąś frazę\n",
|
||||
"- mamy zbiór dokumumentów oraz są posortowane w jakiś sposób (ale niekoniecznie tak musi być)\n",
|
||||
"- jak działa odzyskiwanie dokumentów?\n",
|
||||
" - stopwordy \n",
|
||||
" - normalizacja do lowercase\n",
|
||||
" - lista synonimów, fleksja, odmiana (także ujednoznacznienie do jednej formy → wielka poduszka/ wielki poduszka, kubek kubki)\n",
|
||||
"- sortowania (omówić możliwe sortowania)- element którego nie ma w google\n",
|
||||
"https://allegro.pl/dla-sprzedajacych/trafnosc-xGmVjoPwOTo#moja-oferta-ma-duza-sprzedaz-a-mimo-tego-jest-ona-nizej-w-sortowaniu-po-trafnosci-niz-inne-nowe-oferty-dlaczego-\n",
|
||||
"- trafność dla każdego może znaczyć coś innego\n",
|
||||
"- sortowanie domyślne- jakie jest jego znaczenie?\n",
|
||||
"- inne rodzaje sortowania\n",
|
||||
"- rerankowanie \n",
|
||||
"- po lewej stronie mamy zawężenie do kategorii oraz filtry, wyszukiwanie facetowe- nie ma w google\n",
|
||||
"- mamy także oferty sponsorowane oraz promowane - dylemat- ważniejszy jest biznes czy użytkownik\n",
|
||||
"- rekomendacje dla użytkowników na dole- właściwie to jest osobny dział \n",
|
||||
"- inne możliwości (szukaj wielu)\n",
|
||||
"- wyszukiwanie zaawansowane: https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7\n",
|
||||
"- ewaluacja jakości wyszukiwarki- dyskusja, kto by co wybrał, jak wygląda sprawa z uczeniem maszynowym?\n",
|
||||
"- jakie cele musi spełniać inżynier trafonośći?\n",
|
||||
"- jak ewaluować wyszukiwarki?"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"## API do wyszukiwarek\n",
|
||||
"- https://developer.allegro.pl/listing/"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"## Google trends"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"## SEO (Search Engine Optimization)\n",
|
||||
"- pod google\n",
|
||||
"- pod wyszukiwarki typu allegro, olx \n",
|
||||
"- https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"## Zadanie domowe\n",
|
||||
"\n",
|
||||
"----------------------\n",
|
||||
"Maksymalnie do zdobycia za zadania 100: 30\n",
|
||||
"\n",
|
||||
"Maksymalnie do zdobycia za zadania 101-107: 50\n",
|
||||
"\n",
|
||||
"\n",
|
||||
"Zadania proszę oddawać w formie pliku pdf w MS TEAMS (grupa kanału → assignments) do końca 17.03.2021.\n",
|
||||
"\n",
|
||||
"Oprocz samego rozwiązania, proszę umieścić sposób w jaki Państwo do niego doszli (np frazy wpisywane w wysuzkiwarkę, itp.).\n",
|
||||
"\n",
|
||||
"## Zadanie 100\n",
|
||||
"\n",
|
||||
"Znaleźć przykłady „wyzwań” researcherskich — nagród pieniężnych za\n",
|
||||
"znalezienie jakiejś informacji, najwcześniejszego wystąpienia jakiegoś słowa itp.\n",
|
||||
"Wyzwanie musi polegać na znalezieniu jakieś informacji w powszechnie dostępnych źródłach (internet, biblioteki).\n",
|
||||
"Zatem nie liczą sie np. nagrody za udzielenie informacji o jakimś mordercy, itp.\n",
|
||||
"Interesują nas tylko „otwarte” wyzwania. Język, jakiego dotyczy wyzwanie — dowolny.\n",
|
||||
"\n",
|
||||
"Wyzwania podać w formie tabelki: nagroda, link, krótki opis.\n",
|
||||
"\n",
|
||||
"Liczba punktów za każde znalezione wyzwanie: max( 30, 5*log_10(nagroda w dolarach) )\n",
|
||||
"\n",
|
||||
"Przykład: [nagroda $250 za znalezienie wzmianki dotyczącej chupacabry\n",
|
||||
"(potwora) przed 1990 rokiem](http://www.cryptozoonews.com/chupa-250/).\n",
|
||||
"\n",
|
||||
"Maksymalna liczba punktów: 30.\n",
|
||||
"\n",
|
||||
"\n",
|
||||
"## Zadanie 101\n",
|
||||
"\n",
|
||||
"Podać 3 przykłady zapytań na allegro, które daje zaskakujące/niesatysfakcjonujące wyniki. Napisz jaka może być przyczyna takich wyników?\n",
|
||||
"\n",
|
||||
"Maksymalna liczba punktów: 20.\n",
|
||||
"\n",
|
||||
"## Zadanie 102\n",
|
||||
" \n",
|
||||
"Znaleźć PDF-a w języku francuskim opublikowanego w Internecie przed\n",
|
||||
"10 marca 2021 roku z największą ilością stron.\n",
|
||||
"\n",
|
||||
"Punkty: 30 (za największy plik).\n",
|
||||
" \n",
|
||||
"## Zadanie 103\n",
|
||||
"\n",
|
||||
"Znajdź najwcześniejsze poświadczenie w języku angielskim słowa \"coronavirus\".\n",
|
||||
"\n",
|
||||
"Punkty: 35\n",
|
||||
"\n",
|
||||
"## Zadanie 104\n",
|
||||
"\n",
|
||||
"Znajdź najwcześniejsze poświadczenie w języku angielskim słowa \"SARS-CoV-2\".\n",
|
||||
"Punkty: 35\n",
|
||||
" \n",
|
||||
" \n",
|
||||
"## Zadanie 105\n",
|
||||
" \n",
|
||||
"Podaj 3 przykłady ofert na portalach (allegro, olx, inne), które mają nieoczywiste tytuły w celu pojawienia się\n",
|
||||
"dla jak największej ilości zapytań. Powinny to być 3 różne powody. Napisz jakie to są powody przy ofercie.\n",
|
||||
"\n",
|
||||
"Punkty: 20\n",
|
||||
"\n",
|
||||
"\n",
|
||||
"## Zadanie 106\n",
|
||||
"\n",
|
||||
"Znajdź wykres na google trends, który pokazuje równoczesny wzrost zainteresowania jednej frazy, gdy maleje\n",
|
||||
"zainteresowanie drugą frazą. Obie frazy powinny być choć trochę popularne. Niekoniecznie musi występować \n",
|
||||
"powiązanie przyczynowo-skutkowe, ale jeżeli zachodzi- tym lepiej. Skorzystaj z opcji porównywania trendów.\n",
|
||||
"\n",
|
||||
"Punkty: 20\n",
|
||||
"\n",
|
||||
"## Zadanie 107\n",
|
||||
"\n",
|
||||
"Znajdź zapytanie na google trends, które jest popularne w niektórych regionach polski, a w innych nie. Z czego mogą wynikać te różnice?\n",
|
||||
"\n",
|
||||
"Punkty: 20\n",
|
||||
" \n",
|
||||
" \n"
|
||||
]
|
||||
}
|
||||
],
|
||||
"metadata": {
|
||||
"kernelspec": {
|
||||
"display_name": "Python 3",
|
||||
"language": "python",
|
||||
"name": "python3"
|
||||
},
|
||||
"language_info": {
|
||||
"codemirror_mode": {
|
||||
"name": "ipython",
|
||||
"version": 3
|
||||
},
|
||||
"file_extension": ".py",
|
||||
"mimetype": "text/x-python",
|
||||
"name": "python",
|
||||
"nbconvert_exporter": "python",
|
||||
"pygments_lexer": "ipython3",
|
||||
"version": "3.8.5"
|
||||
}
|
||||
},
|
||||
"nbformat": 4,
|
||||
"nbformat_minor": 4
|
||||
}
|
Loading…
Reference in New Issue
Block a user