This commit is contained in:
kubapok 2021-03-09 12:27:15 +01:00
parent f62e68ccab
commit 098588f2bd
2 changed files with 337 additions and 0 deletions

View File

@ -0,0 +1,81 @@
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Informacje ogólne"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Kontakt z prowadzącym\n",
"\n",
"prowadzący: mgr inż. Jakub Pokrywka\n",
"\n",
"Najlepiej kontaktowąć się ze mną przez MS TEAMS na grupie kanału (ogólne sprawy) lub w prywatnych wiadomościach. Odpisuję co 2-3 dni. Można też umówić się na zdzwonko w godzinach dyżuru (wt 12.00-13.00) lub umówić się w innym terminie.\n",
"\n",
"\n",
"## Literatura\n",
"Polecana literatura do przedmiotu:\n",
"\n",
"\n",
"- https://www.manning.com/books/relevant-search#toc (darmowa) Polecam chociaż przejrzeć.\n",
"- Marie-Francine Moens. 2006. Information Extraction: Algorithms and Prospects in a Retrieval Context. Springer. (polecam mniej, jest trochę nieaktualna)\n",
"- Alex Graves. 2012. Supervised sequence labelling. Studies in Computational Intelligence, vol 385. Springer. Berlin, Heidelberg. \n",
"\n",
"- Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. North American Association for Computational Linguistics (NAACL). \n",
"\n",
"- Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. 2020. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research vol 21, number 140, pages 1-67. \n",
"\n",
"- Flip Graliński, Tomasz Stanisławek, Anna Wróblewska, Dawid Lipiński, Agnieszka Kaliska, Paulina Rosalska, Bartosz Topolski, Przemysław Biecek. 2020. Kleister: A novel task for information extraction involving long documents with complex layout. URL https://arxiv.org/abs/2003.02356 \n",
"\n",
"- Łukasz Garncarek, Rafał Powalski, Tomasz Stanisławek, Bartosz Topolski, Piotr Halama, Filip Graliński. 2020. LAMBERT: Layout-Aware (Language) Modeling using BERT. URL https://arxiv.org/pdf/2002.08087 \n",
"\n",
"## Zaliczenie\n",
"\n",
"\n",
"\n",
"Do zdobycia będzie conajmniej 500 punktów.\n",
"\n",
"Ocena:\n",
"\n",
"- -299 — 2\n",
"\n",
"- 300-349 — 3\n",
"\n",
"- 350-399 — 3+\n",
"\n",
"- 400-449 — 4\n",
"\n",
"- 450—499 — 4+\n",
"\n",
"- 500- — 5\n",
"\n"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.8.5"
}
},
"nbformat": 4,
"nbformat_minor": 4
}

View File

@ -0,0 +1,256 @@
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Zajecia 1\n",
"\n",
"Na tych zajęciach za aktywnośc można otrzymać po 5 punktów za wartościową wypowiedź. Maksymalnie jedna osoba może zdobyć na tych ćwiczeniach do 15 punktów."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Przydatne materiały:\n",
"\n",
"https://www.google.com/advanced_search\n",
"\n",
"https://www.google.pl/advanced_image_search\n",
"\n",
"https://support.google.com/websearch/answer/2466433?hl=en\n",
"\n",
"https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7\n",
"\n",
"https://allegro.pl/dla-sprzedajacych/trafnosc-xGmVjoPwOTo\n",
"\n",
"https://developer.allegro.pl/about/\n",
"\n",
"https://serpapi.com/"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Będziemy omawiać: \n",
"- Wyszukiwarki ogólnego przeznaczenia (google, bing, ...)\n",
"- Wyszukiwarki na konkretną platformę (amazon, allegro, olx, spar, ...)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Wyszukiwanie zaawansowane google\n",
"\n",
"- poduszka |/OR drzwi \n",
"- poduszka -biała\n",
"- poduszka * drzwi\n",
"- define:pillow\n",
"- cache:wp.pl\n",
"- poduszka filetype:pdf\n",
"- poduszka site:allegro.pl\n",
"- related:allegro.pl\n",
"- intitle:poduszka\n",
"- allintitle:poduszka biała\n",
"- inurl:poduszka\n",
"- allinurl:poduszka biała\n",
"- poduszka AROUND(4) drzwi\n",
"- weather:poznan\n",
"- stocks:gme\n",
"- map:poznań\n",
"- $329 in pln\n",
"- euro 1990..2000\n",
"- 15*30\n",
"- color picker\n",
"- elon musk @twitter\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Komponenty wyszukiwarki google\n",
"- pole do wpisywania tekstu i search button \n",
"- sugestie do wpisywania\n",
"- ghosting\n",
"- autokorekta, np. pdouszka\n",
"- ilość wyświetleń dla wyniku \n",
"- elementy dodaktowe po wpisaniu frazy (odpowiedzi na pytania ogólne, wyszukiwania powiązane, itp)\n",
"- lista elementów (podzielona na strony)\n",
"- jak działają strony na urządzeniach mobilnych?\n",
"- prezentacja wyników: nazwa strony oraz tam gdzie jest match pogrubienie (czy google ma prawo do umieszczania takich tekstów na swojej stronie)?\n",
"- inne komponenty - np best games for nintendo switch\n",
"- reklamy"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Komponenty wyszukiwarki specjalistycznej na przykładzie allegro\n",
"\n",
"- wyszukiwarna tekstowa albo nawigowanie bezpośrednio po kategoriach\n",
"- każdy ma własny unikalny sposób wyszukiwania\n",
"- okno wyszukiwania\n",
"- sugestie przy wpisywaniu frazy\n",
"- ghosting (np santander.pl)\n",
"- autokorekta (sugestia oraz przekierowanie)\n",
"- można też wpisać, że szukamy również w opisach, parametrach itp.\n",
"- komentarz: tutaj wpisujemy jakąś frazę\n",
"- mamy zbiór dokumumentów oraz są posortowane w jakiś sposób (ale niekoniecznie tak musi być)\n",
"- jak działa odzyskiwanie dokumentów?\n",
" - stopwordy \n",
" - normalizacja do lowercase\n",
" - lista synonimów, fleksja, odmiana (także ujednoznacznienie do jednej formy → wielka poduszka/ wielki poduszka, kubek kubki)\n",
"- sortowania (omówić możliwe sortowania)- element którego nie ma w google\n",
"https://allegro.pl/dla-sprzedajacych/trafnosc-xGmVjoPwOTo#moja-oferta-ma-duza-sprzedaz-a-mimo-tego-jest-ona-nizej-w-sortowaniu-po-trafnosci-niz-inne-nowe-oferty-dlaczego-\n",
"- trafność dla każdego może znaczyć coś innego\n",
"- sortowanie domyślne- jakie jest jego znaczenie?\n",
"- inne rodzaje sortowania\n",
"- rerankowanie \n",
"- po lewej stronie mamy zawężenie do kategorii oraz filtry, wyszukiwanie facetowe- nie ma w google\n",
"- mamy także oferty sponsorowane oraz promowane - dylemat- ważniejszy jest biznes czy użytkownik\n",
"- rekomendacje dla użytkowników na dole- właściwie to jest osobny dział \n",
"- inne możliwości (szukaj wielu)\n",
"- wyszukiwanie zaawansowane: https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7\n",
"- ewaluacja jakości wyszukiwarki- dyskusja, kto by co wybrał, jak wygląda sprawa z uczeniem maszynowym?\n",
"- jakie cele musi spełniać inżynier trafonośći?\n",
"- jak ewaluować wyszukiwarki?"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## API do wyszukiwarek\n",
"- https://developer.allegro.pl/listing/"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Google trends"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## SEO (Search Engine Optimization)\n",
"- pod google\n",
"- pod wyszukiwarki typu allegro, olx \n",
"- https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Zadanie domowe\n",
"\n",
"----------------------\n",
"Maksymalnie do zdobycia za zadania 100: 30\n",
"\n",
"Maksymalnie do zdobycia za zadania 101-107: 50\n",
"\n",
"\n",
"Zadania proszę oddawać w formie pliku pdf w MS TEAMS (grupa kanału → assignments) do końca 17.03.2021.\n",
"\n",
"Oprocz samego rozwiązania, proszę umieścić sposób w jaki Państwo do niego doszli (np frazy wpisywane w wysuzkiwarkę, itp.).\n",
"\n",
"## Zadanie 100\n",
"\n",
"Znaleźć przykłady „wyzwań” researcherskich — nagród pieniężnych za\n",
"znalezienie jakiejś informacji, najwcześniejszego wystąpienia jakiegoś słowa itp.\n",
"Wyzwanie musi polegać na znalezieniu jakieś informacji w powszechnie dostępnych źródłach (internet, biblioteki).\n",
"Zatem nie liczą sie np. nagrody za udzielenie informacji o jakimś mordercy, itp.\n",
"Interesują nas tylko „otwarte” wyzwania. Język, jakiego dotyczy wyzwanie — dowolny.\n",
"\n",
"Wyzwania podać w formie tabelki: nagroda, link, krótki opis.\n",
"\n",
"Liczba punktów za każde znalezione wyzwanie: max( 30, 5*log_10(nagroda w dolarach) )\n",
"\n",
"Przykład: [nagroda $250 za znalezienie wzmianki dotyczącej chupacabry\n",
"(potwora) przed 1990 rokiem](http://www.cryptozoonews.com/chupa-250/).\n",
"\n",
"Maksymalna liczba punktów: 30.\n",
"\n",
"\n",
"## Zadanie 101\n",
"\n",
"Podać 3 przykłady zapytań na allegro, które daje zaskakujące/niesatysfakcjonujące wyniki. Napisz jaka może być przyczyna takich wyników?\n",
"\n",
"Maksymalna liczba punktów: 20.\n",
"\n",
"## Zadanie 102\n",
" \n",
"Znaleźć PDF-a w języku francuskim opublikowanego w Internecie przed\n",
"10 marca 2021 roku z największą ilością stron.\n",
"\n",
"Punkty: 30 (za największy plik).\n",
" \n",
"## Zadanie 103\n",
"\n",
"Znajdź najwcześniejsze poświadczenie w języku angielskim słowa \"coronavirus\".\n",
"\n",
"Punkty: 35\n",
"\n",
"## Zadanie 104\n",
"\n",
"Znajdź najwcześniejsze poświadczenie w języku angielskim słowa \"SARS-CoV-2\".\n",
"Punkty: 35\n",
" \n",
" \n",
"## Zadanie 105\n",
" \n",
"Podaj 3 przykłady ofert na portalach (allegro, olx, inne), które mają nieoczywiste tytuły w celu pojawienia się\n",
"dla jak największej ilości zapytań. Powinny to być 3 różne powody. Napisz jakie to są powody przy ofercie.\n",
"\n",
"Punkty: 20\n",
"\n",
"\n",
"## Zadanie 106\n",
"\n",
"Znajdź wykres na google trends, który pokazuje równoczesny wzrost zainteresowania jednej frazy, gdy maleje\n",
"zainteresowanie drugą frazą. Obie frazy powinny być choć trochę popularne. Niekoniecznie musi występować \n",
"powiązanie przyczynowo-skutkowe, ale jeżeli zachodzi- tym lepiej. Skorzystaj z opcji porównywania trendów.\n",
"\n",
"Punkty: 20\n",
"\n",
"## Zadanie 107\n",
"\n",
"Znajdź zapytanie na google trends, które jest popularne w niektórych regionach polski, a w innych nie. Z czego mogą wynikać te różnice?\n",
"\n",
"Punkty: 20\n",
" \n",
" \n"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.8.5"
}
},
"nbformat": 4,
"nbformat_minor": 4
}