aitech-eks-pub/cw/01_Wyszukiwarki-wprowadzenie.ipynb
2021-09-27 12:34:44 +02:00

9.7 KiB

Logo 1

Ekstrakcja informacji

1. Wyszukiwarki wprowadzenie [ćwiczenia]

Jakub Pokrywka (2021)

Logo 2

Zajecia 1

Na tych zajęciach za aktywnośc można otrzymać po 5 punktów za wartościową wypowiedź. Maksymalnie jedna osoba może zdobyć na tych ćwiczeniach do 15 punktów.

Będziemy omawiać:

  • Wyszukiwarki ogólnego przeznaczenia (google, bing, ...)
  • Wyszukiwarki na konkretną platformę (amazon, allegro, olx, spar, ...)

Wyszukiwanie zaawansowane google

  • "job steve"
  • poduszka |/OR drzwi
  • poduszka -biała
  • poduszka * drzwi
  • define:pillow
  • cache:wp.pl
  • poduszka filetype:pdf
  • poduszka site:allegro.pl
  • related:allegro.pl
  • intitle:poduszka
  • allintitle:poduszka biała
  • inurl:poduszka
  • allinurl:poduszka biała
  • poduszka AROUND(4) drzwi
  • weather:poznan
  • stocks:gme
  • map:poznań
  • $329 in pln
  • euro 1990..2000
  • 15*30
  • color picker
  • elon musk @twitter

Komponenty wyszukiwarki google

  • pole do wpisywania tekstu i search button
  • sugestie do wpisywania
  • ghosting
  • autokorekta, np. pdouszka
  • ilość wyświetleń dla wyniku
  • elementy dodaktowe po wpisaniu frazy (odpowiedzi na pytania ogólne, wyszukiwania powiązane, itp)
  • lista elementów (podzielona na strony)
  • jak działają strony na urządzeniach mobilnych?
  • prezentacja wyników: nazwa strony oraz tam gdzie jest match pogrubienie (czy google ma prawo do umieszczania takich tekstów na swojej stronie)?
  • inne komponenty - np best games for nintendo switch
  • reklamy

Komponenty wyszukiwarki specjalistycznej na przykładzie allegro

  • wyszukiwarna tekstowa albo nawigowanie bezpośrednio po kategoriach
  • każdy ma własny unikalny sposób wyszukiwania
  • okno wyszukiwania
  • sugestie przy wpisywaniu frazy
  • ghosting (np santander.pl)
  • autokorekta (sugestia oraz przekierowanie)
  • można też wpisać, że szukamy również w opisach, parametrach itp.
  • komentarz: tutaj wpisujemy jakąś frazę
  • mamy zbiór dokumumentów oraz są posortowane w jakiś sposób (ale niekoniecznie tak musi być)
  • jak działa odzyskiwanie dokumentów?
  • stopwordy
  • normalizacja do lowercase
  • lista synonimów, fleksja, odmiana (także ujednoznacznienie do jednej formy → wielka poduszka/ wielki poduszka, kubek kubki)
  • sortowania (omówić możliwe sortowania)- element którego nie ma w google https://allegro.pl/dla-sprzedajacych/trafnosc-xGmVjoPwOTo#moja-oferta-ma-duza-sprzedaz-a-mimo-tego-jest-ona-nizej-w-sortowaniu-po-trafnosci-niz-inne-nowe-oferty-dlaczego-
  • trafność dla każdego może znaczyć coś innego
  • sortowanie domyślne- jakie jest jego znaczenie?
  • inne rodzaje sortowania
  • rerankowanie
  • po lewej stronie mamy zawężenie do kategorii oraz filtry, wyszukiwanie facetowe- nie ma w google
  • mamy także oferty sponsorowane oraz promowane - dylemat- ważniejszy jest biznes czy użytkownik
  • rekomendacje dla użytkowników na dole- właściwie to jest osobny dział
  • inne możliwości (szukaj wielu)
  • wyszukiwanie zaawansowane: https://allegro.pl/pomoc/dla-kupujacych/wyszukiwanie-i-obserwowanie/jak-korzystac-z-wyszukiwarki-i-znalezc-przedmiot-mGwAg2jRrU7
  • ewaluacja jakości wyszukiwarki- dyskusja, kto by co wybrał, jak wygląda sprawa z uczeniem maszynowym?
  • jakie cele musi spełniać inżynier trafonośći?
  • jak ewaluować wyszukiwarki?

Zadanie domowe


Maksymalnie do zdobycia za zadania 100: 30

Maksymalnie do zdobycia za zadania 101-107: 50

Zadania proszę oddawać w formie pliku pdf w MS TEAMS (grupa kanału → assignments) do końca 17.03.2021.

Oprocz samego rozwiązania, proszę umieścić sposób w jaki Państwo do niego doszli (np frazy wpisywane w wysuzkiwarkę, itp.).

Zadanie 100

Znaleźć przykłady „wyzwań” researcherskich — nagród pieniężnych za znalezienie jakiejś informacji, najwcześniejszego wystąpienia jakiegoś słowa itp. Wyzwanie musi polegać na znalezieniu jakieś informacji w powszechnie dostępnych źródłach (internet, biblioteki). Zatem nie liczą sie np. nagrody za udzielenie informacji o jakimś mordercy, itp. Interesują nas tylko „otwarte” wyzwania. Język, jakiego dotyczy wyzwanie — dowolny.

Wyzwania podać w formie tabelki: nagroda, link, krótki opis.

Liczba punktów za każde znalezione wyzwanie: max( 30, 5*log_10(nagroda w dolarach) )

Przykład: nagroda $250 za znalezienie wzmianki dotyczącej chupacabry (potwora) przed 1990 rokiem.

Maksymalna liczba punktów: 30.

Zadanie 101

Podać 3 przykłady zapytań na allegro, które daje zaskakujące/niesatysfakcjonujące wyniki. Napisz jaka może być przyczyna takich wyników?

Maksymalna liczba punktów: 20.

Zadanie 102

Znaleźć PDF-a w języku francuskim opublikowanego w Internecie przed 10 marca 2021 roku z największą ilością stron.

Punkty: 30 (za największy plik).

Zadanie 103

Znajdź najwcześniejsze poświadczenie w języku angielskim słowa "coronavirus".

Punkty: 35

Zadanie 104

Znajdź najwcześniejsze poświadczenie w języku angielskim słowa "SARS-CoV-2". Punkty: 35

Zadanie 105

Podaj 3 przykłady ofert na portalach (allegro, olx, inne), które mają nieoczywiste tytuły w celu pojawienia się dla jak największej ilości zapytań. Powinny to być 3 różne powody. Napisz jakie to są powody przy ofercie.

Punkty: 20

Zadanie 106

Znajdź wykres na google trends, który pokazuje równoczesny wzrost zainteresowania jednej frazy, gdy maleje zainteresowanie drugą frazą. Obie frazy powinny być choć trochę popularne. Niekoniecznie musi występować powiązanie przyczynowo-skutkowe, ale jeżeli zachodzi- tym lepiej. Skorzystaj z opcji porównywania trendów.

Punkty: 20

Zadanie 107

Znajdź zapytanie na google trends, które jest popularne w niektórych regionach polski, a w innych nie. Z czego mogą wynikać te różnice?

Punkty: 20