aitech-eks-pub/wyk/01_Wyszukiwarki-wprowadzenie.ipynb
2021-09-27 07:42:48 +02:00

75 KiB
Raw Blame History

Logo 1

Ekstrakcja informacji

1. Wyszukiwarki — wprowadzenie [wykład]

Filip Graliński (2021)

Logo 2

# Wyszukiwarki - wprowadzenie

## Systemy wyszukiwania informacji (information retrieval systems)

![System wyszukiwania informacji](system-wyszukiwania-informacji.png)

Wyszukiwarki

Wyszukiwarki

Chcę stworzyć swoją własną wyszukiwarkę internetową...

  1. Skąd brać adresy URL?
  2. Jak pobrać pliki z tych adresów?
  3. Jak wydobyć z nich tekst?

... a może w ogóle nie pobierać?

# Bezpośrednio z serwisu

! (wget -O - -q https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-34/segments/1502886133449.19/warc/CC-MAIN-20170824101532-20170824121532-00719.warc.gz | zcat| grep -P -o -a '<!--[^\[\]<>]+' | uniq | head -n 20)
<!-- スマホ用 --
<!-- 
<!--table width='750' border='0' align='center' cellpadding='0' cellspacing='0'
<!--a href='index.phtml?CHANNEL=R51&FID=389924'
<!-- mail: 
<!-- beige_lavender-3c --
<!--
<!-- Template Design By BeigeHeart_Chako_http://beigeheart.blog9.fc2.com/ --
<!-- 関連記事_http://beigeheart.blog9.fc2.com/blog-entry-99.html --
<!-- 利用規約_http://beigeheart.blog9.fc2.com/blog-entry-103.html --
<!-- テンプレの再配布、営利目的の利用禁止 --
<!-- 画像の無断転載・再配布禁止 --
<!-- アダルト・法律違反サイト、使用不可 --
<!-- アクセス解析タグはここから --
<!-- アクセス解析タグはここまで --
<!--▼▼▼メインカラムカラム+右サイドカラム部分--
<!--▼ヘッダー--
<!--▼管理ページリンク--
<!--▲管理ページリンク--
<!--▼タイトル--

Dostępne są też "ekstrakty" czystego tekstu - zob. http://data.statmt.org/ngrams/raw/, np. 59 GB czystego tekstu po polsku z 2012 roku.

! (wget -O - -q http://web-language-models.s3-website-us-east-1.amazonaws.com/ngrams/pl/raw/pl.2012.raw.xz \
   | xzcat | head -n 30)
df6fa1abb58549287111ba8d776733e9 0.000000 http://www.gornicki.pl/focal_points_4/2006
Przegląd okulistyczny 
Focal points 
Przegląd reumatologiczny 
Biblioteka on-line 
STRONA GŁÓWNA 
WYDAWNICTWO 
O wydawnictwie 
Kontakt 
Regulamin zamówień 
Spotkania autorskie 
Nasi autorzy 
CZYTELNIA ONLINE 
w dziale: anatomia 
w dziale: okulistyka 
w dziale: ratownictwo 
CENNIK 
LINKI 
USŁUGI 
df6fa1abb58549287111ba8d776733e9 2.000000 http://www.gornicki.pl/focal_points_4/2006
Licencjaty 
Multimedia 
Pulmonologia 
Okulistyka 
Ratownictwo 
Reumatologia 
Zestawy specjalne 
Onkologia 
Focal Points 4/2006

Zrzuty Wikipedii

Nie pobieraj Wikipedii strona po stronie!

  • tracisz swój czas
  • i tracisz czas serwerów Wikipedii

Lepiej pobrać zrzut (_dump) ze strony https://dumps.wikimedia.org/backup-index.html

! (wget -O - -q https://dumps.wikimedia.org/plwiki/20210301/plwiki-20210301-pages-articles-multistream.xml.bz2 \
   | bzcat | grep -P -o '\[\[[^\]]+\]\]' | head -n 20)
[[1977]]
[[język skryptowy|skryptowy]]
[[programowanie proceduralne|proceduralny]]
[[Programowanie sterowane zdarzeniami|sterowany zdarzeniami]]
[[Alfred V. Aho|Alfred Aho]]
[[Peter J. Weinberger|Peter Weinberger]]
[[Brian Kernighan]]
[[wieloplatformowość|wieloplatformowy]]
[[język programowania]]
[[plik]]
[[system operacyjny|systemów operacyjnych]]
[[Unix|UNIX]]
[[tablica asocjacyjna|tablice asocjacyjne]]
[[Tekstowy typ danych|stringi]]
[[wyrażenie regularne|wyrażenia regularne]]
[[Alfred V. Aho|Alfreda V. Aho]]
[[Peter Weinberger|Petera Weinbergera]]
[[Brian Kernighan|Briana Kernighana]]
[[POSIX]]
[[System V|SVR4]]

Skąd brać adresy URL?

Zob. dumpy powyżej

! (wget -O - -q https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-34/segments/1502886133449.19/warc/CC-MAIN-20170824101532-20170824121532-00719.warc.gz | zcat| grep -P -o -a 'https://[^ "><]+' | uniq | head -n 20)
https://ssl'
https://static.fc2.com/css_cn/common/headbar/120710style.css
https://blog.fc2.com/
https://spdeliver.i-mobile.co.jp/script/adsnativepc.js?20101001
https://media.fc2.com/counter_img.php?id=3493
https://plus.google.com/+apothekenumschau
https://script.ioam.de/iam.js
https://07743rats-apotheke.apotheken-umschau.de/News--Wissen/AGP-Kontaktformular--73317.html
https://07743rats-apotheke.apotheken-umschau.de/News--Wissen/Apotheker-HP--AGP-73319.html
https://login.apotheken-umschau.de/login?service=https://www.apotheken-umschau.de/j_spring_cas_security_check
https://forum.apotheken-umschau.de/portal/registration/register
https://www.facebook.com/Apotheken.Umschau
https://api.wortundbildverlag.com/drug-suggest/terms
https://07743rats-apotheke.apotheken-umschau.de/unternehmenskommunikation/Kontakt-zu-den-Redaktionen-53834.html
https://i.skyrock.net/9775/59549775/pics/photo_59549775_89.jpg
https://static.skyrock.net/js/common.min.js?eBtyhdw
https://static.skyrock.net/img/favicon_v5b.ico
https://wir.skyrock.net/wir/v1/resize/?c=isi&im=%2F9775%2F59549775%2Fpics%2Fphoto_59549775_89.jpg&w=16
https://i.skyrock.net/9775/59549775/pics/photo_59549775_89.jpg
https://static.skyrock.net/css/common.css?eahf2jw
! (wget -O - -q https://dumps.wikimedia.org/plwiki/20210301/plwiki-20210301-pages-articles-multistream.xml.bz2 \
   | bzcat | grep -P -o 'https://[^ "><]+' | head -n 20)
https://pl.wikipedia.org/wiki/Wikipedia:Strona_g%C5%82%C3%B3wna
https://web.archive.org/web/20100116001012/http://homepages.cwi.nl/~dik/english/codes/stand.html#ascii
https://web.archive.org/web/20160613145224/http://www.aivosto.com/vbtips/charsets-7bit.html#body}}</ref>
https://web.archive.org/web/20160522024759/http://worldpowersystems.com/J/codes/#ASCII-1967
https://books.google.com/?id=NQSpNAEACAAJ&pg=PA28
https://web.archive.org/web/20160616084132/https://www.w3.org/blog/2008/05/utf8-web-growth/
https://web.archive.org/web/20160616084637/https://googleblog.blogspot.de/2008/05/moving-to-unicode-51.html
https://web.archive.org/web/20160616085323/https://googleblog.blogspot.de/2010/01/unicode-nearing-50-of-web.html
https://web.archive.org/web/20160827000956/http://dlx.bookzz.org/genesis/772000/c80a62495acf1e1a5b966de23c1f989a/_as/%5BInterface_Age_Staff%5D_Best_of_Interface_Age%2C_Volum%28BookZZ.org%29.pdf
https://books.google.com/books?id=bXLDwmIJNkUC&pg=PA13
https://web.archive.org/web/20161031223347/http://ethw.org/First-Hand%3AChad_is_Our_Most_Important_Product%3A_An_Engineer%27s_Memory_of_Teletype_Corporation
https://textfiles.meulie.net/bitsaved/Books/Mackenzie_CodedCharSets.pdf
https://web.archive.org/web/20160526181319/http://longstreet.typepad.com/thesciencebookstore/2012/03/heres-the-link.html
https://web.archive.org/web/20120213005708/http://www.transbay.net/~enf/ascii/ascii.pdf
https://archive.org/details/dictionaryworldp00iann
https://archive.org/details/dictionaryworldp00iann/page/n80
https://www.theguardian.com/commentisfree/belief/2013/jan/28/lucretius-all-things-atoms
https://archive.org/details/distillingknowle00mora_557
https://archive.org/details/distillingknowle00mora_557/page/n156
https://archive.org/details/fromelementstoat00sieg

Serwis DMOZ/ODP (niestety już nieaktywny) Ostatni link: https://web.archive.org/web/20160306230718/http://rdf.dmoz.org/rdf/content.rdf.u8.gz

Odpytywać "pasożytniczo" inną wyszukiwarkę

# see https://hackernoon.com/how-to-scrape-google-with-python-bo7d2tal

import urllib
import requests
from bs4 import BeautifulSoup

def query_google(query):
    url = f"https://google.com/search?q={query}"
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")
    
    results = []
    for g in soup.find_all('a'):
        link = g['href']
        if '/url?q=' in link:
            results.append((link[7:], g.parent.get_text()))
    return results
query_google('"wielka stopa"')
[('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQmhMwC3oECA0QDg&usg=AOvVaw0GUY96bFEsdrfOb9_ME9qP',
  'Wikipedia'),
 ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjASegQIDBAB&usg=AOvVaw3LMsdCuK3PBSunL8shYp-S',
  'Wielka Stopa (zwierzę)  Wikipedia, wolna encyklopediapl.wikipedia.org  wiki  Wielka_Stopa_(zwierzę)'),
 ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Opis&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQ0gIwEnoECAwQAg&usg=AOvVaw02WHiDgMZ18jJGW-y7agVg',
  'Opis'),
 ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Historia&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQ0gIwEnoECAwQAw&usg=AOvVaw10BrulHDJ4WgEOFkd-3-H6',
  'Historia'),
 ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Najwa%25C5%25BCniejsze_argumenty_%25E2%2580%259Eza%25E2%2580%259D_i_%25E2%2580%259Eprzeciw%25E2%2580%259D&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQ0gIwEnoECAwQBA&usg=AOvVaw1nSHJDVeWEJTqpRJOMBcus',
  'Najważniejsze argumenty ...'),
 ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Argumenty_%25E2%2580%259Eprzeciw%25E2%2580%259D&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQ0gIwEnoECAwQBQ&usg=AOvVaw3UqFIOr7y6yxvK-i1su1au',
  'Argumenty „przeciw”'),
 ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(w%25C3%25B3dz_Siuks%25C3%25B3w)&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjATegQICxAB&usg=AOvVaw1lZSYrEp4ez0Kh4o4SXrY1',
  'Wielka Stopa (wódz Siuksów)  Wikipedia, wolna encyklopediapl.wikipedia.org  wiki  Wielka_Stopa_(wódz_Siuksów)'),
 ('https://www.youtube.com/watch%3Fv%3DEPRggWavPX4&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQtwIwFHoECAQQAQ&usg=AOvVaw2EugGtxH-FfMbNmqhS5py3',
  'Wielka Stopa w Suszu - YouTubewww.youtube.com  watch'),
 ('https://www.youtube.com/watch%3Fv%3DEPRggWavPX4&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQuAIwFHoECAQQAg&usg=AOvVaw17g24VY46PboJW54XyZGa1',
  '23 cze 2017 · Od niedawna oczy naukowców poszukujących Wielkiej Stopy skierowane są na niewielkie ...Czas trwania: 6:24\nOpublikowano: 23 cze 2017'),
 ('https://www.ceneo.pl/%3Bszukaj-wielka%2Bstopa&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAZegQIBhAB&usg=AOvVaw0HUE-TpszLKJjAMsV6lvPU',
  'Wielka Stopa - znaleziono na Ceneo.plwww.ceneo.pl  ...'),
 ('https://www.antyradio.pl/News/Kobieta-twierdzi-ze-spotkala-Wielka-Stope-Hustala-sie-na-drzewie-ZDJECIE-43102&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAaegQICBAB&usg=AOvVaw1iIlPUpJwldL0MacDY4ebw',
  'Wielka Stopa - kolejny przypadek spotkania z potworem - Antyradiowww.antyradio.pl  News  Kobieta-twierdzi-ze-spotkala-Wielka-Stope-Hu...'),
 ('https://allegro.pl/kategoria/gry%3Fstring%3DWielka%2520stopa%2520%253A)%2520-&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAbegQIABAB&usg=AOvVaw0mgn1YuyE65LFfA54P-gQo',
  'Wielka stopa :) - Gry - Allegro.plallegro.pl  Kultura i rozrywka  Gry'),
 ('https://allegro.pl/listing%3Fstring%3DWielka%2520stopa%2520%253A%2529%2520-&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAcegQIAxAB&usg=AOvVaw3dzMG9f8K5w31r30AyxNEz',
  'Wielka stopa :) - Niska cena na Allegro.plallegro.pl  listing'),
 ('https://www.empik.com/gra-strategiczna-yeti-wielka-stopa-jawa,p1103341700,zabawki-p&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAdegQIBxAB&usg=AOvVaw3xZ_RVxgMxK7vOUPAYO-pe',
  'Gra strategiczna Yeti Wielka stopa - | Sklep EMPIK.COMwww.empik.com  Zabawki  Gry  Strategiczne i ekonomiczne'),
 ('https://tvn24.pl/tvnmeteo/informacje-pogoda/ciekawostki,49/wielka-stopa-nie-istnieje-naukowcy-to-nie-koniec-nadziei,127328,1,0.html&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAeegQICRAB&usg=AOvVaw3XECuxJKyNK_x4MTREa9Ui',
  'Wielka Stopa nie istnieje? Naukowcy: to nie koniec nadziei - TVN24tvn24.pl  Informacje pogodowe  Ciekawostki'),
 ('https://www.monolith.pl/filmy/2020/mala-wielka-stopa-2-w-rodzinie-sila/&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAfegQIChAB&usg=AOvVaw3uFesbmGBr0dDWxK1ej5n_',
  'Mała Wielka Stopa 2 - Filmy - Monolith Filmswww.monolith.pl  filmy  mala-wielka-stopa-2-w-rodzinie-sila'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQty4IigE&usg=AOvVaw0fYQ97CWfJ8aCmNBcv3a_d',
  'Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D%252522wielka%252Bstopa%252522%26hl%3Dpl&sa=U&ved=0ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQxs8CCIsB&usg=AOvVaw1V17_OrU9CNrErDjbwNZRj',
  'Zaloguj się')]

Google hacking

... czyli kreatywne wykorzystanie wyszukiwarki Google (niekoniecznie w złowrogich celach)

Jak szukać materiałów dwujęzycznych?

query_google('się "English version"')
[('https://context.reverso.net/t%25C5%2582umaczenie/angielski-polski/english%2Bversion&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAAegQIABAB&usg=AOvVaw3RrHCxcaLe8qoaZfLEPV6Y',
  'english version - Tłumaczenie na polski - angielskich przykładów ...context.reverso.net  tłumaczenie  angielski-polski  english+version'),
 ('https://context.reverso.net/t%25C5%2582umaczenie/angielski-polski/An%2BEnglish%2Bversion&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjABegQIBhAB&usg=AOvVaw017LUPkNtKNdnPE8dToBSB',
  'An English version - Tłumaczenie na polski - angielskich przykładów ...context.reverso.net  tłumaczenie  angielski-polski  An+English+version'),
 ('https://pl.bab.la/slownik/angielski-polski/english-version&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjACegQICRAB&usg=AOvVaw0BG6Y5Y4PWUDFAMQbF5OiB',
  'ENGLISH VERSION - Tłumaczenie na polski - bab.lapl.bab.la  slownik  angielski-polski  english-version'),
 ('https://www.linguee.com/english-polish/translation/in%2Benglish%2Bversion.html&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjADegQIBxAB&usg=AOvVaw03YqBv17ZeVx2FwKA2Y2gu',
  'in English version - Polish translation  Lingueewww.linguee.com  english-polish  translation  in+english+version'),
 ('https://www.linguee.com/english-polish/translation/an%2Benglish%2Bversion.html&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAEegQICBAB&usg=AOvVaw261dClyWD55TlTUkm5JNiI',
  'an English version - Polish translation  Lingueewww.linguee.com  english-polish  translation  an+english+version'),
 ('https://www.youtube.com/watch%3Fv%3DdC8Jy0-VImU&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QtwIwBXoECAoQAQ&usg=AOvVaw1fvEyAWPyHIeWCqTmx5efS',
  'MELODIA - Sanah | PO ANGIELSKU | ENGLISH VERSION - YouTubewww.youtube.com  watch'),
 ('https://www.youtube.com/watch%3Fv%3DdC8Jy0-VImU&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QuAIwBXoECAoQAg&usg=AOvVaw2n8-O6Aooitc2POfMr2eSI',
  '2 lip 2020 · Z uwagi na to, że wersja angielska "Szampana" bardzo Wam się spodobała, postanowiłam ...Czas trwania: 3:16\nOpublikowano: 2 lip 2020'),
 ('https://www.linguee.pl/angielski-polski/t%25C5%2582umaczenie/english%2Bversion%2Bprevail.html&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAGegQIAhAB&usg=AOvVaw2gR32hWrps8JeETEZFcnC3',
  'English version prevail - Tłumaczenie na polski  słownik Lingueewww.linguee.pl  angielski-polski  tłumaczenie  english+version+prevail'),
 ('https://www.linguee.pl/angielski-polski/t%25C5%2582umaczenie/english%2Bversion%2Bcoming%2Bsoon.html&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAHegQIARAB&usg=AOvVaw1Gy_8y1P8j2LkQmOcFNUho',
  'English version coming soon - Tłumaczenie na polski  słownik ...www.linguee.pl  angielski-polski  english+version+coming+soon'),
 ('https://www.umcs.pl/pl/instrukcja-w-jezyku-angielskim-english-version-,15428.htm&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAIegQIBRAB&usg=AOvVaw2qxqPHA01a_XGp2OI2LwHh',
  'Instrukcja w języku angielskim (english version) - Nowi pracownicy ...www.umcs.pl  ...  Dla pracownika  Nowi pracownicy (instrukcja)'),
 ('https://www.wsb.net.pl/en/&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAJegQIAxAB&usg=AOvVaw33uMYMxHmM5oTynwt9481F',
  'English version : - Wyższa Szkoła Bezpieczeństwawww.wsb.net.pl  ...'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0Qty4INA&usg=AOvVaw3FvXRX8gjDnoExpLAPHyWl',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dsi%2525C4%252599%252B%252522English%252Bversion%252522%26hl%3Dpl&sa=U&ved=0ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0Qxs8CCDU&usg=AOvVaw3nXIS27h-FWwpKhQDIdB9y',
  'Zaloguj się')]
query_google('inurl:lang=en site:pl')
[('https://www.ksk.gda.pl/%3Fs%3D%257Bsearch_term_string%257D%253Flang%253Den%253Flang%253Dfr%253Flang%253Dfr%253Flang%253Dde%253Flang%253Den%253Flang%253Dfr%253Flang%253Dfr%253Flang%253Den%253Flang%253Dfr%253Flang%253Dfr%253Flang%253Dde%253Flang%253Den%253Flang%253Dde%253Flang%253Dde%253Flang%253Dde%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAAegQIAxAB&usg=AOvVaw1rz99qpelK6AKXNq32Y3DB',
  '{search_term_string}?lang=en?lang=fr?lang=fr?lang=de?lang=en ...www.ksk.gda.pl  s={search_term_string}?lang=en?lang=fr?lang=fr?lang=...'),
 ('https://emonitoring.poczta-polska.pl/%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjABegQIBBAB&usg=AOvVaw3BgMdqycY5NWdhCmVHe6Eo',
  'Śledzenie przesyłek - Poczta Polskaemonitoring.poczta-polska.pl  lang=en'),
 ('http://44mpa.pl/urban-adaptation-plans/%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjACegQICxAB&usg=AOvVaw0yHXmZ8Tv3dujCVJIRKjR7',
  'Urban Adaptation Plans | Wczujmy się w klimat!44mpa.pl  urban-adaptation-plans  lang=en'),
 ('http://www.apiscosmetics.pl/start-en/products/professional-products/home-terapis-en.html%3Fproduct%3D288%26lang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjADegQICBAB&usg=AOvVaw1QwK_aHzWym29dEM4w0MSw',
  '<!doctype html> <html lang="en"> <head> <meta http-equiv ... - Apiswww.apiscosmetics.pl  products  professional-products  home-terapis-en'),
 ('https://ekursy.akademiakierowcy.pl/message/output/airnotifier/lang/en/&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAEegQIBxAB&usg=AOvVaw2fR_Xur4oOOIxEb1KiJBRL',
  'Index of /message/output/airnotifier/lang/en - Akademia Kierowcyekursy.akademiakierowcy.pl  message  output  airnotifier  lang'),
 ('https://ekursy.akademiakierowcy.pl/message/output/popup/lang/en/&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAFegQICRAB&usg=AOvVaw38ifWqViF-gaqRnBYCs7ph',
  'Index of /message/output/popup/lang/en - Akademia Kierowcyekursy.akademiakierowcy.pl  message  output  popup  lang'),
 ('https://www.zabierzow.org.pl/community/welcome/%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAKegQIABAB&usg=AOvVaw1u_tc6Q_mK_qSy_JeUs21l',
  'Welcome - Oficjalny serwis internetowy Gminy Zabierzówwww.zabierzow.org.pl  Strona główna  Community'),
 ('https://www.ipiss.com.pl/%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjALegQIBRAB&usg=AOvVaw1v4Ep4-1xZU2aj34RQNyA6',
  'Institute of Labour and Social Studieswww.ipiss.com.pl  lang=en'),
 ('https://support.google.com/webmasters/answer/7489871%3Fhl%3Dpl&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQvxowC3oECAUQAg&usg=AOvVaw3QrhPCjSv1m5Remte9HOQz',
  'Dowiedz się dlaczego'),
 ('http://www.klub-spadkobiercow.com.pl/%3Fs%3D%25E2%259A%25BD%25E2%259A%25A1%25E2%2598%2598%25EF%25B8%258F%25E2%258F%25B2%2Bkupi%25C4%2599%2Bbmw%2Bseria%2B5%2Boferty%2BSamocholand.pl%2B%25F0%259F%2590%259D%25E2%259C%258B%2B-%2BKupno%2Bsamochod%25C3%25B3w%2B%25F0%259F%258C%258D%25F0%259F%2593%2598%2Bbmw%2Bseria%2B5%2Bkupno%252C%2BKup%2Bbmw%2Bseria%2B5%2Btanio%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAMegQIAhAB&usg=AOvVaw3OrIJeKwmccNn-Z0ci9WZ5',
  'kupię bmw seria 5 oferty Samocholand.pl - Kupno samochodów ...www.klub-spadkobiercow.com.pl  s=⚽⚡☘⏲+kupię+bmw+seria+5+oferty...'),
 ('http://www.klub-spadkobiercow.com.pl/%3Fs%3D%25F0%259F%2594%2590%25F0%259F%2598%25B2%25F0%259F%258C%259F%25F0%259F%2592%259C%2BSprzedam%2Bsamochody%2Bhummer%2Bh3%2Bog%25C5%2582oszenia%2BSamocholand.pl%2B%25E2%258F%25B2%25F0%259F%2598%258B%2B-%2BSprzeda%25C5%25BC%2Bsamochod%25C3%25B3w%2B%25F0%259F%2592%259E%25F0%259F%2594%2590%2Bsamochody%2Bhummer%2Bh3%2Bog%25C5%2582oszenia%252C%2BSpprzedaj%2Bsamochody%2Bhummer%2Bh3%2Bpilnie%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjANegQIARAB&usg=AOvVaw2gGpRa2QRI0s5hif4sSG15',
  'Sprzedam samochody hummer h3 ogłoszenia Samocholand.pl ...www.klub-spadkobiercow.com.pl  s=🔐😲🌟💜+Sprzedam+samochody+hu...'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQty4ISg&usg=AOvVaw3qJv9X5Au4qLqskqZgygmA',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dinurl:lang%25253Den%252Bsite:pl%26hl%3Dpl&sa=U&ved=0ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQxs8CCEs&usg=AOvVaw1bNj0srkIoKMTez1biljAK',
  'Zaloguj się')]
query_google('zdecydowali decided')
[('https://context.reverso.net/t%25C5%2582umaczenie/angielski-polski/decided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAAegQIAxAB&usg=AOvVaw1VOWJd4mMu1wbrjT0N2fwg',
  'decided - Tłumaczenie na polski - angielskich przykładów | Reverso ...context.reverso.net  tłumaczenie  angielski-polski  decided'),
 ('https://context.reverso.net/t%25C5%2582umaczenie/polski-angielski/zdecydowali&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjABegQIAhAB&usg=AOvVaw392MbfKZ25nbvv_wpUfF4s',
  'zdecydowali - Tłumaczenie na angielski - polskich przykładów ...context.reverso.net  tłumaczenie  polski-angielski  zdecydowali'),
 ('https://pl.duolingo.com/dictionary/English/decided/f241156f8cd032ca9b65a8bd760439d8&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjACegQICxAB&usg=AOvVaw3ofU6NSr4cVJ7Wp75lDPWm',
  'Co oznacza „decided” po angielsku? - Duolingopl.duolingo.com  dictionary  English  decided'),
 ('https://www.diki.pl/slownik-angielskiego%3Fq%3Ddecide&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjADegQICRAB&usg=AOvVaw3D_KS9QB14t8N79rhLEzXx',
  'decide - Tłumaczenie po polsku - Słownik angielsko-polski Dikiwww.diki.pl  slownik-angielskiego  q=decide'),
 ('http://www.slownictwo.pl/dict1.php%3Ftxt%3Ddecided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAEegQIChAB&usg=AOvVaw2ho4z_VbbIZQfbaQTkaQir',
  'Internetowy słownik polsko-angielski i angielsko-polski z lektoremwww.slownictwo.pl  dict1  txt=decided'),
 ('https://pl.bab.la/slownik/angielski-polski/decided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAFegQICBAB&usg=AOvVaw1UVHsgO7GZH-vm4_x5MGDW',
  'DECIDED - Tłumaczenie na polski - bab.lapl.bab.la  slownik  angielski-polski  decided'),
 ('https://fiszkoteka.pl/slownik/pl/en/zdecydowa%25C5%2582&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAKegQIARAB&usg=AOvVaw1zaRQ2cAhJHPJFYPa5JCT8',
  '→ zdecydował po angielsku, słownik polsko - angielski | Fiszkotekafiszkoteka.pl  słownik polsko - angielski  Z'),
 ('https://fiszkoteka.pl/slownik/en/pl/decided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjALegQIBhAB&usg=AOvVaw3JyZ1e2LvRkwv_mjklzaiO',
  '→ decided po polsku, słownik angielsko - polski | Fiszkotekafiszkoteka.pl  słownik angielsko - polski  D'),
 ('https://ellalanguage.com/pl/slownik_angielski_decide/&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAMegQIBBAB&usg=AOvVaw2hbOA7JWSyFSTH04bVg5rS',
  'Odmiana czasownika DECIDE | Angielskie czasowniki | ELLAellalanguage.com  slownik_angielski_decide'),
 ('https://tr-ex.me/t%25C5%2582umaczenie/angielski-polski/decided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjANegQIBRAB&usg=AOvVaw0Fl5dYqoiEFcgUzWH0mN2S',
  'DECIDED ▷ Tłumaczenie Na Polski - Przykłady Użycia Decided W ...tr-ex.me  tłumaczenie  angielski-polski  decided'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwi0-436s6XvAhUzo3EKHU0MAG8Qty4IQw&usg=AOvVaw1uu2p_1jLxzOHd7KfkS2NU',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dzdecydowali%252Bdecided%26hl%3Dpl&sa=U&ved=0ahUKEwi0-436s6XvAhUzo3EKHU0MAG8Qxs8CCEQ&usg=AOvVaw1sNjBEDjM9eZu9ozeQEJqs',
  'Zaloguj się')]
query_google('"słowa kluczowe" keywords abstract')
[('https://ispan.waw.pl/journals/index.php/sfps/article/view/sfps.2014.020&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAAegQIABAB&usg=AOvVaw3PKZOp-ZKdH0s_POMTQrv-',
  'Słowa kluczowe podawane przez autora publikacji jako podstawa ...ispan.waw.pl  journals  index.php  sfps  article  view  sfps.2014.020'),
 ('http://www.wbios.us.edu.pl/tl_files/aktualnosci/revitare-2013/konferencja-streszczenie-wzor.pdf&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjABegQIAxAB&usg=AOvVaw1XgVp3uZUGn0Ig0sADojZO',
  '[PDF] WZÓR STRESZCZENIAwww.wbios.us.edu.pl  revitare-2013  konferencja-streszczenie-wzor'),
 ('https://docs.microsoft.com/pl-pl/dotnet/csharp/language-reference/keywords/&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjACegQICxAB&usg=AOvVaw1Ppo-QeKIjwxw8D8zLOIDN',
  'Słowa kluczowe języka C#C# Keywords - Microsoft Docsdocs.microsoft.com  ...  Przewodnik dla języka C#  Dokumentacja języka'),
 ('https://docs.microsoft.com/pl-pl/cpp/cpp/keywords-cpp&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjADegQICBAB&usg=AOvVaw09GBEO-bl_GHGuApWZv46H',
  'Słowa kluczowe (C++) | Microsoft Docsdocs.microsoft.com  ...  Konwencje leksykalne'),
 ('https://www.researchgate.net/publication/271724450_Keywords_tags_and_what_else_Slowa_kluczowe_tagi_i_co_dalej&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAEegQICRAB&usg=AOvVaw2lYe8oCMu-372n8o6jjnvA',
  '(PDF) Keywords, tags... and what else? [Słowa kluczowe, tagi…, i co ...www.researchgate.net  publication  271724450_Keywords_tags_and_wh...'),
 ('https://clarin-pl.eu/dspace/bitstream/handle/11321/589/S%25C5%2582owa%2520kluczowe%2520-%2520wytyczne%2520%2528publikacja%2529.pdf%3Fsequence%3D1%26isAllowed%3Dy&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAFegQIChAB&usg=AOvVaw1zbgvbNQDTRmK3GXVFB6Gx',
  '[PDF] słowa kluczowe - CLARIN-PLclarin-pl.eu  dspace  bitstream  handle'),
 ('https://pl.qaz.wiki/wiki/List_of_Java_keywords&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAKegQIBhAB&usg=AOvVaw32i5c9auW8kJ6j0fZPo2ml',
  'Lista słów kluczowych Java - List of Java keywords - qaz.wikipl.qaz.wiki  wiki  List_of_Java_keywords'),
 ('http://www.standardy.pl/index.php/artykuly/drukuj/1316&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjALegQIAhAB&usg=AOvVaw0MgKxzmQaV_C8gvS9n_BU4',
  '[PDF] x Keywords: x Autorzy: List otwarty do PTN Streszczenie: x Abstractwww.standardy.pl  index.php  artykuly  drukuj'),
 ('http://cejsh.icm.edu.pl/cejsh/element/bwmeta1.element.ojs-doi-10_11649_sfps_2014_020&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAMegQIBRAB&usg=AOvVaw1ckSaZzuEVpMhFLEWNo7tU',
  'Słowa kluczowe podawane przez autora ... - CEJSH - ICM UWcejsh.icm.edu.pl  bwmeta1.element.ojs-doi-10_11649_sfps_2014_020'),
 ('http://www.bobolanum.edu.pl/wydawnictwo-artykul&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjANegQIARAB&usg=AOvVaw1FzLP8mLAHuszJjWFoCtOZ',
  'Artykuł - wymogi edytorskie / The Article - Editorial Requirements ...www.bobolanum.edu.pl  wydawnictwo-artykul'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQty4ITQ&usg=AOvVaw275ECJoqdlgg6bzr8BjvBK',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D%252522s%2525C5%252582owa%252Bkluczowe%252522%252Bkeywords%252Babstract%26hl%3Dpl&sa=U&ved=0ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQxs8CCE4&usg=AOvVaw22rLBFpQgI8blcDhcAZu1P',
  'Zaloguj się')]

Jak szukać dziurawych/dziwnych stron?

query_google('blabla site:gov.pl')
[('https://smolarz.szczecin.lasy.gov.pl/test-grafika&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAAegQIAhAB&usg=AOvVaw00PjOy7FFcAzFOiEWBj5q-',
  'test grafika - Nadleśnictwo Smolarz - Lasy Państwowesmolarz.szczecin.lasy.gov.pl  test-grafika'),
 ('http://www.malopolska.mw.gov.pl/aktualnosci/samorzad/blabla&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjABegQICRAB&usg=AOvVaw2FPiYfJO-h1e4cEis8U7Pu',
  'Małopolska na Dożynkach Prezydenckich w Spale » Małopolskawww.malopolska.mw.gov.pl  aktualnosci  samorzad  blabla'),
 ('http://sejm.gov.pl/Sejm9.nsf/wypowiedz.xsp%3Fposiedzenie%3D20%26dzien%3D2%26wyp%3D113%26symbol%3DRWYSTAPIENIA_WYP%26id%3D073&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjACegQICBAB&usg=AOvVaw06C6-TRfwEa0vnqBZqICgI',
  'Wypowiedzi na posiedzeniach Sejmusejm.gov.pl  Sejm9.nsf  wypowiedz'),
 ('https://www.gov.pl/web/psse-walbrzych/test3&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjADegQIBxAB&usg=AOvVaw0C4Wts3msCWyEcHpuou4Gv',
  'test - Powiatowa Stacja Sanitarno-Epidemiologiczna w Wałbrzychu ...www.gov.pl  web  psse-walbrzych  test3'),
 ('https://www.biznes.gov.pl/glos-przedsiebiorcy/idea/porzadny-slownik&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAEegQIBRAB&usg=AOvVaw3sSgvJNIu57v7xRbsUaGPJ',
  'Pomysły na biznes.gov.plwww.biznes.gov.pl  glos-przedsiebiorcy  idea  porzadny-slownik'),
 ('http://demo.licytacje.uzp.gov.pl/contest/view/sid/L-76-2011&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAFegQIBhAB&usg=AOvVaw3qQ5q60_RMk3yVEHZSsLgd',
  'Urząd Zamówień Publicznychdemo.licytacje.uzp.gov.pl  contest  view  sid'),
 ('https://www.biznes.gov.pl/glos-przedsiebiorcy%3Fpage%3D24&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAGegQIABAB&usg=AOvVaw0-0BmNu2idsAGELz1ytQrr',
  'Pomysły na biznes.gov.plwww.biznes.gov.pl  glos-przedsiebiorcy'),
 ('https://www.gddkia.gov.pl/frontend/web/userfiles/articles/o/ogloszenie-z-dnia-27112017_27828/za%25C5%2582.2.%2520do%2520regulaminu%2520-%2520%25C5%259Bwiadectwa%2520legalno%25C5%259Bci%2520ze%2520zdj%25C4%2599ciami.pdf&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAHegQIBBAB&usg=AOvVaw1QSAjj5hsgZD9v5dO65nt3',
  '[PDF] ŚWIADECTWO LEGALNOŚCI POZYSKANIA DREWNA [pdf] - GDDKiAwww.gddkia.gov.pl  articles  ogloszenie-z-dnia-27112017_27828'),
 ('https://www.arimr.gov.pl/wersja-testowa/zalaczniki-do-wniosku-w-2015-r/rejestr.html&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAIegQIARAB&usg=AOvVaw1kN54m-oEhXvu9HM_jf5r2',
  'rejestr | Agencja Restrukturyzacji i Modernizacji Rolnictwawww.arimr.gov.pl  wersja-testowa  zalaczniki-do-wniosku-w-2015-r  re...'),
 ('http://www.zielona-gora.sr.gov.pl/download.php%3Finst%3D1%26id%3D1889&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAJegQIAxAB&usg=AOvVaw0C5yVLkbZgo3j_SPFeS3kD',
  '[PDF] Untitledwww.zielona-gora.sr.gov.pl  download'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQty4IMA&usg=AOvVaw2jLSNJ1Fojm0RC3f1Rei7X',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dblabla%252Bsite:gov.pl%26hl%3Dpl&sa=U&ved=0ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQxs8CCDE&usg=AOvVaw0MEcRxsUFD_99cunMcln-U',
  'Zaloguj się')]
query_google('intitle:settings filetype:pdf site:gov.pl')
[('http://www.gios.gov.pl/images/dokumenty/pms/monitoring_pol_elektormagnetycznych/raport/Zalacznik_1-_mapa_Szczecin.pdf&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAAegQIARAB&usg=AOvVaw3iiQhOAEZVJob4cs973EUY',
  '[PDF] mapa Szczecinwww.gios.gov.pl  pms  raport  Zalacznik_1-_mapa_Szczecin'),
 ('http://www.gios.gov.pl/images/dokumenty/pms/monitoring_pol_elektormagnetycznych/raport/Zalacznik_1-_mapa_Gdansk.pdf&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjABegQICRAB&usg=AOvVaw0QQC4LH21f3xjE0rM8PI6L',
  '[PDF] C:\\\\Documents and Settings\\\\ja\\\\Pulpit\\\\Gdańsk\\\\Mapy.dwg A3 mapa ...www.gios.gov.pl  pms  raport  Zalacznik_1-_mapa_Gdansk'),
 ('https://www.gddkia.gov.pl/pl/d/f7041e734f9b37cd88cae0a9000102a1&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjACegQIBxAB&usg=AOvVaw0gO4uj__F-7icHZYIQeTPL',
  '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl  ...'),
 ('https://www.gddkia.gov.pl/pl/d/fec8268b624add970e544fefefcd043f&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjADegQICBAB&usg=AOvVaw02AVxRGVLmdXAyqtSBZZRo',
  '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl  ...'),
 ('https://www.gddkia.gov.pl/pl/d/392dd80745a5a025df1d225bbf0b8e02&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAEegQIAxAB&usg=AOvVaw2Vjr_Ez89bHJrDaPepIRsF',
  'mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl  ...'),
 ('https://www.gddkia.gov.pl/pl/d/dfc6e11545fb637fef5a00f53ce94414&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAFegQIBBAB&usg=AOvVaw3A8r1jWPXDCm7XwoWfkjzf',
  'mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl  ...'),
 ('https://www.gddkia.gov.pl/pl/d/996b6076155b215e7ee8d5897fc6153b&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAGegQIAhAB&usg=AOvVaw1TIDEU5BMlHlGMYkNkbWM4',
  '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl  ...'),
 ('https://www.gddkia.gov.pl/pl/d/3010c117961da9877405841ef5c65a07&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAHegQIBRAB&usg=AOvVaw2IS01b7eg6XhHaQHZ3jK13',
  '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl  ...'),
 ('https://www.gddkia.gov.pl/pl/d/bed97709d7349e000a041a60388ab1ee&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAIegQIBhAB&usg=AOvVaw1X_Tq2PTGDaRTXm_xi5PQz',
  '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\Malik_M\\\\Moje ... - GDDKiAwww.gddkia.gov.pl  ...'),
 ('http://www.gddkia.gov.pl/pl/d/0c5befb91a5b0b0c8bbc3b5a293ad0fc&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAJegQIABAB&usg=AOvVaw3sEannIxW2G91xP2bUK6Me',
  'mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl  ...'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwjLkrnptKXvAhXYSRUIHatABOMQty4ILg&usg=AOvVaw0yirg8KksKVYdZKGNbhKol',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dintitle:settings%252Bfiletype:pdf%252Bsite:gov.pl%26hl%3Dpl&sa=U&ved=0ahUKEwjLkrnptKXvAhXYSRUIHatABOMQxs8CCC8&usg=AOvVaw0b9IEfcDUv6isVIMCWaieO',
  'Zaloguj się')]
query_google('pesel filetype:xls kaczmarek')
[('https://www.gov.pl/attachment/3ddad90a-8136-4d9c-a56f-1ed206bf2b24&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAAegQIABAB&usg=AOvVaw3vizwfsDj6dYNSA8t3-tWi',
  '[XLS] NAZWISKA_MEN A B 1 100 najpopularniejszych nazwisk męskich ...www.gov.pl  attachment'),
 ('https://doc.rmf.pl/rmf_fm/store/Kopia_nazwiska_2010.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjABegQIBxAB&usg=AOvVaw3rhrn9Nyg5ac0TyxUqDi1t',
  '[XLS] nazwiska A B C D E F G H I 1 Najcześciej występujące nazwiska ...doc.rmf.pl  rmf_fm  store  Kopia_nazwiska_2010'),
 ('http://dydaktyka.polsl.pl/roz6/izdonek/Shared%2520Documents/MS%2520Excel/7_Dzia%25C5%2582ania%2520na%2520danych%2520typu%2520tekst_podr.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjACegQICBAB&usg=AOvVaw38RDxGxB5aMALBoLG9XEVR',
  '[XLS] Wielkość liter A B C D 1 Przykład 7.1 2 Podany fragment bazy ...dydaktyka.polsl.pl  roz6  izdonek'),
 ('http://zprp.pl/wp-content/uploads/2015/02/Lista_transferowa_2017_18_v1.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjADegQICRAB&usg=AOvVaw2v7UWBKRjO57O-fM-Ox6-K',
  '[XLS] Lista 2017 A B C D E F 1 Lp Nazwisko Imię Klub macierzysty Status ...zprp.pl  uploads  2015/02  Lista_transferowa_2017_18_v1'),
 ('https://umostrow.pl/files/file_add/download/1163_kopia-2020-stmig-cooper-1-sprawozdanie-cz1.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAEegQIBhAB&usg=AOvVaw350iyfjLCkSKGxxX-ezFdj',
  '[XLS] STMiG 2020 - formularz testu Coopera - Ostrów Wielkopolskiumostrow.pl  1163_kopia-2020-stmig-cooper-1-sprawozdanie-cz1'),
 ('https://www.mbank.pl/pobierz/mbankrejestumow.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAFegQIAhAB&usg=AOvVaw3fZtm8ph8HLJwAJIxTeoL5',
  '[XLS] Sheet_1 A B C 1 Przedsiębiorca Siedziba Przedsiębiorcy NIP 2 ...www.mbank.pl  pobierz  mbankrejestumow'),
 ('http://um.bip.legnica.eu/download/107/26919/drugiepolrocze2017.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAGegQIAxAB&usg=AOvVaw3JqmWVIkWufqX7a5NxLyeH',
  '[XLS] Export Worksheet A B C D E 1 DATA_ZAWARCIA ...um.bip.legnica.eu  download  drugiepolrocze2017'),
 ('http://szswielkopolska.pl/13-kk-io-44.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAHegQIARAB&usg=AOvVaw1SEckfGtKXrghNhgKx7UzB',
  '[XLS] SP 7 Ostrów - SZS Wielkopolskaszswielkopolska.pl  13-kk-io-44'),
 ('http://www.wsm.edu.pl/fotos/dziekanat/karty_roczne_AIU_2009_2013.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAIegQIBBAB&usg=AOvVaw1i9Mt01azVHjxeFwZJMbLs',
  '[XLS] sem 1 A B C D E F G H I J K L M N O P Q R S T U V W X 1 Wyższa ...www.wsm.edu.pl  fotos  dziekanat  karty_roczne_AIU_2009_2013'),
 ('http://www.arimr.gov.pl/fileadmin/pliki/zdjecia_strony/132/OR07_los121_w.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAJegQIBRAB&usg=AOvVaw3QFCWasKloqTlTbK9HVfi0',
  '[XLS] Kolejno** wylosowanych wniosków w ramach dzia*ania ...www.arimr.gov.pl  pliki  zdjecia_strony  OR07_los121_w'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4Qty4IMA&usg=AOvVaw3VOwJyWy4exubKqjpl7aPI',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dpesel%252Bfiletype:xls%252Bkaczmarek%26hl%3Dpl&sa=U&ved=0ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4Qxs8CCDE&usg=AOvVaw0f2Vo1eTV7WPUx-FUMYU8C',
  'Zaloguj się')]
query_google('"index of" "last modified" "parent directory" apache')
[('https://akademia.nask.pl/foto/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAAegQIABAB&usg=AOvVaw1q9KOfc65WIi8jlO1z3TzI',
  'Index of /foto - Akademia NASKakademia.nask.pl  foto'),
 ('http://ftp.man.poznan.pl/pub/apache/chemistry/%3FC%3DM%3BO%3DA&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjABegQICRAB&usg=AOvVaw3jheEqWF7Iq_HaItKHR2H4',
  'Index of /pub/apache/chemistry - Nameftp.man.poznan.pl  pub  apache  chemistry'),
 ('http://ftp.man.poznan.pl/pub/apache/kafka/%3FC%3DM%3BO%3DA&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjACegQICBAB&usg=AOvVaw3oWl350iGMv7yN_zzmKlrj',
  'Index of /pub/apache/kafka - Descriptionftp.man.poznan.pl  pub  apache  kafka'),
 ('http://www.ncac.torun.pl/~seyfert/%3FC%3DS%3BO%3DA&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjADegQIBxAB&usg=AOvVaw3IOMp-EkmpvsqzXfkzHLh_',
  'Index of /~seyfertwww.ncac.torun.pl  ~seyfert'),
 ('http://www.mpu.pl/download/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAEegQIARAB&usg=AOvVaw2t4Py-QOSOgqH0JejD9OdE',
  'Index of /downloadwww.mpu.pl  download'),
 ('http://www.psm-bielsk-podlaski.edu.pl/pl/images/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAFegQIBhAB&usg=AOvVaw1qPfo7aV0sGkb42ysGXzGS',
  'Index of /pl/images - PSM Bielsk Podlaskiwww.psm-bielsk-podlaski.edu.pl  images'),
 ('http://www.matrix.umcs.lublin.pl/~akrajka/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAGegQIAxAB&usg=AOvVaw3op5HIl9tMV6GQhC1IkuB1',
  'Index of /~akrajka - matrix.umcs.lublin.plwww.matrix.umcs.lublin.pl  ~akrajka'),
 ('http://www.combio.pl/mirex2.download/pen/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAHegQIBRAB&usg=AOvVaw2Hd6NmIvw6kn8ENWsSdJQk',
  'Index of /mirex2.download/pen - combio.plwww.combio.pl  mirex2.download  pen'),
 ('http://www.iich.gliwice.pl/download/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAIegQIAhAB&usg=AOvVaw05o8hkDQv8hHPSqAjNp-wT',
  'Index of /downloadwww.iich.gliwice.pl  download'),
 ('http://www.cs.put.poznan.pl/mkadzinski/%3FC%3DM%3BO%3DA&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAJegQIBBAB&usg=AOvVaw1fkEik765hTNPbBbenF_Rq',
  'Index of /mkadzinskiwww.cs.put.poznan.pl  mkadzinski'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQty4ILg&usg=AOvVaw3x8sw8cv98HNTbBSAnJ58x',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D%252522index%252Bof%252522%252B%252522last%252Bmodified%252522%252B%252522parent%252Bdirectory%252522%252Bapache%26hl%3Dpl&sa=U&ved=0ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQxs8CCC8&usg=AOvVaw0TVKuX1CIb5g3C-Y2_D4iC',
  'Zaloguj się')]
query_google('6d932c406fa15164ee48ff5a52f81dae')
[('http://filipg-jenkins.wmi.amu.edu.pl/ISI2019/lecture-2019-02.pdf&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAAegQIABAB&usg=AOvVaw2HIittTKuAOR1ATLm972d6',
  '[PDF] Inteligentne systemy informacyjne - Filip Graliński / UAMfilipg-jenkins.wmi.amu.edu.pl  ISI2019  lecture-2019-02'),
 ('https://md5.gromweb.com/%3Fmd5%3D3fcedf144be9f3dff1145db6c515fb34&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjABegQICRAB&usg=AOvVaw0JTZQuMmrZH56enRrfBVG1',
  'MD5 reverse for 3fcedf144be9f3dff1145db6c515fb34md5.gromweb.com  ...'),
 ('https://pastebin.pl/view/d872a388&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjACegQIBxAB&usg=AOvVaw3z3-Auzt_qQrkU08fj67q2',
  'Re: ruchanie - Pastebinpastebin.pl  view'),
 ('http://people.cs.georgetown.edu/~clay/classes/fall2015/ia/MD5.pass.txt&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjADegQICBAB&usg=AOvVaw2tW7zmVhmNYCeEKr-1vA7V',
  'cbae07efa0c6ed330a283e80a9c02e8d ...people.cs.georgetown.edu  ~clay  classes  fall2015  MD5.pass.txt'),
 ('http://wklejto.pl/59019&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAEegQIBhAB&usg=AOvVaw1DNIJXZyC5I05BQsnSKMDh',
  'Kod: 59019 WKLEJTO.PL Darmowa wklejka, na zawsze!wklejto.pl  ...'),
 ('http://docs2.chomikuj.pl/2854898545,PL,0,0,cs-szambo.txt&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAFegQIAhAB&usg=AOvVaw2VKr7YjOicUXzK4zqHIWKQ',
  'cs szambo.txt - Chomikuj.pldocs2.chomikuj.pl  2854898545,PL,0,0,cs-szambo'),
 ('https://hashkiller.io/download_list/Found/139863.txt&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAGegQIBBAB&usg=AOvVaw0cPadq0BLUdJR2EN_w1cNs',
  'f24eba008b3b789e4ee5d3dc8a33af27:Gumimaci1 ...hashkiller.io  download_list  Found'),
 ('https://195.201.31.93/rx6NiRIx/&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAHegQIBRAB&usg=AOvVaw31DG-mSBQmSTDaBgxi8_XX',
  'Latest MD5 leaked AA3 - BitBin195.201.31.93  ...'),
 ('https://pastebin.com/dEsgsTqV&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAIegQIARAB&usg=AOvVaw1vCC1iy8lVGuq0E6rELfeM',
  'INSERT INTO `auth` (`id`, `name`, `premium ... - Pastebin.compastebin.com  dEsgsTqV'),
 ('https://paste2.org/DeGOC334&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAJegQIAxAB&usg=AOvVaw2zwShLX08T5j4hSmbBM3Je',
  'Viewing Paste DeGOC334 - Paste2.orgpaste2.org  DeGOC334'),
 ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQty4ILw&usg=AOvVaw3TNS8kxuTo_YOIBJwKVXG_',
  'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'),
 ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D6d932c406fa15164ee48ff5a52f81dae%26hl%3Dpl&sa=U&ved=0ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQxs8CCDA&usg=AOvVaw0DmFxG-Qro2rfZ0Ot1z-4V',
  'Zaloguj się')]

Projekt 1

Opracować aplikację webową do półautomatycznego systematycznego zbierania interesujących wyników Google hackingu:

  • użytkownik podaje zapytanie
    • możliwe użycie list wyrazów np. wulgaryzmy, wyrażenia potoczne, „wypełniacze” („bla bla”, „foo bar”), system powinien wtedy generować serię zapytań
  • aplikacja odpytuje wyszukiwarkę Google (i, być może, inne)
  • aplikacja zbiera wyniki i przedstawia je użytkownikowi
  • użytkownik taguje wyniki jako interesujące / nieinteresujące
  • zapytania mogą być uruchamiane cyklicznie, użytkownik nie musi ponownie przeglądać otagowanych już wyników
  • aplikacja pozwala wylistować wszystkie wyniki oznaczone do tej pory jako interesujące

Czego nie brać?

Standard robots.txt

import urllib
import requests

url = 'https://gazeta.pl/robots.txt'
response = requests.get(url)
print(response.content.decode('utf-8'))

    
User-agent: *
Disallow: /*/wyszukaj/
Disallow: /*servlet
Disallow: /reloadwww?
Disallow: /dfptools/adview/
Disallow: /pub/ips/*
Disallow: /ods?
Disallow: /getFile.servlet*
Disallow: /aliasy/blad.jsp
Disallow: /znajdz.do
Disallow: /portalSearch.do
Disallow: /im/ab/b4/10/z17515435Q.jpg
Disallow: /75224259/

User-agent: Googlebot-News
Disallow: /nowy/
Disallow: /mapa_strony
Disallow: /*/wyszukaj/
Disallow: /*/51,
Disallow: /*/55,
Disallow: /*/2,
Disallow: /*order=
Disallow: /*obxx=
Disallow: /*tag=
Disallow: /reloadwww?
Disallow: /ods?
Disallow: /*servlet
Disallow: /dfptools/adview/

User-agent: Yandex
Disallow: /

User-Agent: bingbot
Disallow: /

User-agent: 008
Disallow: /

User-agent: 010
Disallow: /

User-agent: 360Spider
Disallow: /

User-agent: 80legs
Disallow: /

User-agent: Aboundex
Disallow: /

User-agent: accelobot
Disallow: /

User-agent: Add\ Catalog
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: aiHitBot
Disallow: /

User-agent: Alexibot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: AskJeeves
Disallow: /

User-agent: asterias
Disallow: /

User-agent: awcheckBot
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: BacklinkCrawler
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: BecomeBot
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: brandwatch.net
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Butterfly
Disallow: /

User-agent: CatchBot
Disallow: /

User-agent: Charlotte
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CLIPish
Disallow: /

User-agent: Cliqzbot
Disallow: /

User-agent: COMODO
Disallow: /

User-agent: Comodo-Certificates-Spider
Disallow: /

User-agent: CompSpyBot
Disallow: /

User-agent: Copernic
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: crawler
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: Curious
Disallow: /

User-agent: curl
Disallow: /

User-agent: dataprovider\.com
Disallow: /

User-agent: DinoPing
Disallow: /

User-agent: discoverybot
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: DomainCrawler
Disallow: /

User-agent: DomainCrawler
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: dotnetdotcom
Disallow: /

User-agent: Dow\ Jones\ Searchbot
Disallow: /

User-agent: dumbot
Disallow: /

User-agent: EasouSpider
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: Enterprise_Search
Disallow: /

User-agent: Enterprise_Search/1.0
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: es
Disallow: /

User-agent: Exabot
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: EzineArticlesLinkScanner
Disallow: /

User-agent: Ezooms
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: FreeFind
Disallow: /

User-agent: FTRF\:\ Friendly
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: gigabot
Disallow: /

User-agent: grub
Disallow: /

User-agent: grub-client
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Hatena Antenna
Disallow: /

User-agent: hloader
Disallow: /

User-agent: http://www.SearchEngineWorld.com bot
Disallow: /

User-agent: http://www.WebmasterWorld.com bot
Disallow: /

User-agent: HTTP_Request
Disallow: /

User-agent: HTTP_Request2
Disallow: /

User-agent: httplib
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver/1.6
Disallow: /

User-agent: Indy\ Library
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: ip\-web\-crawler\.com
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Jakarta\ Commons-HttpClient
Disallow: /

User-agent: Jeeves
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: Jetbot
Disallow: /

User-agent: Jetbot/1.0
Disallow: /

User-agent: JikeSpider
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: larbin
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: libwww-perl
Disallow: /

User-agent: lindex\.com
Disallow: /

User-agent: linkdex\.com
Disallow: /

User-agent: linkdexbot
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: lipperhey
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: looksmart
Disallow: /

User-agent: ltbot
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: Lynx
Disallow: /

User-agent: magpie\-crawler
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: moget
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: MSIE\ or\ Firefox\ mutant
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: naver
Disallow: /

User-agent: NCBot
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: NetcraftSurveyAgent
Disallow: /

User-agent: netEstate\ NE\ Crawler
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: Netseer
Disallow: /

User-agent: NextGenSearchBot
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Nutch
Disallow: /

User-agent: Nutch
Disallow: /

User-agent: Ocelli
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: OmniExplorer_Bot
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Openfind data gathere
Disallow: /

User-agent: OpenWebIndex
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: PagesInventory
Disallow: /

User-agent: PEAR
Disallow: /

User-agent: PeoplePal
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: ProCogSEOBot
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: proximic
Disallow: /

User-agent: psbot
Disallow: /

User-agent: purebot
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: QuerySeekerSpider
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: Riddler
Disallow: /

User-agent: RMA
Disallow: /

User-agent: rojerbot
Disallow: /

User-agent: RyteBot
Disallow: /

User-agent: scooter
Disallow: /

User-agent: ScoutJet
Disallow: /

User-agent: Scrapy
Disallow: /

User-agent: ScreenerBot
Disallow: /

User-agent: searchmetrics
Disallow: /

User-agent: searchpreview
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: sentibot
Disallow: /

User-agent: SEO-CRAWLING
Disallow: /

User-agent: SEOENGWorldBot
Disallow: /

User-agent: SEOkicks-Robot
Disallow: /

User-agent: ShopWiki
Disallow: /

User-agent: sistrix
Disallow: /

User-agent: sitebot
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: Snoopy
Disallow: /

User-agent: SocialSearcher
Disallow: /

User-agent: Sogou
Disallow: /

User-agent: SolomonoBot
Disallow: /

User-agent: sootle
Disallow: /

User-agent: Sosospider
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: spanner
Disallow: /

User-agent: spbot
Disallow: /

User-agent: Speedy
Disallow: /

User-agent: Stanford
Disallow: /

User-agent: Stanford Comp Sci
Disallow: /

User-agent: SurveyBot
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Teoma
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: The\ Incutio\ XML-RPC\ PHP\ Library
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: turingos
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: uCrawler
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: VCI
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: visaduhoc\.info
Disallow: /

User-agent: WBSearchBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: WebCapture
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: WebInDetail\.com
Disallow: /

User-agent: WebmasterWorld Extractor
Disallow: /

User-agent: WebmasterWorldForumBot
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: WEBSITEtheWEB\.COM
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebVac
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: Wget
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wotbot
Disallow: /

User-agent: www\.integromedb\.org
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: xpymep\.exe
Disallow: /

User-agent: YamanaLab-Robot
Disallow: /

User-agent: YisouSpider
Disallow: /

User-agent: YodaoBot
Disallow: /

User-agent: YoudaoBot
Disallow: /

User-agent: Zend_Http_Client
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: ZmEu
Disallow: /

User-agent: ZumBot
Disallow: /

User-agent: Linguee
Disallow: /

User-agent: sogou
Disallow: /

Projekt 2

Opracować wyszukiwarkę plików robots.txt.

  • pobrać robots.txt dla (prawie) wszystkich polskich stron WWW
  • umożliwić wyszukiwanie i sortowanie według wszystkich możliwych pól (blokowana wyszukiwarka, adres, komentarz, długość pliku itd.)
  • opracować miary pozwalające automatycznie wyłuskać „ciekawe” pliki robots.txt (długość, występowanie pełnych linków, odmienność od innych plików robots.txt); umożliwić sortowanie/filtrowanie według tej miary