forked from filipg/aitech-eks-pub
75 KiB
75 KiB
Ekstrakcja informacji
1. Wyszukiwarki — wprowadzenie [wykład]
Filip Graliński (2021)
# Wyszukiwarki - wprowadzenie
## Systemy wyszukiwania informacji (information retrieval systems)
![System wyszukiwania informacji](system-wyszukiwania-informacji.png)
Chcę stworzyć swoją własną wyszukiwarkę internetową...
- Skąd brać adresy URL?
- Jak pobrać pliki z tych adresów?
- Jak wydobyć z nich tekst?
... a może w ogóle nie pobierać?
Korpus CommonCrawl
# Bezpośrednio z serwisu
! (wget -O - -q https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-34/segments/1502886133449.19/warc/CC-MAIN-20170824101532-20170824121532-00719.warc.gz | zcat| grep -P -o -a '<!--[^\[\]<>]+' | uniq | head -n 20)
<!-- スマホ用 -- <!-- <!--table width='750' border='0' align='center' cellpadding='0' cellspacing='0' <!--a href='index.phtml?CHANNEL=R51&FID=389924' <!-- mail: <!-- beige_lavender-3c -- <!-- <!-- Template Design By BeigeHeart_Chako_http://beigeheart.blog9.fc2.com/ -- <!-- 関連記事_http://beigeheart.blog9.fc2.com/blog-entry-99.html -- <!-- 利用規約_http://beigeheart.blog9.fc2.com/blog-entry-103.html -- <!-- テンプレの再配布、営利目的の利用禁止 -- <!-- 画像の無断転載・再配布禁止 -- <!-- アダルト・法律違反サイト、使用不可 -- <!-- アクセス解析タグはここから -- <!-- アクセス解析タグはここまで -- <!--▼▼▼メインカラムカラム+右サイドカラム部分-- <!--▼ヘッダー-- <!--▼管理ページリンク-- <!--▲管理ページリンク-- <!--▼タイトル--
Dostępne są też "ekstrakty" czystego tekstu - zob. http://data.statmt.org/ngrams/raw/, np. 59 GB czystego tekstu po polsku z 2012 roku.
! (wget -O - -q http://web-language-models.s3-website-us-east-1.amazonaws.com/ngrams/pl/raw/pl.2012.raw.xz \
| xzcat | head -n 30)
df6fa1abb58549287111ba8d776733e9 0.000000 http://www.gornicki.pl/focal_points_4/2006 Przegląd okulistyczny Focal points Przegląd reumatologiczny Biblioteka on-line STRONA GŁÓWNA WYDAWNICTWO O wydawnictwie Kontakt Regulamin zamówień Spotkania autorskie Nasi autorzy CZYTELNIA ONLINE w dziale: anatomia w dziale: okulistyka w dziale: ratownictwo CENNIK LINKI USŁUGI df6fa1abb58549287111ba8d776733e9 2.000000 http://www.gornicki.pl/focal_points_4/2006 Licencjaty Multimedia Pulmonologia Okulistyka Ratownictwo Reumatologia Zestawy specjalne Onkologia Focal Points 4/2006
Zrzuty Wikipedii
Nie pobieraj Wikipedii strona po stronie!
- tracisz swój czas
- i tracisz czas serwerów Wikipedii
Lepiej pobrać zrzut (_dump) ze strony https://dumps.wikimedia.org/backup-index.html
! (wget -O - -q https://dumps.wikimedia.org/plwiki/20210301/plwiki-20210301-pages-articles-multistream.xml.bz2 \
| bzcat | grep -P -o '\[\[[^\]]+\]\]' | head -n 20)
[[1977]] [[język skryptowy|skryptowy]] [[programowanie proceduralne|proceduralny]] [[Programowanie sterowane zdarzeniami|sterowany zdarzeniami]] [[Alfred V. Aho|Alfred Aho]] [[Peter J. Weinberger|Peter Weinberger]] [[Brian Kernighan]] [[wieloplatformowość|wieloplatformowy]] [[język programowania]] [[plik]] [[system operacyjny|systemów operacyjnych]] [[Unix|UNIX]] [[tablica asocjacyjna|tablice asocjacyjne]] [[Tekstowy typ danych|stringi]] [[wyrażenie regularne|wyrażenia regularne]] [[Alfred V. Aho|Alfreda V. Aho]] [[Peter Weinberger|Petera Weinbergera]] [[Brian Kernighan|Briana Kernighana]] [[POSIX]] [[System V|SVR4]]
Skąd brać adresy URL?
Zob. dumpy powyżej
! (wget -O - -q https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-34/segments/1502886133449.19/warc/CC-MAIN-20170824101532-20170824121532-00719.warc.gz | zcat| grep -P -o -a 'https://[^ "><]+' | uniq | head -n 20)
https://ssl' https://static.fc2.com/css_cn/common/headbar/120710style.css https://blog.fc2.com/ https://spdeliver.i-mobile.co.jp/script/adsnativepc.js?20101001 https://media.fc2.com/counter_img.php?id=3493 https://plus.google.com/+apothekenumschau https://script.ioam.de/iam.js https://07743rats-apotheke.apotheken-umschau.de/News--Wissen/AGP-Kontaktformular--73317.html https://07743rats-apotheke.apotheken-umschau.de/News--Wissen/Apotheker-HP--AGP-73319.html https://login.apotheken-umschau.de/login?service=https://www.apotheken-umschau.de/j_spring_cas_security_check https://forum.apotheken-umschau.de/portal/registration/register https://www.facebook.com/Apotheken.Umschau https://api.wortundbildverlag.com/drug-suggest/terms https://07743rats-apotheke.apotheken-umschau.de/unternehmenskommunikation/Kontakt-zu-den-Redaktionen-53834.html https://i.skyrock.net/9775/59549775/pics/photo_59549775_89.jpg https://static.skyrock.net/js/common.min.js?eBtyhdw https://static.skyrock.net/img/favicon_v5b.ico https://wir.skyrock.net/wir/v1/resize/?c=isi&im=%2F9775%2F59549775%2Fpics%2Fphoto_59549775_89.jpg&w=16 https://i.skyrock.net/9775/59549775/pics/photo_59549775_89.jpg https://static.skyrock.net/css/common.css?eahf2jw
! (wget -O - -q https://dumps.wikimedia.org/plwiki/20210301/plwiki-20210301-pages-articles-multistream.xml.bz2 \
| bzcat | grep -P -o 'https://[^ "><]+' | head -n 20)
https://pl.wikipedia.org/wiki/Wikipedia:Strona_g%C5%82%C3%B3wna https://web.archive.org/web/20100116001012/http://homepages.cwi.nl/~dik/english/codes/stand.html#ascii https://web.archive.org/web/20160613145224/http://www.aivosto.com/vbtips/charsets-7bit.html#body}}</ref> https://web.archive.org/web/20160522024759/http://worldpowersystems.com/J/codes/#ASCII-1967 https://books.google.com/?id=NQSpNAEACAAJ&pg=PA28 https://web.archive.org/web/20160616084132/https://www.w3.org/blog/2008/05/utf8-web-growth/ https://web.archive.org/web/20160616084637/https://googleblog.blogspot.de/2008/05/moving-to-unicode-51.html https://web.archive.org/web/20160616085323/https://googleblog.blogspot.de/2010/01/unicode-nearing-50-of-web.html https://web.archive.org/web/20160827000956/http://dlx.bookzz.org/genesis/772000/c80a62495acf1e1a5b966de23c1f989a/_as/%5BInterface_Age_Staff%5D_Best_of_Interface_Age%2C_Volum%28BookZZ.org%29.pdf https://books.google.com/books?id=bXLDwmIJNkUC&pg=PA13 https://web.archive.org/web/20161031223347/http://ethw.org/First-Hand%3AChad_is_Our_Most_Important_Product%3A_An_Engineer%27s_Memory_of_Teletype_Corporation https://textfiles.meulie.net/bitsaved/Books/Mackenzie_CodedCharSets.pdf https://web.archive.org/web/20160526181319/http://longstreet.typepad.com/thesciencebookstore/2012/03/heres-the-link.html https://web.archive.org/web/20120213005708/http://www.transbay.net/~enf/ascii/ascii.pdf https://archive.org/details/dictionaryworldp00iann https://archive.org/details/dictionaryworldp00iann/page/n80 https://www.theguardian.com/commentisfree/belief/2013/jan/28/lucretius-all-things-atoms https://archive.org/details/distillingknowle00mora_557 https://archive.org/details/distillingknowle00mora_557/page/n156 https://archive.org/details/fromelementstoat00sieg
Serwis DMOZ/ODP (niestety już nieaktywny) Ostatni link: https://web.archive.org/web/20160306230718/http://rdf.dmoz.org/rdf/content.rdf.u8.gz
Odpytywać "pasożytniczo" inną wyszukiwarkę
# see https://hackernoon.com/how-to-scrape-google-with-python-bo7d2tal
import urllib
import requests
from bs4 import BeautifulSoup
def query_google(query):
url = f"https://google.com/search?q={query}"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
results = []
for g in soup.find_all('a'):
link = g['href']
if '/url?q=' in link:
results.append((link[7:], g.parent.get_text()))
return results
query_google('"wielka stopa"')
[('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQmhMwC3oECA0QDg&usg=AOvVaw0GUY96bFEsdrfOb9_ME9qP', 'Wikipedia'), ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjASegQIDBAB&usg=AOvVaw3LMsdCuK3PBSunL8shYp-S', 'Wielka Stopa (zwierzę) – Wikipedia, wolna encyklopediapl.wikipedia.org › wiki › Wielka_Stopa_(zwierzę)'), ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Opis&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQ0gIwEnoECAwQAg&usg=AOvVaw02WHiDgMZ18jJGW-y7agVg', 'Opis'), ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Historia&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQ0gIwEnoECAwQAw&usg=AOvVaw10BrulHDJ4WgEOFkd-3-H6', 'Historia'), ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Najwa%25C5%25BCniejsze_argumenty_%25E2%2580%259Eza%25E2%2580%259D_i_%25E2%2580%259Eprzeciw%25E2%2580%259D&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQ0gIwEnoECAwQBA&usg=AOvVaw1nSHJDVeWEJTqpRJOMBcus', 'Najważniejsze argumenty ...'), ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Argumenty_%25E2%2580%259Eprzeciw%25E2%2580%259D&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQ0gIwEnoECAwQBQ&usg=AOvVaw3UqFIOr7y6yxvK-i1su1au', 'Argumenty „przeciw”'), ('https://pl.wikipedia.org/wiki/Wielka_Stopa_(w%25C3%25B3dz_Siuks%25C3%25B3w)&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjATegQICxAB&usg=AOvVaw1lZSYrEp4ez0Kh4o4SXrY1', 'Wielka Stopa (wódz Siuksów) – Wikipedia, wolna encyklopediapl.wikipedia.org › wiki › Wielka_Stopa_(wódz_Siuksów)'), ('https://www.youtube.com/watch%3Fv%3DEPRggWavPX4&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQtwIwFHoECAQQAQ&usg=AOvVaw2EugGtxH-FfMbNmqhS5py3', 'Wielka Stopa w Suszu - YouTubewww.youtube.com › watch'), ('https://www.youtube.com/watch%3Fv%3DEPRggWavPX4&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQuAIwFHoECAQQAg&usg=AOvVaw17g24VY46PboJW54XyZGa1', '23 cze 2017 · Od niedawna oczy naukowców poszukujących Wielkiej Stopy skierowane są na niewielkie ...Czas trwania: 6:24\nOpublikowano: 23 cze 2017'), ('https://www.ceneo.pl/%3Bszukaj-wielka%2Bstopa&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAZegQIBhAB&usg=AOvVaw0HUE-TpszLKJjAMsV6lvPU', 'Wielka Stopa - znaleziono na Ceneo.plwww.ceneo.pl › ...'), ('https://www.antyradio.pl/News/Kobieta-twierdzi-ze-spotkala-Wielka-Stope-Hustala-sie-na-drzewie-ZDJECIE-43102&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAaegQICBAB&usg=AOvVaw1iIlPUpJwldL0MacDY4ebw', 'Wielka Stopa - kolejny przypadek spotkania z potworem - Antyradiowww.antyradio.pl › News › Kobieta-twierdzi-ze-spotkala-Wielka-Stope-Hu...'), ('https://allegro.pl/kategoria/gry%3Fstring%3DWielka%2520stopa%2520%253A)%2520-&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAbegQIABAB&usg=AOvVaw0mgn1YuyE65LFfA54P-gQo', 'Wielka stopa :) - Gry - Allegro.plallegro.pl › Kultura i rozrywka › Gry'), ('https://allegro.pl/listing%3Fstring%3DWielka%2520stopa%2520%253A%2529%2520-&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAcegQIAxAB&usg=AOvVaw3dzMG9f8K5w31r30AyxNEz', 'Wielka stopa :) - Niska cena na Allegro.plallegro.pl › listing'), ('https://www.empik.com/gra-strategiczna-yeti-wielka-stopa-jawa,p1103341700,zabawki-p&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAdegQIBxAB&usg=AOvVaw3xZ_RVxgMxK7vOUPAYO-pe', 'Gra strategiczna Yeti Wielka stopa - | Sklep EMPIK.COMwww.empik.com › Zabawki › Gry › Strategiczne i ekonomiczne'), ('https://tvn24.pl/tvnmeteo/informacje-pogoda/ciekawostki,49/wielka-stopa-nie-istnieje-naukowcy-to-nie-koniec-nadziei,127328,1,0.html&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAeegQICRAB&usg=AOvVaw3XECuxJKyNK_x4MTREa9Ui', 'Wielka Stopa nie istnieje? Naukowcy: to nie koniec nadziei - TVN24tvn24.pl › Informacje pogodowe › Ciekawostki'), ('https://www.monolith.pl/filmy/2020/mala-wielka-stopa-2-w-rodzinie-sila/&sa=U&ved=2ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQFjAfegQIChAB&usg=AOvVaw3uFesbmGBr0dDWxK1ej5n_', 'Mała Wielka Stopa 2 - Filmy - Monolith Filmswww.monolith.pl › filmy › mala-wielka-stopa-2-w-rodzinie-sila'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQty4IigE&usg=AOvVaw0fYQ97CWfJ8aCmNBcv3a_d', 'Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D%252522wielka%252Bstopa%252522%26hl%3Dpl&sa=U&ved=0ahUKEwj-ktTzsLfvAhW8ZxUIHQHnB5EQxs8CCIsB&usg=AOvVaw1V17_OrU9CNrErDjbwNZRj', 'Zaloguj się')]
Google hacking
... czyli kreatywne wykorzystanie wyszukiwarki Google (niekoniecznie w złowrogich celach)
Jak szukać materiałów dwujęzycznych?
query_google('się "English version"')
[('https://context.reverso.net/t%25C5%2582umaczenie/angielski-polski/english%2Bversion&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAAegQIABAB&usg=AOvVaw3RrHCxcaLe8qoaZfLEPV6Y', 'english version - Tłumaczenie na polski - angielskich przykładów ...context.reverso.net › tłumaczenie › angielski-polski › english+version'), ('https://context.reverso.net/t%25C5%2582umaczenie/angielski-polski/An%2BEnglish%2Bversion&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjABegQIBhAB&usg=AOvVaw017LUPkNtKNdnPE8dToBSB', 'An English version - Tłumaczenie na polski - angielskich przykładów ...context.reverso.net › tłumaczenie › angielski-polski › An+English+version'), ('https://pl.bab.la/slownik/angielski-polski/english-version&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjACegQICRAB&usg=AOvVaw0BG6Y5Y4PWUDFAMQbF5OiB', 'ENGLISH VERSION - Tłumaczenie na polski - bab.lapl.bab.la › slownik › angielski-polski › english-version'), ('https://www.linguee.com/english-polish/translation/in%2Benglish%2Bversion.html&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjADegQIBxAB&usg=AOvVaw03YqBv17ZeVx2FwKA2Y2gu', 'in English version - Polish translation – Lingueewww.linguee.com › english-polish › translation › in+english+version'), ('https://www.linguee.com/english-polish/translation/an%2Benglish%2Bversion.html&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAEegQICBAB&usg=AOvVaw261dClyWD55TlTUkm5JNiI', 'an English version - Polish translation – Lingueewww.linguee.com › english-polish › translation › an+english+version'), ('https://www.youtube.com/watch%3Fv%3DdC8Jy0-VImU&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QtwIwBXoECAoQAQ&usg=AOvVaw1fvEyAWPyHIeWCqTmx5efS', 'MELODIA - Sanah | PO ANGIELSKU | ENGLISH VERSION - YouTubewww.youtube.com › watch'), ('https://www.youtube.com/watch%3Fv%3DdC8Jy0-VImU&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QuAIwBXoECAoQAg&usg=AOvVaw2n8-O6Aooitc2POfMr2eSI', '2 lip 2020 · Z uwagi na to, że wersja angielska "Szampana" bardzo Wam się spodobała, postanowiłam ...Czas trwania: 3:16\nOpublikowano: 2 lip 2020'), ('https://www.linguee.pl/angielski-polski/t%25C5%2582umaczenie/english%2Bversion%2Bprevail.html&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAGegQIAhAB&usg=AOvVaw2gR32hWrps8JeETEZFcnC3', 'English version prevail - Tłumaczenie na polski – słownik Lingueewww.linguee.pl › angielski-polski › tłumaczenie › english+version+prevail'), ('https://www.linguee.pl/angielski-polski/t%25C5%2582umaczenie/english%2Bversion%2Bcoming%2Bsoon.html&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAHegQIARAB&usg=AOvVaw1Gy_8y1P8j2LkQmOcFNUho', 'English version coming soon - Tłumaczenie na polski – słownik ...www.linguee.pl › angielski-polski › english+version+coming+soon'), ('https://www.umcs.pl/pl/instrukcja-w-jezyku-angielskim-english-version-,15428.htm&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAIegQIBRAB&usg=AOvVaw2qxqPHA01a_XGp2OI2LwHh', 'Instrukcja w języku angielskim (english version) - Nowi pracownicy ...www.umcs.pl › ... › Dla pracownika › Nowi pracownicy (instrukcja)'), ('https://www.wsb.net.pl/en/&sa=U&ved=2ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0QFjAJegQIAxAB&usg=AOvVaw33uMYMxHmM5oTynwt9481F', 'English version : - Wyższa Szkoła Bezpieczeństwawww.wsb.net.pl › ...'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0Qty4INA&usg=AOvVaw3FvXRX8gjDnoExpLAPHyWl', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dsi%2525C4%252599%252B%252522English%252Bversion%252522%26hl%3Dpl&sa=U&ved=0ahUKEwjJ24W_s6XvAhVcXRUIHTfDA_0Qxs8CCDU&usg=AOvVaw3nXIS27h-FWwpKhQDIdB9y', 'Zaloguj się')]
query_google('inurl:lang=en site:pl')
[('https://www.ksk.gda.pl/%3Fs%3D%257Bsearch_term_string%257D%253Flang%253Den%253Flang%253Dfr%253Flang%253Dfr%253Flang%253Dde%253Flang%253Den%253Flang%253Dfr%253Flang%253Dfr%253Flang%253Den%253Flang%253Dfr%253Flang%253Dfr%253Flang%253Dde%253Flang%253Den%253Flang%253Dde%253Flang%253Dde%253Flang%253Dde%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAAegQIAxAB&usg=AOvVaw1rz99qpelK6AKXNq32Y3DB', '{search_term_string}?lang=en?lang=fr?lang=fr?lang=de?lang=en ...www.ksk.gda.pl › s={search_term_string}?lang=en?lang=fr?lang=fr?lang=...'), ('https://emonitoring.poczta-polska.pl/%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjABegQIBBAB&usg=AOvVaw3BgMdqycY5NWdhCmVHe6Eo', 'Śledzenie przesyłek - Poczta Polskaemonitoring.poczta-polska.pl › lang=en'), ('http://44mpa.pl/urban-adaptation-plans/%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjACegQICxAB&usg=AOvVaw0yHXmZ8Tv3dujCVJIRKjR7', 'Urban Adaptation Plans | Wczujmy się w klimat!44mpa.pl › urban-adaptation-plans › lang=en'), ('http://www.apiscosmetics.pl/start-en/products/professional-products/home-terapis-en.html%3Fproduct%3D288%26lang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjADegQICBAB&usg=AOvVaw1QwK_aHzWym29dEM4w0MSw', '<!doctype html> <html lang="en"> <head> <meta http-equiv ... - Apiswww.apiscosmetics.pl › products › professional-products › home-terapis-en'), ('https://ekursy.akademiakierowcy.pl/message/output/airnotifier/lang/en/&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAEegQIBxAB&usg=AOvVaw2fR_Xur4oOOIxEb1KiJBRL', 'Index of /message/output/airnotifier/lang/en - Akademia Kierowcyekursy.akademiakierowcy.pl › message › output › airnotifier › lang'), ('https://ekursy.akademiakierowcy.pl/message/output/popup/lang/en/&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAFegQICRAB&usg=AOvVaw38ifWqViF-gaqRnBYCs7ph', 'Index of /message/output/popup/lang/en - Akademia Kierowcyekursy.akademiakierowcy.pl › message › output › popup › lang'), ('https://www.zabierzow.org.pl/community/welcome/%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAKegQIABAB&usg=AOvVaw1u_tc6Q_mK_qSy_JeUs21l', 'Welcome - Oficjalny serwis internetowy Gminy Zabierzówwww.zabierzow.org.pl › Strona główna › Community'), ('https://www.ipiss.com.pl/%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjALegQIBRAB&usg=AOvVaw1v4Ep4-1xZU2aj34RQNyA6', 'Institute of Labour and Social Studieswww.ipiss.com.pl › lang=en'), ('https://support.google.com/webmasters/answer/7489871%3Fhl%3Dpl&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQvxowC3oECAUQAg&usg=AOvVaw3QrhPCjSv1m5Remte9HOQz', 'Dowiedz się dlaczego'), ('http://www.klub-spadkobiercow.com.pl/%3Fs%3D%25E2%259A%25BD%25E2%259A%25A1%25E2%2598%2598%25EF%25B8%258F%25E2%258F%25B2%2Bkupi%25C4%2599%2Bbmw%2Bseria%2B5%2Boferty%2BSamocholand.pl%2B%25F0%259F%2590%259D%25E2%259C%258B%2B-%2BKupno%2Bsamochod%25C3%25B3w%2B%25F0%259F%258C%258D%25F0%259F%2593%2598%2Bbmw%2Bseria%2B5%2Bkupno%252C%2BKup%2Bbmw%2Bseria%2B5%2Btanio%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjAMegQIAhAB&usg=AOvVaw3OrIJeKwmccNn-Z0ci9WZ5', 'kupię bmw seria 5 oferty Samocholand.pl - Kupno samochodów ...www.klub-spadkobiercow.com.pl › s=⚽⚡☘⏲+kupię+bmw+seria+5+oferty...'), ('http://www.klub-spadkobiercow.com.pl/%3Fs%3D%25F0%259F%2594%2590%25F0%259F%2598%25B2%25F0%259F%258C%259F%25F0%259F%2592%259C%2BSprzedam%2Bsamochody%2Bhummer%2Bh3%2Bog%25C5%2582oszenia%2BSamocholand.pl%2B%25E2%258F%25B2%25F0%259F%2598%258B%2B-%2BSprzeda%25C5%25BC%2Bsamochod%25C3%25B3w%2B%25F0%259F%2592%259E%25F0%259F%2594%2590%2Bsamochody%2Bhummer%2Bh3%2Bog%25C5%2582oszenia%252C%2BSpprzedaj%2Bsamochody%2Bhummer%2Bh3%2Bpilnie%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%253Flang%253Den%3Flang%3Den&sa=U&ved=2ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQFjANegQIARAB&usg=AOvVaw2gGpRa2QRI0s5hif4sSG15', 'Sprzedam samochody hummer h3 ogłoszenia Samocholand.pl ...www.klub-spadkobiercow.com.pl › s=🔐😲🌟💜+Sprzedam+samochody+hu...'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQty4ISg&usg=AOvVaw3qJv9X5Au4qLqskqZgygmA', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dinurl:lang%25253Den%252Bsite:pl%26hl%3Dpl&sa=U&ved=0ahUKEwiPwpzSs6XvAhVpSxUIHSLzBxQQxs8CCEs&usg=AOvVaw1bNj0srkIoKMTez1biljAK', 'Zaloguj się')]
query_google('zdecydowali decided')
[('https://context.reverso.net/t%25C5%2582umaczenie/angielski-polski/decided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAAegQIAxAB&usg=AOvVaw1VOWJd4mMu1wbrjT0N2fwg', 'decided - Tłumaczenie na polski - angielskich przykładów | Reverso ...context.reverso.net › tłumaczenie › angielski-polski › decided'), ('https://context.reverso.net/t%25C5%2582umaczenie/polski-angielski/zdecydowali&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjABegQIAhAB&usg=AOvVaw392MbfKZ25nbvv_wpUfF4s', 'zdecydowali - Tłumaczenie na angielski - polskich przykładów ...context.reverso.net › tłumaczenie › polski-angielski › zdecydowali'), ('https://pl.duolingo.com/dictionary/English/decided/f241156f8cd032ca9b65a8bd760439d8&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjACegQICxAB&usg=AOvVaw3ofU6NSr4cVJ7Wp75lDPWm', 'Co oznacza „decided” po angielsku? - Duolingopl.duolingo.com › dictionary › English › decided'), ('https://www.diki.pl/slownik-angielskiego%3Fq%3Ddecide&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjADegQICRAB&usg=AOvVaw3D_KS9QB14t8N79rhLEzXx', 'decide - Tłumaczenie po polsku - Słownik angielsko-polski Dikiwww.diki.pl › slownik-angielskiego › q=decide'), ('http://www.slownictwo.pl/dict1.php%3Ftxt%3Ddecided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAEegQIChAB&usg=AOvVaw2ho4z_VbbIZQfbaQTkaQir', 'Internetowy słownik polsko-angielski i angielsko-polski z lektoremwww.slownictwo.pl › dict1 › txt=decided'), ('https://pl.bab.la/slownik/angielski-polski/decided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAFegQICBAB&usg=AOvVaw1UVHsgO7GZH-vm4_x5MGDW', 'DECIDED - Tłumaczenie na polski - bab.lapl.bab.la › slownik › angielski-polski › decided'), ('https://fiszkoteka.pl/slownik/pl/en/zdecydowa%25C5%2582&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAKegQIARAB&usg=AOvVaw1zaRQ2cAhJHPJFYPa5JCT8', '→ zdecydował po angielsku, słownik polsko - angielski | Fiszkotekafiszkoteka.pl › słownik polsko - angielski › Z'), ('https://fiszkoteka.pl/slownik/en/pl/decided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjALegQIBhAB&usg=AOvVaw3JyZ1e2LvRkwv_mjklzaiO', '→ decided po polsku, słownik angielsko - polski | Fiszkotekafiszkoteka.pl › słownik angielsko - polski › D'), ('https://ellalanguage.com/pl/slownik_angielski_decide/&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjAMegQIBBAB&usg=AOvVaw2hbOA7JWSyFSTH04bVg5rS', 'Odmiana czasownika DECIDE | Angielskie czasowniki | ELLAellalanguage.com › slownik_angielski_decide'), ('https://tr-ex.me/t%25C5%2582umaczenie/angielski-polski/decided&sa=U&ved=2ahUKEwi0-436s6XvAhUzo3EKHU0MAG8QFjANegQIBRAB&usg=AOvVaw0Fl5dYqoiEFcgUzWH0mN2S', 'DECIDED ▷ Tłumaczenie Na Polski - Przykłady Użycia Decided W ...tr-ex.me › tłumaczenie › angielski-polski › decided'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwi0-436s6XvAhUzo3EKHU0MAG8Qty4IQw&usg=AOvVaw1uu2p_1jLxzOHd7KfkS2NU', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dzdecydowali%252Bdecided%26hl%3Dpl&sa=U&ved=0ahUKEwi0-436s6XvAhUzo3EKHU0MAG8Qxs8CCEQ&usg=AOvVaw1sNjBEDjM9eZu9ozeQEJqs', 'Zaloguj się')]
query_google('"słowa kluczowe" keywords abstract')
[('https://ispan.waw.pl/journals/index.php/sfps/article/view/sfps.2014.020&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAAegQIABAB&usg=AOvVaw3PKZOp-ZKdH0s_POMTQrv-', 'Słowa kluczowe podawane przez autora publikacji jako podstawa ...ispan.waw.pl › journals › index.php › sfps › article › view › sfps.2014.020'), ('http://www.wbios.us.edu.pl/tl_files/aktualnosci/revitare-2013/konferencja-streszczenie-wzor.pdf&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjABegQIAxAB&usg=AOvVaw1XgVp3uZUGn0Ig0sADojZO', '[PDF] WZÓR STRESZCZENIAwww.wbios.us.edu.pl › revitare-2013 › konferencja-streszczenie-wzor'), ('https://docs.microsoft.com/pl-pl/dotnet/csharp/language-reference/keywords/&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjACegQICxAB&usg=AOvVaw1Ppo-QeKIjwxw8D8zLOIDN', 'Słowa kluczowe języka C#C# Keywords - Microsoft Docsdocs.microsoft.com › ... › Przewodnik dla języka C# › Dokumentacja języka'), ('https://docs.microsoft.com/pl-pl/cpp/cpp/keywords-cpp&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjADegQICBAB&usg=AOvVaw09GBEO-bl_GHGuApWZv46H', 'Słowa kluczowe (C++) | Microsoft Docsdocs.microsoft.com › ... › Konwencje leksykalne'), ('https://www.researchgate.net/publication/271724450_Keywords_tags_and_what_else_Slowa_kluczowe_tagi_i_co_dalej&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAEegQICRAB&usg=AOvVaw2lYe8oCMu-372n8o6jjnvA', '(PDF) Keywords, tags... and what else? [Słowa kluczowe, tagi…, i co ...www.researchgate.net › publication › 271724450_Keywords_tags_and_wh...'), ('https://clarin-pl.eu/dspace/bitstream/handle/11321/589/S%25C5%2582owa%2520kluczowe%2520-%2520wytyczne%2520%2528publikacja%2529.pdf%3Fsequence%3D1%26isAllowed%3Dy&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAFegQIChAB&usg=AOvVaw1zbgvbNQDTRmK3GXVFB6Gx', '[PDF] słowa kluczowe - CLARIN-PLclarin-pl.eu › dspace › bitstream › handle'), ('https://pl.qaz.wiki/wiki/List_of_Java_keywords&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAKegQIBhAB&usg=AOvVaw32i5c9auW8kJ6j0fZPo2ml', 'Lista słów kluczowych Java - List of Java keywords - qaz.wikipl.qaz.wiki › wiki › List_of_Java_keywords'), ('http://www.standardy.pl/index.php/artykuly/drukuj/1316&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjALegQIAhAB&usg=AOvVaw0MgKxzmQaV_C8gvS9n_BU4', '[PDF] x Keywords: x Autorzy: List otwarty do PTN Streszczenie: x Abstractwww.standardy.pl › index.php › artykuly › drukuj'), ('http://cejsh.icm.edu.pl/cejsh/element/bwmeta1.element.ojs-doi-10_11649_sfps_2014_020&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjAMegQIBRAB&usg=AOvVaw1ckSaZzuEVpMhFLEWNo7tU', 'Słowa kluczowe podawane przez autora ... - CEJSH - ICM UWcejsh.icm.edu.pl › bwmeta1.element.ojs-doi-10_11649_sfps_2014_020'), ('http://www.bobolanum.edu.pl/wydawnictwo-artykul&sa=U&ved=2ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQFjANegQIARAB&usg=AOvVaw1FzLP8mLAHuszJjWFoCtOZ', 'Artykuł - wymogi edytorskie / The Article - Editorial Requirements ...www.bobolanum.edu.pl › wydawnictwo-artykul'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQty4ITQ&usg=AOvVaw275ECJoqdlgg6bzr8BjvBK', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D%252522s%2525C5%252582owa%252Bkluczowe%252522%252Bkeywords%252Babstract%26hl%3Dpl&sa=U&ved=0ahUKEwju5sKVtKXvAhXyrnEKHS9jDrsQxs8CCE4&usg=AOvVaw22rLBFpQgI8blcDhcAZu1P', 'Zaloguj się')]
Jak szukać dziurawych/dziwnych stron?
query_google('blabla site:gov.pl')
[('https://smolarz.szczecin.lasy.gov.pl/test-grafika&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAAegQIAhAB&usg=AOvVaw00PjOy7FFcAzFOiEWBj5q-', 'test grafika - Nadleśnictwo Smolarz - Lasy Państwowesmolarz.szczecin.lasy.gov.pl › test-grafika'), ('http://www.malopolska.mw.gov.pl/aktualnosci/samorzad/blabla&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjABegQICRAB&usg=AOvVaw2FPiYfJO-h1e4cEis8U7Pu', 'Małopolska na Dożynkach Prezydenckich w Spale » Małopolskawww.malopolska.mw.gov.pl › aktualnosci › samorzad › blabla'), ('http://sejm.gov.pl/Sejm9.nsf/wypowiedz.xsp%3Fposiedzenie%3D20%26dzien%3D2%26wyp%3D113%26symbol%3DRWYSTAPIENIA_WYP%26id%3D073&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjACegQICBAB&usg=AOvVaw06C6-TRfwEa0vnqBZqICgI', 'Wypowiedzi na posiedzeniach Sejmusejm.gov.pl › Sejm9.nsf › wypowiedz'), ('https://www.gov.pl/web/psse-walbrzych/test3&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjADegQIBxAB&usg=AOvVaw0C4Wts3msCWyEcHpuou4Gv', 'test - Powiatowa Stacja Sanitarno-Epidemiologiczna w Wałbrzychu ...www.gov.pl › web › psse-walbrzych › test3'), ('https://www.biznes.gov.pl/glos-przedsiebiorcy/idea/porzadny-slownik&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAEegQIBRAB&usg=AOvVaw3sSgvJNIu57v7xRbsUaGPJ', 'Pomysły na biznes.gov.plwww.biznes.gov.pl › glos-przedsiebiorcy › idea › porzadny-slownik'), ('http://demo.licytacje.uzp.gov.pl/contest/view/sid/L-76-2011&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAFegQIBhAB&usg=AOvVaw3qQ5q60_RMk3yVEHZSsLgd', 'Urząd Zamówień Publicznychdemo.licytacje.uzp.gov.pl › contest › view › sid'), ('https://www.biznes.gov.pl/glos-przedsiebiorcy%3Fpage%3D24&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAGegQIABAB&usg=AOvVaw0-0BmNu2idsAGELz1ytQrr', 'Pomysły na biznes.gov.plwww.biznes.gov.pl › glos-przedsiebiorcy'), ('https://www.gddkia.gov.pl/frontend/web/userfiles/articles/o/ogloszenie-z-dnia-27112017_27828/za%25C5%2582.2.%2520do%2520regulaminu%2520-%2520%25C5%259Bwiadectwa%2520legalno%25C5%259Bci%2520ze%2520zdj%25C4%2599ciami.pdf&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAHegQIBBAB&usg=AOvVaw1QSAjj5hsgZD9v5dO65nt3', '[PDF] ŚWIADECTWO LEGALNOŚCI POZYSKANIA DREWNA [pdf] - GDDKiAwww.gddkia.gov.pl › articles › ogloszenie-z-dnia-27112017_27828'), ('https://www.arimr.gov.pl/wersja-testowa/zalaczniki-do-wniosku-w-2015-r/rejestr.html&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAIegQIARAB&usg=AOvVaw1kN54m-oEhXvu9HM_jf5r2', 'rejestr | Agencja Restrukturyzacji i Modernizacji Rolnictwawww.arimr.gov.pl › wersja-testowa › zalaczniki-do-wniosku-w-2015-r › re...'), ('http://www.zielona-gora.sr.gov.pl/download.php%3Finst%3D1%26id%3D1889&sa=U&ved=2ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQFjAJegQIAxAB&usg=AOvVaw0C5yVLkbZgo3j_SPFeS3kD', '[PDF] Untitledwww.zielona-gora.sr.gov.pl › download'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQty4IMA&usg=AOvVaw2jLSNJ1Fojm0RC3f1Rei7X', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dblabla%252Bsite:gov.pl%26hl%3Dpl&sa=U&ved=0ahUKEwi_gcTatKXvAhXvXRUIHVHdBugQxs8CCDE&usg=AOvVaw0MEcRxsUFD_99cunMcln-U', 'Zaloguj się')]
query_google('intitle:settings filetype:pdf site:gov.pl')
[('http://www.gios.gov.pl/images/dokumenty/pms/monitoring_pol_elektormagnetycznych/raport/Zalacznik_1-_mapa_Szczecin.pdf&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAAegQIARAB&usg=AOvVaw3iiQhOAEZVJob4cs973EUY', '[PDF] mapa Szczecinwww.gios.gov.pl › pms › raport › Zalacznik_1-_mapa_Szczecin'), ('http://www.gios.gov.pl/images/dokumenty/pms/monitoring_pol_elektormagnetycznych/raport/Zalacznik_1-_mapa_Gdansk.pdf&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjABegQICRAB&usg=AOvVaw0QQC4LH21f3xjE0rM8PI6L', '[PDF] C:\\\\Documents and Settings\\\\ja\\\\Pulpit\\\\Gdańsk\\\\Mapy.dwg A3 mapa ...www.gios.gov.pl › pms › raport › Zalacznik_1-_mapa_Gdansk'), ('https://www.gddkia.gov.pl/pl/d/f7041e734f9b37cd88cae0a9000102a1&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjACegQIBxAB&usg=AOvVaw0gO4uj__F-7icHZYIQeTPL', '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl › ...'), ('https://www.gddkia.gov.pl/pl/d/fec8268b624add970e544fefefcd043f&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjADegQICBAB&usg=AOvVaw02AVxRGVLmdXAyqtSBZZRo', '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl › ...'), ('https://www.gddkia.gov.pl/pl/d/392dd80745a5a025df1d225bbf0b8e02&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAEegQIAxAB&usg=AOvVaw2Vjr_Ez89bHJrDaPepIRsF', 'mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl › ...'), ('https://www.gddkia.gov.pl/pl/d/dfc6e11545fb637fef5a00f53ce94414&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAFegQIBBAB&usg=AOvVaw3A8r1jWPXDCm7XwoWfkjzf', 'mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl › ...'), ('https://www.gddkia.gov.pl/pl/d/996b6076155b215e7ee8d5897fc6153b&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAGegQIAhAB&usg=AOvVaw1TIDEU5BMlHlGMYkNkbWM4', '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl › ...'), ('https://www.gddkia.gov.pl/pl/d/3010c117961da9877405841ef5c65a07&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAHegQIBRAB&usg=AOvVaw2IS01b7eg6XhHaQHZ3jK13', '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl › ...'), ('https://www.gddkia.gov.pl/pl/d/bed97709d7349e000a041a60388ab1ee&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAIegQIBhAB&usg=AOvVaw1X_Tq2PTGDaRTXm_xi5PQz', '[PDF] mhtml:file://C:\\\\Documents and Settings\\\\Malik_M\\\\Moje ... - GDDKiAwww.gddkia.gov.pl › ...'), ('http://www.gddkia.gov.pl/pl/d/0c5befb91a5b0b0c8bbc3b5a293ad0fc&sa=U&ved=2ahUKEwjLkrnptKXvAhXYSRUIHatABOMQFjAJegQIABAB&usg=AOvVaw3sEannIxW2G91xP2bUK6Me', 'mhtml:file://C:\\\\Documents and Settings\\\\user\\\\Pulpit ... - GDDKiAwww.gddkia.gov.pl › ...'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwjLkrnptKXvAhXYSRUIHatABOMQty4ILg&usg=AOvVaw0yirg8KksKVYdZKGNbhKol', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dintitle:settings%252Bfiletype:pdf%252Bsite:gov.pl%26hl%3Dpl&sa=U&ved=0ahUKEwjLkrnptKXvAhXYSRUIHatABOMQxs8CCC8&usg=AOvVaw0b9IEfcDUv6isVIMCWaieO', 'Zaloguj się')]
query_google('pesel filetype:xls kaczmarek')
[('https://www.gov.pl/attachment/3ddad90a-8136-4d9c-a56f-1ed206bf2b24&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAAegQIABAB&usg=AOvVaw3vizwfsDj6dYNSA8t3-tWi', '[XLS] NAZWISKA_MEN A B 1 100 najpopularniejszych nazwisk męskich ...www.gov.pl › attachment'), ('https://doc.rmf.pl/rmf_fm/store/Kopia_nazwiska_2010.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjABegQIBxAB&usg=AOvVaw3rhrn9Nyg5ac0TyxUqDi1t', '[XLS] nazwiska A B C D E F G H I 1 Najcześciej występujące nazwiska ...doc.rmf.pl › rmf_fm › store › Kopia_nazwiska_2010'), ('http://dydaktyka.polsl.pl/roz6/izdonek/Shared%2520Documents/MS%2520Excel/7_Dzia%25C5%2582ania%2520na%2520danych%2520typu%2520tekst_podr.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjACegQICBAB&usg=AOvVaw38RDxGxB5aMALBoLG9XEVR', '[XLS] Wielkość liter A B C D 1 Przykład 7.1 2 Podany fragment bazy ...dydaktyka.polsl.pl › roz6 › izdonek'), ('http://zprp.pl/wp-content/uploads/2015/02/Lista_transferowa_2017_18_v1.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjADegQICRAB&usg=AOvVaw2v7UWBKRjO57O-fM-Ox6-K', '[XLS] Lista 2017 A B C D E F 1 Lp Nazwisko Imię Klub macierzysty Status ...zprp.pl › uploads › 2015/02 › Lista_transferowa_2017_18_v1'), ('https://umostrow.pl/files/file_add/download/1163_kopia-2020-stmig-cooper-1-sprawozdanie-cz1.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAEegQIBhAB&usg=AOvVaw350iyfjLCkSKGxxX-ezFdj', '[XLS] STMiG 2020 - formularz testu Coopera - Ostrów Wielkopolskiumostrow.pl › 1163_kopia-2020-stmig-cooper-1-sprawozdanie-cz1'), ('https://www.mbank.pl/pobierz/mbankrejestumow.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAFegQIAhAB&usg=AOvVaw3fZtm8ph8HLJwAJIxTeoL5', '[XLS] Sheet_1 A B C 1 Przedsiębiorca Siedziba Przedsiębiorcy NIP 2 ...www.mbank.pl › pobierz › mbankrejestumow'), ('http://um.bip.legnica.eu/download/107/26919/drugiepolrocze2017.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAGegQIAxAB&usg=AOvVaw3JqmWVIkWufqX7a5NxLyeH', '[XLS] Export Worksheet A B C D E 1 DATA_ZAWARCIA ...um.bip.legnica.eu › download › drugiepolrocze2017'), ('http://szswielkopolska.pl/13-kk-io-44.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAHegQIARAB&usg=AOvVaw1SEckfGtKXrghNhgKx7UzB', '[XLS] SP 7 Ostrów - SZS Wielkopolskaszswielkopolska.pl › 13-kk-io-44'), ('http://www.wsm.edu.pl/fotos/dziekanat/karty_roczne_AIU_2009_2013.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAIegQIBBAB&usg=AOvVaw1i9Mt01azVHjxeFwZJMbLs', '[XLS] sem 1 A B C D E F G H I J K L M N O P Q R S T U V W X 1 Wyższa ...www.wsm.edu.pl › fotos › dziekanat › karty_roczne_AIU_2009_2013'), ('http://www.arimr.gov.pl/fileadmin/pliki/zdjecia_strony/132/OR07_los121_w.xls&sa=U&ved=2ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4QFjAJegQIBRAB&usg=AOvVaw3QFCWasKloqTlTbK9HVfi0', '[XLS] Kolejno** wylosowanych wniosków w ramach dzia*ania ...www.arimr.gov.pl › pliki › zdjecia_strony › OR07_los121_w'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4Qty4IMA&usg=AOvVaw3VOwJyWy4exubKqjpl7aPI', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253Dpesel%252Bfiletype:xls%252Bkaczmarek%26hl%3Dpl&sa=U&ved=0ahUKEwir_KT7tKXvAhXkQhUIHRFZBn4Qxs8CCDE&usg=AOvVaw0f2Vo1eTV7WPUx-FUMYU8C', 'Zaloguj się')]
query_google('"index of" "last modified" "parent directory" apache')
[('https://akademia.nask.pl/foto/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAAegQIABAB&usg=AOvVaw1q9KOfc65WIi8jlO1z3TzI', 'Index of /foto - Akademia NASKakademia.nask.pl › foto'), ('http://ftp.man.poznan.pl/pub/apache/chemistry/%3FC%3DM%3BO%3DA&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjABegQICRAB&usg=AOvVaw3jheEqWF7Iq_HaItKHR2H4', 'Index of /pub/apache/chemistry - Nameftp.man.poznan.pl › pub › apache › chemistry'), ('http://ftp.man.poznan.pl/pub/apache/kafka/%3FC%3DM%3BO%3DA&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjACegQICBAB&usg=AOvVaw3oWl350iGMv7yN_zzmKlrj', 'Index of /pub/apache/kafka - Descriptionftp.man.poznan.pl › pub › apache › kafka'), ('http://www.ncac.torun.pl/~seyfert/%3FC%3DS%3BO%3DA&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjADegQIBxAB&usg=AOvVaw3IOMp-EkmpvsqzXfkzHLh_', 'Index of /~seyfertwww.ncac.torun.pl › ~seyfert'), ('http://www.mpu.pl/download/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAEegQIARAB&usg=AOvVaw2t4Py-QOSOgqH0JejD9OdE', 'Index of /downloadwww.mpu.pl › download'), ('http://www.psm-bielsk-podlaski.edu.pl/pl/images/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAFegQIBhAB&usg=AOvVaw1qPfo7aV0sGkb42ysGXzGS', 'Index of /pl/images - PSM Bielsk Podlaskiwww.psm-bielsk-podlaski.edu.pl › images'), ('http://www.matrix.umcs.lublin.pl/~akrajka/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAGegQIAxAB&usg=AOvVaw3op5HIl9tMV6GQhC1IkuB1', 'Index of /~akrajka - matrix.umcs.lublin.plwww.matrix.umcs.lublin.pl › ~akrajka'), ('http://www.combio.pl/mirex2.download/pen/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAHegQIBRAB&usg=AOvVaw2Hd6NmIvw6kn8ENWsSdJQk', 'Index of /mirex2.download/pen - combio.plwww.combio.pl › mirex2.download › pen'), ('http://www.iich.gliwice.pl/download/&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAIegQIAhAB&usg=AOvVaw05o8hkDQv8hHPSqAjNp-wT', 'Index of /downloadwww.iich.gliwice.pl › download'), ('http://www.cs.put.poznan.pl/mkadzinski/%3FC%3DM%3BO%3DA&sa=U&ved=2ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQFjAJegQIBBAB&usg=AOvVaw1fkEik765hTNPbBbenF_Rq', 'Index of /mkadzinskiwww.cs.put.poznan.pl › mkadzinski'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQty4ILg&usg=AOvVaw3x8sw8cv98HNTbBSAnJ58x', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D%252522index%252Bof%252522%252B%252522last%252Bmodified%252522%252B%252522parent%252Bdirectory%252522%252Bapache%26hl%3Dpl&sa=U&ved=0ahUKEwi8i6WStaXvAhW3QhUIHf4oCzYQxs8CCC8&usg=AOvVaw0TVKuX1CIb5g3C-Y2_D4iC', 'Zaloguj się')]
query_google('6d932c406fa15164ee48ff5a52f81dae')
[('http://filipg-jenkins.wmi.amu.edu.pl/ISI2019/lecture-2019-02.pdf&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAAegQIABAB&usg=AOvVaw2HIittTKuAOR1ATLm972d6', '[PDF] Inteligentne systemy informacyjne - Filip Graliński / UAMfilipg-jenkins.wmi.amu.edu.pl › ISI2019 › lecture-2019-02'), ('https://md5.gromweb.com/%3Fmd5%3D3fcedf144be9f3dff1145db6c515fb34&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjABegQICRAB&usg=AOvVaw0JTZQuMmrZH56enRrfBVG1', 'MD5 reverse for 3fcedf144be9f3dff1145db6c515fb34md5.gromweb.com › ...'), ('https://pastebin.pl/view/d872a388&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjACegQIBxAB&usg=AOvVaw3z3-Auzt_qQrkU08fj67q2', 'Re: ruchanie - Pastebinpastebin.pl › view'), ('http://people.cs.georgetown.edu/~clay/classes/fall2015/ia/MD5.pass.txt&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjADegQICBAB&usg=AOvVaw2tW7zmVhmNYCeEKr-1vA7V', 'cbae07efa0c6ed330a283e80a9c02e8d ...people.cs.georgetown.edu › ~clay › classes › fall2015 › MD5.pass.txt'), ('http://wklejto.pl/59019&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAEegQIBhAB&usg=AOvVaw1DNIJXZyC5I05BQsnSKMDh', 'Kod: 59019 WKLEJTO.PL Darmowa wklejka, na zawsze!wklejto.pl › ...'), ('http://docs2.chomikuj.pl/2854898545,PL,0,0,cs-szambo.txt&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAFegQIAhAB&usg=AOvVaw2VKr7YjOicUXzK4zqHIWKQ', 'cs szambo.txt - Chomikuj.pldocs2.chomikuj.pl › 2854898545,PL,0,0,cs-szambo'), ('https://hashkiller.io/download_list/Found/139863.txt&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAGegQIBBAB&usg=AOvVaw0cPadq0BLUdJR2EN_w1cNs', 'f24eba008b3b789e4ee5d3dc8a33af27:Gumimaci1 ...hashkiller.io › download_list › Found'), ('https://195.201.31.93/rx6NiRIx/&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAHegQIBRAB&usg=AOvVaw31DG-mSBQmSTDaBgxi8_XX', 'Latest MD5 leaked AA3 - BitBin195.201.31.93 › ...'), ('https://pastebin.com/dEsgsTqV&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAIegQIARAB&usg=AOvVaw1vCC1iy8lVGuq0E6rELfeM', 'INSERT INTO `auth` (`id`, `name`, `premium ... - Pastebin.compastebin.com › dEsgsTqV'), ('https://paste2.org/DeGOC334&sa=U&ved=2ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQFjAJegQIAxAB&usg=AOvVaw2zwShLX08T5j4hSmbBM3Je', 'Viewing Paste DeGOC334 - Paste2.orgpaste2.org › DeGOC334'), ('https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQty4ILw&usg=AOvVaw3TNS8kxuTo_YOIBJwKVXG_', 'Stare Miasto, Poznań\xa0-\xa0Z Twojego adresu internetowego\xa0-\xa0Dowiedz się więcej'), ('https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D6d932c406fa15164ee48ff5a52f81dae%26hl%3Dpl&sa=U&ved=0ahUKEwiGipWetaXvAhUdSxUIHTzFDuoQxs8CCDA&usg=AOvVaw0DmFxG-Qro2rfZ0Ot1z-4V', 'Zaloguj się')]
Projekt 1
Opracować aplikację webową do półautomatycznego systematycznego zbierania interesujących wyników Google hackingu:
- użytkownik podaje zapytanie
- możliwe użycie list wyrazów np. wulgaryzmy, wyrażenia potoczne, „wypełniacze” („bla bla”, „foo bar”), system powinien wtedy generować serię zapytań
- aplikacja odpytuje wyszukiwarkę Google (i, być może, inne)
- aplikacja zbiera wyniki i przedstawia je użytkownikowi
- użytkownik taguje wyniki jako interesujące / nieinteresujące
- zapytania mogą być uruchamiane cyklicznie, użytkownik nie musi ponownie przeglądać otagowanych już wyników
- aplikacja pozwala wylistować wszystkie wyniki oznaczone do tej pory jako interesujące
Czego nie brać?
Standard robots.txt
import urllib
import requests
url = 'https://gazeta.pl/robots.txt'
response = requests.get(url)
print(response.content.decode('utf-8'))
User-agent: * Disallow: /*/wyszukaj/ Disallow: /*servlet Disallow: /reloadwww? Disallow: /dfptools/adview/ Disallow: /pub/ips/* Disallow: /ods? Disallow: /getFile.servlet* Disallow: /aliasy/blad.jsp Disallow: /znajdz.do Disallow: /portalSearch.do Disallow: /im/ab/b4/10/z17515435Q.jpg Disallow: /75224259/ User-agent: Googlebot-News Disallow: /nowy/ Disallow: /mapa_strony Disallow: /*/wyszukaj/ Disallow: /*/51, Disallow: /*/55, Disallow: /*/2, Disallow: /*order= Disallow: /*obxx= Disallow: /*tag= Disallow: /reloadwww? Disallow: /ods? Disallow: /*servlet Disallow: /dfptools/adview/ User-agent: Yandex Disallow: / User-Agent: bingbot Disallow: / User-agent: 008 Disallow: / User-agent: 010 Disallow: / User-agent: 360Spider Disallow: / User-agent: 80legs Disallow: / User-agent: Aboundex Disallow: / User-agent: accelobot Disallow: / User-agent: Add\ Catalog Disallow: / User-agent: AhrefsBot Disallow: / User-agent: aiHitBot Disallow: / User-agent: Alexibot Disallow: / User-agent: Aqua_Products Disallow: / User-agent: AskJeeves Disallow: / User-agent: asterias Disallow: / User-agent: awcheckBot Disallow: / User-agent: b2w/0.1 Disallow: / User-agent: BackDoorBot/1.0 Disallow: / User-agent: BacklinkCrawler Disallow: / User-agent: Baiduspider Disallow: / User-agent: BecomeBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: BlowFish/1.0 Disallow: / User-agent: Bookmark search tool Disallow: / User-agent: BotALot Disallow: / User-agent: brandwatch.net Disallow: / User-agent: BuiltBotTough Disallow: / User-agent: Bullseye/1.0 Disallow: / User-agent: BunnySlippers Disallow: / User-agent: Butterfly Disallow: / User-agent: CatchBot Disallow: / User-agent: Charlotte Disallow: / User-agent: CheeseBot Disallow: / User-agent: CherryPicker Disallow: / User-agent: CherryPickerElite/1.0 Disallow: / User-agent: CherryPickerSE/1.0 Disallow: / User-agent: CLIPish Disallow: / User-agent: Cliqzbot Disallow: / User-agent: COMODO Disallow: / User-agent: Comodo-Certificates-Spider Disallow: / User-agent: CompSpyBot Disallow: / User-agent: Copernic Disallow: / User-agent: CopyRightCheck Disallow: / User-agent: cosmos Disallow: / User-agent: crawler Disallow: / User-agent: Crescent Disallow: / User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0 Disallow: / User-agent: Curious Disallow: / User-agent: curl Disallow: / User-agent: dataprovider\.com Disallow: / User-agent: DinoPing Disallow: / User-agent: discoverybot Disallow: / User-agent: DittoSpyder Disallow: / User-agent: DomainCrawler Disallow: / User-agent: DomainCrawler Disallow: / User-agent: dotbot Disallow: / User-agent: dotnetdotcom Disallow: / User-agent: Dow\ Jones\ Searchbot Disallow: / User-agent: dumbot Disallow: / User-agent: EasouSpider Disallow: / User-agent: EmailCollector Disallow: / User-agent: EmailSiphon Disallow: / User-agent: EmailWolf Disallow: / User-agent: Enterprise_Search Disallow: / User-agent: Enterprise_Search/1.0 Disallow: / User-agent: EroCrawler Disallow: / User-agent: es Disallow: / User-agent: Exabot Disallow: / User-agent: ExtractorPro Disallow: / User-agent: EzineArticlesLinkScanner Disallow: / User-agent: Ezooms Disallow: / User-agent: FairAd Client Disallow: / User-agent: Flaming AttackBot Disallow: / User-agent: Foobot Disallow: / User-agent: FreeFind Disallow: / User-agent: FTRF\:\ Friendly Disallow: / User-agent: Gaisbot Disallow: / User-agent: GetRight/4.2 Disallow: / User-agent: gigabot Disallow: / User-agent: grub Disallow: / User-agent: grub-client Disallow: / User-agent: Harvest/1.5 Disallow: / User-agent: Hatena Antenna Disallow: / User-agent: hloader Disallow: / User-agent: http://www.SearchEngineWorld.com bot Disallow: / User-agent: http://www.WebmasterWorld.com bot Disallow: / User-agent: HTTP_Request Disallow: / User-agent: HTTP_Request2 Disallow: / User-agent: httplib Disallow: / User-agent: humanlinks Disallow: / User-agent: ia_archiver Disallow: / User-agent: ia_archiver Disallow: / User-agent: ia_archiver/1.6 Disallow: / User-agent: Indy\ Library Disallow: / User-agent: InfoNaviRobot Disallow: / User-agent: ip\-web\-crawler\.com Disallow: / User-agent: Iron33/1.0.2 Disallow: / User-agent: Jakarta\ Commons-HttpClient Disallow: / User-agent: Jeeves Disallow: / User-agent: JennyBot Disallow: / User-agent: Jetbot Disallow: / User-agent: Jetbot/1.0 Disallow: / User-agent: JikeSpider Disallow: / User-agent: Kenjin Spider Disallow: / User-agent: Keyword Density/0.9 Disallow: / User-agent: larbin Disallow: / User-agent: LexiBot Disallow: / User-agent: libWeb/clsHTTP Disallow: / User-agent: libwww-perl Disallow: / User-agent: lindex\.com Disallow: / User-agent: linkdex\.com Disallow: / User-agent: linkdexbot Disallow: / User-agent: LinkextractorPro Disallow: / User-agent: LinkScan/8.1a Unix Disallow: / User-agent: LinkWalker Disallow: / User-agent: lipperhey Disallow: / User-agent: LNSpiderguy Disallow: / User-agent: looksmart Disallow: / User-agent: ltbot Disallow: / User-agent: lwp-trivial Disallow: / User-agent: lwp-trivial/1.34 Disallow: / User-agent: Lynx Disallow: / User-agent: magpie\-crawler Disallow: / User-agent: Mata Hari Disallow: / User-agent: Microsoft URL Control Disallow: / User-agent: Microsoft URL Control - 5.01.4511 Disallow: / User-agent: Microsoft URL Control - 6.00.8169 Disallow: / User-agent: MIIxpc Disallow: / User-agent: MIIxpc/4.2 Disallow: / User-agent: Mister PiX Disallow: / User-agent: MJ12bot Disallow: / User-agent: moget Disallow: / User-agent: moget/2.1 Disallow: / User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95) Disallow: / User-agent: MSIE\ or\ Firefox\ mutant Disallow: / User-agent: MSIECrawler Disallow: / User-agent: naver Disallow: / User-agent: NCBot Disallow: / User-agent: NetAnts Disallow: / User-agent: NetcraftSurveyAgent Disallow: / User-agent: netEstate\ NE\ Crawler Disallow: / User-agent: NetMechanic Disallow: / User-agent: Netseer Disallow: / User-agent: NextGenSearchBot Disallow: / User-agent: NICErsPRO Disallow: / User-agent: Nutch Disallow: / User-agent: Nutch Disallow: / User-agent: Ocelli Disallow: / User-agent: Offline Explorer Disallow: / User-agent: OmniExplorer_Bot Disallow: / User-agent: Openbot Disallow: / User-agent: Openfind Disallow: / User-agent: Openfind Disallow: / User-agent: Openfind data gathere Disallow: / User-agent: OpenWebIndex Disallow: / User-agent: Oracle Ultra Search Disallow: / User-agent: PagesInventory Disallow: / User-agent: PEAR Disallow: / User-agent: PeoplePal Disallow: / User-agent: PerMan Disallow: / User-agent: ProCogSEOBot Disallow: / User-agent: ProPowerBot/2.14 Disallow: / User-agent: ProWebWalker Disallow: / User-agent: proximic Disallow: / User-agent: psbot Disallow: / User-agent: purebot Disallow: / User-agent: QueryN Metasearch Disallow: / User-agent: QuerySeekerSpider Disallow: / User-agent: Radiation Retriever 1.1 Disallow: / User-agent: RepoMonkey Disallow: / User-agent: RepoMonkey Bait & Tackle/v1.01 Disallow: / User-agent: Riddler Disallow: / User-agent: RMA Disallow: / User-agent: rojerbot Disallow: / User-agent: RyteBot Disallow: / User-agent: scooter Disallow: / User-agent: ScoutJet Disallow: / User-agent: Scrapy Disallow: / User-agent: ScreenerBot Disallow: / User-agent: searchmetrics Disallow: / User-agent: searchpreview Disallow: / User-agent: SemrushBot Disallow: / User-agent: sentibot Disallow: / User-agent: SEO-CRAWLING Disallow: / User-agent: SEOENGWorldBot Disallow: / User-agent: SEOkicks-Robot Disallow: / User-agent: ShopWiki Disallow: / User-agent: sistrix Disallow: / User-agent: sitebot Disallow: / User-agent: SiteSnagger Disallow: / User-agent: Snoopy Disallow: / User-agent: SocialSearcher Disallow: / User-agent: Sogou Disallow: / User-agent: SolomonoBot Disallow: / User-agent: sootle Disallow: / User-agent: Sosospider Disallow: / User-agent: SpankBot Disallow: / User-agent: spanner Disallow: / User-agent: spbot Disallow: / User-agent: Speedy Disallow: / User-agent: Stanford Disallow: / User-agent: Stanford Comp Sci Disallow: / User-agent: SurveyBot Disallow: / User-agent: suzuran Disallow: / User-agent: Szukacz/1.4 Disallow: / User-agent: Szukacz/1.4 Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: Telesoft Disallow: / User-agent: Teoma Disallow: / User-agent: The Intraformant Disallow: / User-agent: The\ Incutio\ XML-RPC\ PHP\ Library Disallow: / User-agent: TheNomad Disallow: / User-agent: toCrawl/UrlDispatcher Disallow: / User-agent: True_Robot Disallow: / User-agent: True_Robot/1.0 Disallow: / User-agent: turingos Disallow: / User-agent: TurnitinBot Disallow: / User-agent: uCrawler Disallow: / User-agent: URL Control Disallow: / User-agent: URL_Spider_Pro Disallow: / User-agent: URLy Warning Disallow: / User-agent: VCI Disallow: / User-agent: VCI WebViewer VCI WebViewer Win32 Disallow: / User-agent: visaduhoc\.info Disallow: / User-agent: WBSearchBot Disallow: / User-agent: Web Image Collector Disallow: / User-agent: WebAuto Disallow: / User-agent: WebBandit Disallow: / User-agent: WebBandit/3.50 Disallow: / User-agent: WebCapture Disallow: / User-agent: WebCopier Disallow: / User-agent: WebEnhancer Disallow: / User-agent: WebInDetail\.com Disallow: / User-agent: WebmasterWorld Extractor Disallow: / User-agent: WebmasterWorldForumBot Disallow: / User-agent: WebSauger Disallow: / User-agent: Website Quester Disallow: / User-agent: WEBSITEtheWEB\.COM Disallow: / User-agent: Webster Pro Disallow: / User-agent: WebStripper Disallow: / User-agent: WebVac Disallow: / User-agent: WebZip Disallow: / User-agent: WebZip/4.0 Disallow: / User-agent: Wget Disallow: / User-agent: Wget/1.5.3 Disallow: / User-agent: Wget/1.6 Disallow: / User-agent: Wotbot Disallow: / User-agent: www\.integromedb\.org Disallow: / User-agent: WWW-Collector-E Disallow: / User-agent: Xenu's Disallow: / User-agent: Xenu's Link Sleuth 1.1c Disallow: / User-agent: xpymep\.exe Disallow: / User-agent: YamanaLab-Robot Disallow: / User-agent: YisouSpider Disallow: / User-agent: YodaoBot Disallow: / User-agent: YoudaoBot Disallow: / User-agent: Zend_Http_Client Disallow: / User-agent: Zeus Disallow: / User-agent: Zeus 32297 Webster Pro V2.9 Win32 Disallow: / User-agent: Zeus Link Scout Disallow: / User-agent: ZmEu Disallow: / User-agent: ZumBot Disallow: / User-agent: Linguee Disallow: / User-agent: sogou Disallow: /
Projekt 2
Opracować wyszukiwarkę plików robots.txt.
- pobrać robots.txt dla (prawie) wszystkich polskich stron WWW
- umożliwić wyszukiwanie i sortowanie według wszystkich możliwych pól (blokowana wyszukiwarka, adres, komentarz, długość pliku itd.)
- opracować miary pozwalające automatycznie wyłuskać „ciekawe” pliki robots.txt (długość, występowanie pełnych linków, odmienność od innych plików robots.txt); umożliwić sortowanie/filtrowanie według tej miary