aitech-eks-pub/wyk/01_Wyszukiwarki-wprowadzeni...

15 KiB
Raw Blame History

Wyszukiwarki - wprowadzenie

Systemy wyszukiwania informacji

System wyszukiwania informacji

Wyszukiwarki

Wyszukiwarki

Chcę stworzyć swoją własną wyszukiwarkę internetową...

  1. Skąd brać adresy URL?
  2. Jak pobrać pliki z tych adresów?
  3. Jak wydobyć z nich tekst?

... a może w ogóle nie pobierać?

# Bezpośrednio z serwisu

! (wget -O - -q https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-34/segments/1502886133449.19/warc/CC-MAIN-20170824101532-20170824121532-00719.warc.gz | zcat| grep -P -o -a '<!--[^\[\]<>]+' | uniq | head -n 20)
<!-- スマホ用 --
<!-- 
<!--table width='750' border='0' align='center' cellpadding='0' cellspacing='0'
<!--a href='index.phtml?CHANNEL=R51&FID=389924'
<!-- mail: 
<!-- beige_lavender-3c --
<!--
<!-- Template Design By BeigeHeart_Chako_http://beigeheart.blog9.fc2.com/ --
<!-- 関連記事_http://beigeheart.blog9.fc2.com/blog-entry-99.html --
<!-- 利用規約_http://beigeheart.blog9.fc2.com/blog-entry-103.html --
<!-- テンプレの再配布、営利目的の利用禁止 --
<!-- 画像の無断転載・再配布禁止 --
<!-- アダルト・法律違反サイト、使用不可 --
<!-- アクセス解析タグはここから --
<!-- アクセス解析タグはここまで --
<!--▼▼▼メインカラムカラム+右サイドカラム部分--
<!--▼ヘッダー--
<!--▼管理ページリンク--
<!--▲管理ページリンク--
<!--▼タイトル--

Dostępne są też "ekstrakty" czystego tekstu - zob. http://data.statmt.org/ngrams/raw/, np. 59 GB czystego tekstu po polsku z 2012 roku.

! (wget -O - -q http://web-language-models.s3-website-us-east-1.amazonaws.com/ngrams/pl/raw/pl.2012.raw.xz \
   | xzcat | head -n 30)
df6fa1abb58549287111ba8d776733e9 0.000000 http://www.gornicki.pl/focal_points_4/2006
Przegląd okulistyczny 
Focal points 
Przegląd reumatologiczny 
Biblioteka on-line 
STRONA GŁÓWNA 
WYDAWNICTWO 
O wydawnictwie 
Kontakt 
Regulamin zamówień 
Spotkania autorskie 
Nasi autorzy 
CZYTELNIA ONLINE 
w dziale: anatomia 
w dziale: okulistyka 
w dziale: ratownictwo 
CENNIK 
LINKI 
USŁUGI 
df6fa1abb58549287111ba8d776733e9 2.000000 http://www.gornicki.pl/focal_points_4/2006
Licencjaty 
Multimedia 
Pulmonologia 
Okulistyka 
Ratownictwo 
Reumatologia 
Zestawy specjalne 
Onkologia 
Focal Points 4/2006

Zrzuty Wikipedii

Nie pobieraj Wikipedii strona po stronie!

  • tracisz swój czas
  • i tracisz czas serwerów Wikipedii

Lepiej pobrać zrzut (_dump) ze strony https://dumps.wikimedia.org/backup-index.html

! (wget -O - -q https://dumps.wikimedia.org/plwiki/20210301/plwiki-20210301-pages-articles-multistream.xml.bz2 \
   | bzcat | grep -P -o '\[\[[^\]]+\]\]' | head -n 20)
[[1977]]
[[język skryptowy|skryptowy]]
[[programowanie proceduralne|proceduralny]]
[[Programowanie sterowane zdarzeniami|sterowany zdarzeniami]]
[[Alfred V. Aho|Alfred Aho]]
[[Peter J. Weinberger|Peter Weinberger]]
[[Brian Kernighan]]
[[wieloplatformowość|wieloplatformowy]]
[[język programowania]]
[[plik]]
[[system operacyjny|systemów operacyjnych]]
[[Unix|UNIX]]
[[tablica asocjacyjna|tablice asocjacyjne]]
[[Tekstowy typ danych|stringi]]
[[wyrażenie regularne|wyrażenia regularne]]
[[Alfred V. Aho|Alfreda V. Aho]]
[[Peter Weinberger|Petera Weinbergera]]
[[Brian Kernighan|Briana Kernighana]]
[[POSIX]]
[[System V|SVR4]]

Skąd brać adresy URL

Zob. dumpy powyżej

! (wget -O - -q https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-34/segments/1502886133449.19/warc/CC-MAIN-20170824101532-20170824121532-00719.warc.gz | zcat| grep -P -o -a 'https://[^ "><]+' | uniq | head -n 20)
https://ssl'
https://static.fc2.com/css_cn/common/headbar/120710style.css
https://blog.fc2.com/
https://spdeliver.i-mobile.co.jp/script/adsnativepc.js?20101001
https://media.fc2.com/counter_img.php?id=3493
https://plus.google.com/+apothekenumschau
https://script.ioam.de/iam.js
https://07743rats-apotheke.apotheken-umschau.de/News--Wissen/AGP-Kontaktformular--73317.html
https://07743rats-apotheke.apotheken-umschau.de/News--Wissen/Apotheker-HP--AGP-73319.html
https://login.apotheken-umschau.de/login?service=https://www.apotheken-umschau.de/j_spring_cas_security_check
https://forum.apotheken-umschau.de/portal/registration/register
https://www.facebook.com/Apotheken.Umschau
https://api.wortundbildverlag.com/drug-suggest/terms
https://07743rats-apotheke.apotheken-umschau.de/unternehmenskommunikation/Kontakt-zu-den-Redaktionen-53834.html
https://i.skyrock.net/9775/59549775/pics/photo_59549775_89.jpg
https://static.skyrock.net/js/common.min.js?eBtyhdw
https://static.skyrock.net/img/favicon_v5b.ico
https://wir.skyrock.net/wir/v1/resize/?c=isi&im=%2F9775%2F59549775%2Fpics%2Fphoto_59549775_89.jpg&w=16
https://i.skyrock.net/9775/59549775/pics/photo_59549775_89.jpg
https://static.skyrock.net/css/common.css?eahf2jw
! (wget -O - -q https://dumps.wikimedia.org/plwiki/20210301/plwiki-20210301-pages-articles-multistream.xml.bz2 \
   | bzcat | grep -P -o 'https://[^ "><]+' | head -n 20)
https://pl.wikipedia.org/wiki/Wikipedia:Strona_g%C5%82%C3%B3wna
https://web.archive.org/web/20100116001012/http://homepages.cwi.nl/~dik/english/codes/stand.html#ascii
https://web.archive.org/web/20160613145224/http://www.aivosto.com/vbtips/charsets-7bit.html#body}}</ref>
https://web.archive.org/web/20160522024759/http://worldpowersystems.com/J/codes/#ASCII-1967
https://books.google.com/?id=NQSpNAEACAAJ&pg=PA28
https://web.archive.org/web/20160616084132/https://www.w3.org/blog/2008/05/utf8-web-growth/
https://web.archive.org/web/20160616084637/https://googleblog.blogspot.de/2008/05/moving-to-unicode-51.html
https://web.archive.org/web/20160616085323/https://googleblog.blogspot.de/2010/01/unicode-nearing-50-of-web.html
https://web.archive.org/web/20160827000956/http://dlx.bookzz.org/genesis/772000/c80a62495acf1e1a5b966de23c1f989a/_as/%5BInterface_Age_Staff%5D_Best_of_Interface_Age%2C_Volum%28BookZZ.org%29.pdf
https://books.google.com/books?id=bXLDwmIJNkUC&pg=PA13
https://web.archive.org/web/20161031223347/http://ethw.org/First-Hand%3AChad_is_Our_Most_Important_Product%3A_An_Engineer%27s_Memory_of_Teletype_Corporation
https://textfiles.meulie.net/bitsaved/Books/Mackenzie_CodedCharSets.pdf
https://web.archive.org/web/20160526181319/http://longstreet.typepad.com/thesciencebookstore/2012/03/heres-the-link.html
https://web.archive.org/web/20120213005708/http://www.transbay.net/~enf/ascii/ascii.pdf
https://archive.org/details/dictionaryworldp00iann
https://archive.org/details/dictionaryworldp00iann/page/n80
https://www.theguardian.com/commentisfree/belief/2013/jan/28/lucretius-all-things-atoms
https://archive.org/details/distillingknowle00mora_557
https://archive.org/details/distillingknowle00mora_557/page/n156
https://archive.org/details/fromelementstoat00sieg

Serwis DMOZ/ODP (niestety już nieaktywny) Ostatni link: https://web.archive.org/web/20160306230718/http://rdf.dmoz.org/rdf/content.rdf.u8.gz

Odpytywać "pasożytniczo" inną wyszukiwarkę

# see https://hackernoon.com/how-to-scrape-google-with-python-bo7d2tal

import urllib
import requests
from bs4 import BeautifulSoup

def query_google(query):
    url = f"https://google.com/search?q={query}"
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")
    
    results = []
    for g in soup.find_all('a'):
        link = g['href']
        if '/url?q=' in link:
            results.append(link[7:])
    return results
query_google('"wielka stopa"')
['https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QmhMwC3oECAwQDg&usg=AOvVaw1F4NoOH13sPHmkkVrKPKPc',
 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAQegQICxAB&usg=AOvVaw0cBRsP3ORH8ItFxcBkkaXl',
 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Opis&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Q0gIwEHoECAsQAg&usg=AOvVaw2pQXVnDLY_DxI-QJncPJ-J',
 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Historia&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Q0gIwEHoECAsQAw&usg=AOvVaw3Fkx-NtoxRASml4JWUS68g',
 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Najwa%25C5%25BCniejsze_argumenty_%25E2%2580%259Eza%25E2%2580%259D_i_%25E2%2580%259Eprzeciw%25E2%2580%259D&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Q0gIwEHoECAsQBA&usg=AOvVaw2pTlj01g4WYUd9G__fMDdO',
 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Argumenty_%25E2%2580%259Eprzeciw%25E2%2580%259D&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Q0gIwEHoECAsQBQ&usg=AOvVaw09DHFpaDfQ8rbvPCsALuqQ',
 'https://www.youtube.com/watch%3Fv%3DEPRggWavPX4&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QtwIwEXoECAQQAQ&usg=AOvVaw0oHXUaa0kvQwNCNe5W9JIh',
 'https://www.youtube.com/watch%3Fv%3DEPRggWavPX4&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QuAIwEXoECAQQAg&usg=AOvVaw2CrxxVzwVVwE4Xsj31_w3T',
 'https://www.youtube.com/watch%3Fv%3DIhS1d56aPOc&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QtwIwEnoECAUQAQ&usg=AOvVaw12i_Qq-aNn2KMbZciKlmAM',
 'https://www.youtube.com/watch%3Fv%3DIhS1d56aPOc&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QuAIwEnoECAUQAg&usg=AOvVaw3zdXkOsnuCMFVR8USryFDw',
 'https://www.youtube.com/watch%3Fv%3D_r4_GIfTn2o&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QtwIwF3oECAMQAQ&usg=AOvVaw3jgTHagNopqqBsCo594Zip',
 'https://www.youtube.com/watch%3Fv%3D_r4_GIfTn2o&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QuAIwF3oECAMQAg&usg=AOvVaw0iwfh9wM9EkhqRY_YoXuYU',
 'https://www.ceneo.pl/%3Bszukaj-wielka%2Bstopa&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAYegQICBAB&usg=AOvVaw38rQfzltST6zIW8eCRdta-',
 'https://www.ceneo.pl/Filmy%3Bszukaj-wielka%2Bstopa&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAZegQIAhAB&usg=AOvVaw3WqL8324pgm8Rd57USPD8M',
 'https://www.antyradio.pl/News/Kobieta-twierdzi-ze-spotkala-Wielka-Stope-Hustala-sie-na-drzewie-ZDJECIE-43102&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAaegQIChAB&usg=AOvVaw30c7T2Ymn-Q4Vqq5C962BO',
 'https://allegro.pl/kategoria/gry%3Fstring%3DWielka%2520stopa%2520%253A)%2520-&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAbegQIBxAB&usg=AOvVaw2kdw9sx7alxFh5IwLfsVX4',
 'https://allegro.pl/listing%3Fstring%3DWielka%2520stopa%2520%253A%2529%2520-&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAcegQICRAB&usg=AOvVaw0nK7AoJJjmr1oWrN46umA_',
 'https://tvn24.pl/tvnmeteo/informacje-pogoda/ciekawostki,49/wielka-stopa-nie-istnieje-naukowcy-to-nie-koniec-nadziei,127328,1,0.html&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAdegQIBhAB&usg=AOvVaw0WWcyH9m2XpHzz7koN1IrJ',
 'https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Qty4Ifw&usg=AOvVaw177POHJ8_tlgAuIzWDTzhM',
 'https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D%252522wielka%252Bstopa%252522%26hl%3Dpl&sa=U&ved=0ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Qxs8CCIAB&usg=AOvVaw0OmJ8GZoJAvzg7NX5Aby4M']