forked from filipg/aitech-eks-pub
15 KiB
15 KiB
Chcę stworzyć swoją własną wyszukiwarkę internetową...
- Skąd brać adresy URL?
- Jak pobrać pliki z tych adresów?
- Jak wydobyć z nich tekst?
... a może w ogóle nie pobierać?
Korpus CommonCrawl
# Bezpośrednio z serwisu
! (wget -O - -q https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-34/segments/1502886133449.19/warc/CC-MAIN-20170824101532-20170824121532-00719.warc.gz | zcat| grep -P -o -a '<!--[^\[\]<>]+' | uniq | head -n 20)
<!-- スマホ用 -- <!-- <!--table width='750' border='0' align='center' cellpadding='0' cellspacing='0' <!--a href='index.phtml?CHANNEL=R51&FID=389924' <!-- mail: <!-- beige_lavender-3c -- <!-- <!-- Template Design By BeigeHeart_Chako_http://beigeheart.blog9.fc2.com/ -- <!-- 関連記事_http://beigeheart.blog9.fc2.com/blog-entry-99.html -- <!-- 利用規約_http://beigeheart.blog9.fc2.com/blog-entry-103.html -- <!-- テンプレの再配布、営利目的の利用禁止 -- <!-- 画像の無断転載・再配布禁止 -- <!-- アダルト・法律違反サイト、使用不可 -- <!-- アクセス解析タグはここから -- <!-- アクセス解析タグはここまで -- <!--▼▼▼メインカラムカラム+右サイドカラム部分-- <!--▼ヘッダー-- <!--▼管理ページリンク-- <!--▲管理ページリンク-- <!--▼タイトル--
Dostępne są też "ekstrakty" czystego tekstu - zob. http://data.statmt.org/ngrams/raw/, np. 59 GB czystego tekstu po polsku z 2012 roku.
! (wget -O - -q http://web-language-models.s3-website-us-east-1.amazonaws.com/ngrams/pl/raw/pl.2012.raw.xz \
| xzcat | head -n 30)
df6fa1abb58549287111ba8d776733e9 0.000000 http://www.gornicki.pl/focal_points_4/2006 Przegląd okulistyczny Focal points Przegląd reumatologiczny Biblioteka on-line STRONA GŁÓWNA WYDAWNICTWO O wydawnictwie Kontakt Regulamin zamówień Spotkania autorskie Nasi autorzy CZYTELNIA ONLINE w dziale: anatomia w dziale: okulistyka w dziale: ratownictwo CENNIK LINKI USŁUGI df6fa1abb58549287111ba8d776733e9 2.000000 http://www.gornicki.pl/focal_points_4/2006 Licencjaty Multimedia Pulmonologia Okulistyka Ratownictwo Reumatologia Zestawy specjalne Onkologia Focal Points 4/2006
Zrzuty Wikipedii
Nie pobieraj Wikipedii strona po stronie!
- tracisz swój czas
- i tracisz czas serwerów Wikipedii
Lepiej pobrać zrzut (_dump) ze strony https://dumps.wikimedia.org/backup-index.html
! (wget -O - -q https://dumps.wikimedia.org/plwiki/20210301/plwiki-20210301-pages-articles-multistream.xml.bz2 \
| bzcat | grep -P -o '\[\[[^\]]+\]\]' | head -n 20)
[[1977]] [[język skryptowy|skryptowy]] [[programowanie proceduralne|proceduralny]] [[Programowanie sterowane zdarzeniami|sterowany zdarzeniami]] [[Alfred V. Aho|Alfred Aho]] [[Peter J. Weinberger|Peter Weinberger]] [[Brian Kernighan]] [[wieloplatformowość|wieloplatformowy]] [[język programowania]] [[plik]] [[system operacyjny|systemów operacyjnych]] [[Unix|UNIX]] [[tablica asocjacyjna|tablice asocjacyjne]] [[Tekstowy typ danych|stringi]] [[wyrażenie regularne|wyrażenia regularne]] [[Alfred V. Aho|Alfreda V. Aho]] [[Peter Weinberger|Petera Weinbergera]] [[Brian Kernighan|Briana Kernighana]] [[POSIX]] [[System V|SVR4]]
Skąd brać adresy URL
Zob. dumpy powyżej
! (wget -O - -q https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-34/segments/1502886133449.19/warc/CC-MAIN-20170824101532-20170824121532-00719.warc.gz | zcat| grep -P -o -a 'https://[^ "><]+' | uniq | head -n 20)
https://ssl' https://static.fc2.com/css_cn/common/headbar/120710style.css https://blog.fc2.com/ https://spdeliver.i-mobile.co.jp/script/adsnativepc.js?20101001 https://media.fc2.com/counter_img.php?id=3493 https://plus.google.com/+apothekenumschau https://script.ioam.de/iam.js https://07743rats-apotheke.apotheken-umschau.de/News--Wissen/AGP-Kontaktformular--73317.html https://07743rats-apotheke.apotheken-umschau.de/News--Wissen/Apotheker-HP--AGP-73319.html https://login.apotheken-umschau.de/login?service=https://www.apotheken-umschau.de/j_spring_cas_security_check https://forum.apotheken-umschau.de/portal/registration/register https://www.facebook.com/Apotheken.Umschau https://api.wortundbildverlag.com/drug-suggest/terms https://07743rats-apotheke.apotheken-umschau.de/unternehmenskommunikation/Kontakt-zu-den-Redaktionen-53834.html https://i.skyrock.net/9775/59549775/pics/photo_59549775_89.jpg https://static.skyrock.net/js/common.min.js?eBtyhdw https://static.skyrock.net/img/favicon_v5b.ico https://wir.skyrock.net/wir/v1/resize/?c=isi&im=%2F9775%2F59549775%2Fpics%2Fphoto_59549775_89.jpg&w=16 https://i.skyrock.net/9775/59549775/pics/photo_59549775_89.jpg https://static.skyrock.net/css/common.css?eahf2jw
! (wget -O - -q https://dumps.wikimedia.org/plwiki/20210301/plwiki-20210301-pages-articles-multistream.xml.bz2 \
| bzcat | grep -P -o 'https://[^ "><]+' | head -n 20)
https://pl.wikipedia.org/wiki/Wikipedia:Strona_g%C5%82%C3%B3wna https://web.archive.org/web/20100116001012/http://homepages.cwi.nl/~dik/english/codes/stand.html#ascii https://web.archive.org/web/20160613145224/http://www.aivosto.com/vbtips/charsets-7bit.html#body}}</ref> https://web.archive.org/web/20160522024759/http://worldpowersystems.com/J/codes/#ASCII-1967 https://books.google.com/?id=NQSpNAEACAAJ&pg=PA28 https://web.archive.org/web/20160616084132/https://www.w3.org/blog/2008/05/utf8-web-growth/ https://web.archive.org/web/20160616084637/https://googleblog.blogspot.de/2008/05/moving-to-unicode-51.html https://web.archive.org/web/20160616085323/https://googleblog.blogspot.de/2010/01/unicode-nearing-50-of-web.html https://web.archive.org/web/20160827000956/http://dlx.bookzz.org/genesis/772000/c80a62495acf1e1a5b966de23c1f989a/_as/%5BInterface_Age_Staff%5D_Best_of_Interface_Age%2C_Volum%28BookZZ.org%29.pdf https://books.google.com/books?id=bXLDwmIJNkUC&pg=PA13 https://web.archive.org/web/20161031223347/http://ethw.org/First-Hand%3AChad_is_Our_Most_Important_Product%3A_An_Engineer%27s_Memory_of_Teletype_Corporation https://textfiles.meulie.net/bitsaved/Books/Mackenzie_CodedCharSets.pdf https://web.archive.org/web/20160526181319/http://longstreet.typepad.com/thesciencebookstore/2012/03/heres-the-link.html https://web.archive.org/web/20120213005708/http://www.transbay.net/~enf/ascii/ascii.pdf https://archive.org/details/dictionaryworldp00iann https://archive.org/details/dictionaryworldp00iann/page/n80 https://www.theguardian.com/commentisfree/belief/2013/jan/28/lucretius-all-things-atoms https://archive.org/details/distillingknowle00mora_557 https://archive.org/details/distillingknowle00mora_557/page/n156 https://archive.org/details/fromelementstoat00sieg
Serwis DMOZ/ODP (niestety już nieaktywny) Ostatni link: https://web.archive.org/web/20160306230718/http://rdf.dmoz.org/rdf/content.rdf.u8.gz
Odpytywać "pasożytniczo" inną wyszukiwarkę
# see https://hackernoon.com/how-to-scrape-google-with-python-bo7d2tal
import urllib
import requests
from bs4 import BeautifulSoup
def query_google(query):
url = f"https://google.com/search?q={query}"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
results = []
for g in soup.find_all('a'):
link = g['href']
if '/url?q=' in link:
results.append(link[7:])
return results
query_google('"wielka stopa"')
['https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QmhMwC3oECAwQDg&usg=AOvVaw1F4NoOH13sPHmkkVrKPKPc', 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAQegQICxAB&usg=AOvVaw0cBRsP3ORH8ItFxcBkkaXl', 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Opis&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Q0gIwEHoECAsQAg&usg=AOvVaw2pQXVnDLY_DxI-QJncPJ-J', 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Historia&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Q0gIwEHoECAsQAw&usg=AOvVaw3Fkx-NtoxRASml4JWUS68g', 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Najwa%25C5%25BCniejsze_argumenty_%25E2%2580%259Eza%25E2%2580%259D_i_%25E2%2580%259Eprzeciw%25E2%2580%259D&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Q0gIwEHoECAsQBA&usg=AOvVaw2pTlj01g4WYUd9G__fMDdO', 'https://pl.wikipedia.org/wiki/Wielka_Stopa_(zwierz%25C4%2599)%23Argumenty_%25E2%2580%259Eprzeciw%25E2%2580%259D&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Q0gIwEHoECAsQBQ&usg=AOvVaw09DHFpaDfQ8rbvPCsALuqQ', 'https://www.youtube.com/watch%3Fv%3DEPRggWavPX4&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QtwIwEXoECAQQAQ&usg=AOvVaw0oHXUaa0kvQwNCNe5W9JIh', 'https://www.youtube.com/watch%3Fv%3DEPRggWavPX4&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QuAIwEXoECAQQAg&usg=AOvVaw2CrxxVzwVVwE4Xsj31_w3T', 'https://www.youtube.com/watch%3Fv%3DIhS1d56aPOc&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QtwIwEnoECAUQAQ&usg=AOvVaw12i_Qq-aNn2KMbZciKlmAM', 'https://www.youtube.com/watch%3Fv%3DIhS1d56aPOc&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QuAIwEnoECAUQAg&usg=AOvVaw3zdXkOsnuCMFVR8USryFDw', 'https://www.youtube.com/watch%3Fv%3D_r4_GIfTn2o&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QtwIwF3oECAMQAQ&usg=AOvVaw3jgTHagNopqqBsCo594Zip', 'https://www.youtube.com/watch%3Fv%3D_r4_GIfTn2o&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QuAIwF3oECAMQAg&usg=AOvVaw0iwfh9wM9EkhqRY_YoXuYU', 'https://www.ceneo.pl/%3Bszukaj-wielka%2Bstopa&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAYegQICBAB&usg=AOvVaw38rQfzltST6zIW8eCRdta-', 'https://www.ceneo.pl/Filmy%3Bszukaj-wielka%2Bstopa&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAZegQIAhAB&usg=AOvVaw3WqL8324pgm8Rd57USPD8M', 'https://www.antyradio.pl/News/Kobieta-twierdzi-ze-spotkala-Wielka-Stope-Hustala-sie-na-drzewie-ZDJECIE-43102&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAaegQIChAB&usg=AOvVaw30c7T2Ymn-Q4Vqq5C962BO', 'https://allegro.pl/kategoria/gry%3Fstring%3DWielka%2520stopa%2520%253A)%2520-&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAbegQIBxAB&usg=AOvVaw2kdw9sx7alxFh5IwLfsVX4', 'https://allegro.pl/listing%3Fstring%3DWielka%2520stopa%2520%253A%2529%2520-&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAcegQICRAB&usg=AOvVaw0nK7AoJJjmr1oWrN46umA_', 'https://tvn24.pl/tvnmeteo/informacje-pogoda/ciekawostki,49/wielka-stopa-nie-istnieje-naukowcy-to-nie-koniec-nadziei,127328,1,0.html&sa=U&ved=2ahUKEwje-6mWk6TvAhUxpHEKHVatAO0QFjAdegQIBhAB&usg=AOvVaw0WWcyH9m2XpHzz7koN1IrJ', 'https://support.google.com/websearch%3Fp%3Dws_settings_location%26hl%3Dpl&sa=U&ved=0ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Qty4Ifw&usg=AOvVaw177POHJ8_tlgAuIzWDTzhM', 'https://accounts.google.com/ServiceLogin%3Fcontinue%3Dhttps://www.google.com/search%253Fq%253D%252522wielka%252Bstopa%252522%26hl%3Dpl&sa=U&ved=0ahUKEwje-6mWk6TvAhUxpHEKHVatAO0Qxs8CCIAB&usg=AOvVaw0OmJ8GZoJAvzg7NX5Aby4M']