# Wyszukiwarki roboty

## Zadanie

Opracować w języku Haskell wyspecjalizowanego robota pobierającego dane z konkretnego serwisu.

Punkty: 80 (domyślnie - niektóre zadanie są trudniejsze, wówczas ich ilość podana jest przy zadaniu)



### Ogólne zasady:
- pobieramy informacje (metadane) o plikach PDF, DjVU, JPG itp, ale nie same pliki,
- nie pobierajmy całego serwisu, tylko tyle, ile trzeba, by pobrać metadane o interesujących nas zasobach,
- interesują nas tylko teksty polskie, jeśli nie jest to trudne, należy odfiltrować publikacje obcojęzyczne,
- staramy się ustalać datę z możliwie dużą dokładnością.

## Instrukcja

### 0. Haskell Stack

Pobrać Haskell Stack

    curl -sSL https://get.haskellstack.org/ | sh -s - -d ~/bin


##### Problemy z fizycznymi komputerami wydziałowymi
Na fizycznych komputerach wydziałowych są błędnie ustawione prawa dostępu na dyskach sieciowych, Haskell Stack musi działać na fizycznym dysku:

    rm -rf /mnt/poligon/.stack
    mkdir /mnt/poligon/.stack
    mv ~/.stack ~/.stack-bak # gdyby już był... proszę się nie przejmować błędem
    ln -s /mnt/poligon/.stack ~/.stack

### 1. Repozytorium z przykładowym rozwiązeniem

Zrobienie forka repozytorium https://git.wmi.amu.edu.pl/filipg/twilight-library.git


![forkowanie repo](./obrazki/02-fork.png)

Sklonowanie sforkowanego repozytorium na komputer

![sklonowanie repo](./obrazki/02-fork-clone.png)






## 2.  Sprawdzenie czy przykładowy robot działa 


W katalogu projektu należy odpalić:

    stack install # może trwać długo za pierwszym razem
    stack exec almanachmuszyny

Jeżeli instalacja nie powiedzie się, być może należy zainstalować paczki libpcre3 libpcre3-dev , np. na ubuntu:

    sudo apt install libpcre3 libpcre3-dev
    
    
    
### Metoda opracowania robota z przykładu:

##### Znalezienie wyszystkich stron z rocznikami:

W przeglądarce należy znaleźć wszystkie linki do stron z rocznikami. Najłatwiej zrobić to przez podejrzenie źródła strony. Na przykład można kliknąć prawym przyciskiem myszy na link i wybrac "Inspect Element" (działa na chrome).

![inspect](./obrazki/02-inspect.png)


Łatwo zauważyć, że wszystkie linki mają klasę "roczniki". Dlatego należy odwołać sie w robocie do tej klasy poprzez xpath w pliku app/almanachmuszyny.hs :

    extractRecords = extractLinksWithText "//a[@class='roczniki']"  -- pary adres-tytuł 
    
Następna linijka kodu służy oczyszczeniu stringa z tytułem rocznika:

    >>> second (arr $ replace "\r\n            " " ")


Następnie, łatwo zauważyć, że robiąc prostą manipulację linkiem z :

http://www.almanachmuszyny.pl/index.php?p=spisy/95s

na 

http://www.almanachmuszyny.pl/index.php?p=spisy/95tr

dostajemy stronę spis-treści ze wszystkimi pdf-ami. Dlatego robimy podmianę linku:

    >>> first (arr ((++"tr") . init))  -- modyfikujemy pierwszy element pary, czyli adres URL
    
    
Nastęnie ze wszystkich podanych stron ze spisem treści wybieramy wszystkie pdfy korzystając z polecenia:

    >>> first (extractLinksWithText "//li/a[contains(@href,'.pdf')]")

## 3. Opracowanie swojego robota

Opracuj swojego robota wzorując się na pliku almanachmuszyny.hs. (Ale dodaj swój plik, nie zmieniaj almanachmuszyny.hs!)
Twój robot powinien działać na serwisie wybranym z listy na którą należy się zapisać (na dole tej strony).

Dopisz specyfikację swojego robota do shadow-library.cabal.

Pracuj nad swoim robotem, uruchamiaj go w następujący sposób:

    stack build
    stack exec mojrobot
    
mojrobot to przykładowa nazwa- dla swojego projektu użyj innej, znaczącej nazwy

Jeśli publikacja (np. pojedynczy numer gazety) składa się z wielu plików, powinien zostać wygenerowany jeden rekord, w finalUrl powinny znaleźć się URL do poszczególnych stron (np. plików JPR) oddzielone //.

Dla twojego robota przydatne mogą być funkcje zdefiniowane w ShadowLibrary/Core.hs



##### Problemy z https

W przypadku problemów z https:

Trzeba użyć modułu opartego na bibliotece curl. Paczka Ubuntu została zainstalowana na komputerach wydziałowych. Na swoim komputerze możemy zainstalować paczkę libcurl4-openssl-dev, a
następnie można sobie ściągnąć wersję twilight-library opartą na libcurl:

    git fetch git://gonito.net/twilight-library withcurl
    git merge FETCH_HEAD
    
    

## 4. Zgłoszenie zadań

Po opracowaniu robota oddaj zadanie korzystając z panelu MS TEAMS assigments umieszczając jako rozwiązanie link do twojego repozytorium.

# Lista serwisów do wyboru

Na serwis należy zapisywać się korzystając z linka do google doc podanego na ćwiczeniach

Lista serwisów do wyboru (na każdy serwis 1 osoba):

1. [Teksty Drugie](http://tekstydrugie.pl)
2. [Archiwum Inspektora Pracy](https://www.pip.gov.pl/pl/inspektor-pracy/66546,archiwum-inspektora-pracy-.html)
3. [Medycyna Weterynaryjna](http://www.medycynawet.edu.pl/archives) — również historyczne zasoby od 1945 roku, **120 punktów**
4. [Polskie Towarzystwo Botaniczne](https://pbsociety.org.pl/default/dzialalnosc-wydawnicza/) — wszystkie dostępne zdigitalizowane publikacje!, **130 punktow**
5. [Wieści Pepowa](http://archiwum2019.pepowo.pl/news/c-10/gazeta) — nie pominąć strony nr 2 z wynikami, **110 punktów**
6. [Czasopismo Kosmos](http://kosmos.icm.edu.pl/)
7. [Czasopismo Wszechświat](http://www.ptpk.org/archiwum.html)
8. [Czasopisma polonijne we Francji](https://argonnaute.parisnanterre.fr/ark:/14707/a011403267917yQQFAS) — najlepiej w postaci PDF-ów, jak np. [https://argonnaute.parisnanterre.fr/medias/customer_3/periodique/immi_pol_lotmz1_pdf/BDIC_GFP_2929_1945_039.pdf](), **220 punktów**
9. [Muzeum Sztuki — czasopisma](https://zasoby.msl.org.pl/mobjects/show), **220 punktów**, publikacje, teksty, czasopisma, wycinki
10. [Wiadomości Urzędu Patentowego](https://grab.uprp.pl/sites/Wydawnictwa/WydawnictwaArchiwum/WydawnictwaArchiwum/Forms/AllItems.aspx)
11. [Czas, czasopismo polonijne](https://digitalcollections.lib.umanitoba.ca/islandora/object/uofm:2222545), **140 punktów** S.G.
12. [Stenogramy Okrągłego Stołu](http://okragly-stol.pl/stenogramy/), **110 punktów**
13. [Nasze Popowice](https://smpopowice.pl/index.php/numery-archiwalne)
14. [Czasopisma entomologiczne](http://pte.au.poznan.pl/)
15. [Wiadomości matematyczne](https://wydawnictwa.ptm.org.pl/index.php/wiadomosci-matematyczne/issue/archive?issuesPage=2), **120 punktow**
16. [Alkoholizm i Narkomania](http://www.ain.ipin.edu.pl/archiwum-starsze.html)
17. [Czasopismo Etyka](https://etyka.uw.edu.pl/tag/etyka-562018/), O.K.
18. [Skup makulatury](https://chomikuj.pl/skup.makulatury.prl), **250 punktów**
19. [Hermes](https://chomikuj.pl/hermes50-1) i https://chomikuj.pl/hermes50-2, **250 punktów**
20. [E-dziennik Województwa Mazowieckiego](https://edziennik.mazowieckie.pl/actbymonths) **150 punktów**
21. [Czasopismo Węgiel Brunatny](http://www.ppwb.org.pl/wegiel_brunatny)
22. [Gazeta GUM](https://gazeta.gumed.edu.pl/61323.html)
23. [Nowiny Andrychowskie](https://radioandrychow.pl/nowiny/)
24. [Kawęczyniak](http://bip.kaweczyn.pl/kaweczyn/pl/dla-mieszkanca/publikacje/archiwalne-numery-kaweczyniaka-rok-1995-2005/kaweczyniaki-rok-1997.html)
25. [Zbór Chrześcijański w Bielawia](http://zborbielawa.pl/archiwum/)
26. [Gazeta Rytwiańska](http://www.rytwiany.com.pl/index.php?sid=5)
27. [Nasze Popowice](https://smpopowice.pl/gazeta/2005_12_nasze-popowice-nr_01.pdf)
28. [Echo Chełmka](http://moksir.chelmek.pl/o-nas/echo-chelmka)
29. [Głos Świdnika](http://s.bibliotekaswidnik.pl/index.php/archwium/116-glos-swidnika) **100 punktów**
30. [Aneks](https://aneks.kulturaliberalna.pl/archiwum-aneksu/) **90 punktów**
31. [Teatr Lalel](http://polunima.pl/teatr-lalek)
32. [Biuletyn Bezpieczna Chemia](https://www.pipc.org.pl/publikacje/biuletyn-bezpieczna-chemia)
33. [Głos Maszynisty](https://zzm.org.pl/glos-maszynisty/)
34. [Kultura Paryska](https://www.kulturaparyska.com/pl/index), całe archiwum z książkami i innymi czasopismami, **180 punktów**
35. [Gazeta Fabryczna - Kraśnik](https://80lat.flt.krasnik.pl/index.php/gazeta-fabryczna/) **120 punktów**
36. [Artykuły o Jujutsu](http://www.kobudo.pl/artykuly_jujutsu.html)
37. [Wycinki o Taekwon-Do](https://www2.pztkd.lublin.pl/archpras.html#z1996)
38. [Materiały o kolejnictwie](https://enkol.pl/Strona_g%C5%82%C3%B3wna) **180 punktów**
39. [Centralny Instytut Ochrony Pracy](http://archiwum.ciop.pl/), znaleźć wszystkie publikacje typu <http://archiwum.ciop.pl/44938>, wymaga trochę sprytu **130 punktów**
40. [Biblioteka Sejmowa - Zasoby Cyfrowe](https://biblioteka.sejm.gov.pl/zasoby_cyfrowe/), **200 punktów**
41. [Elektronika Praktyczna](https://ep.com.pl/archiwum), te numery, które dostępne w otwarty sposób, np. rok 1993
42. [Litewska Akademia Nauk](http://www.mab.lt/), tylko materiały w jęz. polskim, takie jak np.
    <https://elibrary.mab.lt/handle/1/840>, **170 punktów**
43. [Litewska Biblioteka Cyfrowa](https://www.epaveldas.lt), wyłuskać tylko materiały w jęz. polskim, **190 punktów**
44. [Czasopisma Geologiczne](https://geojournals.pgi.gov.pl), **120 punktów**
45. [Czasopisma PTTK](https://www.czasopisma.centralnabibliotekapttk.pl/index.php?i3), **120 punktów**
46. [Czasopisma Polskiego Towarzystwa Dendrologicznego](https://www.ptd.pl/?page_id=7), **100 punktów**
47. [Kilka przedwojennych książek](https://dziemiela.com/documents.htm)
48. [Historia polskiej informatyki](http://klio.spit.iq.pl/a4-wyroby-polskiej-informatyki/a4-2-sprzet/) - wyjątkowo bez datowania
49. [Zeszyty Formacyjne Katolickiego Stowarzyszenia „Civitas Christania”](http://podkarpacki.civitaschristiana.pl/formacja/zeszyty-formacyjne/), tylko niektóre pliki można zdatować
50. [Józef Piłsudski Institute of America](https://archiwa.pilsudski.org/) - **220 punktów**
51. [Prasa podziemna — Częstochowa](http://www.podziemie.com.pl), również ulotki i inne materiały skanowane - **180 punktów**
52. [Tajemnica Atari](http://krap.pl/mirrorz/atari/horror.mirage.com.pl/pixel/), plik ZIP z DjVu
53. [Gorzowskie Wiadomości Samorządowe](http://www.gorzow.pl/archiwum/przystan/media-strona-glowna/gorzowskie-wiadomosci-samorzadowe)
54. [Gazeta Rodnia - Bieruń](https://www.bierun.pl/mieszkancy/archiwum)
55. [Parafia Śrem](https://sremfara.pl/miesiecznik_30.html)
56. [BIP Gdynia](https://bip.um.gdynia.pl/wyszukiwarka-uchwal-rady-miasta,7485/wyszukiwarka-uchwal,504923) do roku 1990!, **120 punktów**
57. [BIP Żyrardów](https://www.bip.zyrardow.pl/4945,uchwaly-rady-miejskiej-zyrardowa?tresc=46185) do roku 1990!, **120 punktów**
58. [Biuletyn Polarny](http://www.geol.agh.edu.pl/~bipo/index.php?menu=BiPo_0021)
59. [Otwarte czasopisma Wydawnictwa UAM](https://pressto.amu.edu.pl), **140 punktów**
60. [Wycinki o kolei gondolowej](http://kolej-szyndzielnia.pl/kolej-gondolowa/) — zob. "Napisali o Szyndzielni" na tej stronie
61. [Instytut Radioelektroniki PW](https://www.ire.pw.edu.pl/o-instytucie/raporty-roczne/)
62. [Zagadnienia Ekonomiki Rolnej](http://www.zer.waw.pl/Archive), **100 punktów**
63. [Rozkazy Komendanta Chorągwi Wielkopolskiej ZHP](http://dokumenty.zhp.wlkp.pl/rozkazy.htm), **130 punktów**
64. [Sulimczyk - pismo harcerskie](http://www.16wdh.pl/s28,Sulimczyk)
65. [Archiwum Harcerskie](https://archiwumharcerskie.pl/index.php?title=Strona_g%C5%82%C3%B3wna), **170 punktów**
66. [Cyfrowe Archiwa Tarnowskie](https://www.agora.tarnow.pl/viewforum.php?f=30), **100 punktów**
67. [Instytut Techniki Górniczej - wycinki](http://www.komag.gliwice.pl/archiwum/historia-komag)

