add page name and abbrev

This commit is contained in:
nlitkowski 2021-04-07 00:07:43 +02:00
parent 27a539265d
commit 51020ab0bb

View File

@ -12,7 +12,7 @@ import Text.Regex.Posix
import Text.Printf import Text.Printf
extractRecords = extractLinksWithText "//a[@class='roczniki']" -- pary adres-tytuł extractRecords = extractLinksWithText "//a[@class='mega-menu-link']" -- pary adres-tytuł
>>> second (arr $ replace "\r\n " " ") -- czyścimy drugi element pary, czyli tytuł z niepotrzebnych białych znaków >>> second (arr $ replace "\r\n " " ") -- czyścimy drugi element pary, czyli tytuł z niepotrzebnych białych znaków
>>> first (arr ((++"tr") . init)) -- modyfikujemy pierwszy element pary, czyli adres URL >>> first (arr ((++"tr") . init)) -- modyfikujemy pierwszy element pary, czyli adres URL
>>> first (extractLinksWithText "//li/a[contains(@href,'.pdf')]") -- pobieramy stronę z adresu URL i wyciągamy linki z tej strony pasujące do wyrażenia XPathowego >>> first (extractLinksWithText "//li/a[contains(@href,'.pdf')]") -- pobieramy stronę z adresu URL i wyciągamy linki z tej strony pasujące do wyrażenia XPathowego
@ -39,8 +39,8 @@ getDate url =
main = do main = do
let start = "http://zborbielawa.pl/archiwum/" let start = "http://zborbielawa.pl/archiwum/"
let shadowLibrary = ShadowLibrary {logoUrl=Nothing, let shadowLibrary = ShadowLibrary {logoUrl=Nothing,
lname="Almanach Muszyny", lname="Zbór Bielawa",
abbrev="AlmMusz", abbrev="ZboBiel",
lLevel=0, lLevel=0,
webpage=start} webpage=start}
extractItemsStartingFromUrl shadowLibrary start (extractRecords >>> arr toShadowItem) extractItemsStartingFromUrl shadowLibrary start (extractRecords >>> arr toShadowItem)