add page name and abbrev

This commit is contained in:
nlitkowski 2021-04-07 00:07:43 +02:00
parent 27a539265d
commit 51020ab0bb

View File

@ -12,7 +12,7 @@ import Text.Regex.Posix
import Text.Printf
extractRecords = extractLinksWithText "//a[@class='roczniki']" -- pary adres-tytuł
extractRecords = extractLinksWithText "//a[@class='mega-menu-link']" -- pary adres-tytuł
>>> second (arr $ replace "\r\n " " ") -- czyścimy drugi element pary, czyli tytuł z niepotrzebnych białych znaków
>>> first (arr ((++"tr") . init)) -- modyfikujemy pierwszy element pary, czyli adres URL
>>> first (extractLinksWithText "//li/a[contains(@href,'.pdf')]") -- pobieramy stronę z adresu URL i wyciągamy linki z tej strony pasujące do wyrażenia XPathowego
@ -39,8 +39,8 @@ getDate url =
main = do
let start = "http://zborbielawa.pl/archiwum/"
let shadowLibrary = ShadowLibrary {logoUrl=Nothing,
lname="Almanach Muszyny",
abbrev="AlmMusz",
lname="Zbór Bielawa",
abbrev="ZboBiel",
lLevel=0,
webpage=start}
extractItemsStartingFromUrl shadowLibrary start (extractRecords >>> arr toShadowItem)