diff --git a/app/pbsociety.hs b/app/pbsociety.hs index 17613bf..88ec9a4 100644 --- a/app/pbsociety.hs +++ b/app/pbsociety.hs @@ -13,8 +13,9 @@ import Text.Printf extractRecords = extractLinksWithText "//a[@class='image-link']" -- pary adres-tytuł - >>> second (arr $ replace "\n" "") - >>> first (extractLinksWithText "//a[@class='image-link']") + >>> second (arr $ replace "\n" " ") + >>> first (extractLinksWithText "//div/a[contains(@href,'.pdf') and not(@class)]") -- pobieramy stronę z adresu URL i wyciągamy linki z tej strony pasujące do wyrażenia XPathowego + -- ostatecznie wyjdą trójki ((adres URL, tytuł artykułu), tytuł rocznika) -- ... a tutaj te trójki przerabiamy do docelowej struktury ShadowItem toShadowItem :: ((String, String), String) -> ShadowItem @@ -26,6 +27,7 @@ toShadowItem ((url, articleTitle), yearlyTitle) = finalUrl = url } where title = "Pbsociety " ++ yearlyTitle + date = getDate url getDate url = case url =~~ "/(19[0-9][0-9]|20[0-9][0-9])/" :: Maybe [[String]] of