From 4991806c95bcc4cdf83317e281f207207f03ed96 Mon Sep 17 00:00:00 2001 From: Jan Nowak Date: Tue, 6 Apr 2021 21:20:43 +0200 Subject: [PATCH] Poprawione zapisywanie tytulu, odpytywanie wszystkich rocznikow --- app/elektronikapraktyczna.hs | 7 ++++--- 1 file changed, 4 insertions(+), 3 deletions(-) diff --git a/app/elektronikapraktyczna.hs b/app/elektronikapraktyczna.hs index 9f2d7d8..db16bcb 100644 --- a/app/elektronikapraktyczna.hs +++ b/app/elektronikapraktyczna.hs @@ -12,7 +12,8 @@ import Text.Regex.Posix import Text.Printf -extractRecords = extractLinksWithText "(//a[@class='magazine-list__year-item'])[last()]" -- pary adres-tytuł +-- extractRecords = extractLinksWithText "(//a[@class='magazine-list__year-item'])[last()]" -- pary adres-tytuł +extractRecords = extractLinksWithText "//a[@class='magazine-list__year-item']" -- pary adres-tytuł >>> second (arr $ replace "\r\n " "") -- czyścimy drugi element pary, czyli tytuł z niepotrzebnych białych znaków >>> second (arr $ replace " " "") -- czyścimy drugi element pary, czyli tytuł z niepotrzebnych białych znaków -- >>> first (arr ((++"tr") . init)) -- modyfikujemy pierwszy element pary, czyli adres URL @@ -21,7 +22,7 @@ extractRecords = extractLinksWithText "(//a[@class='magazine-list__year-item'])[ >>> first (first ( extractLinksWithText "//div[@class='files__item']/a[contains(@href,'.pdf')]" >>> second (arr $ replace "\r\n " "") - >>> first (arr $ replace "//" "/") + -- >>> first (arr $ replace "//" "/") ) ) -- pobieramy stronę z adresu URL i wyciągamy linki z tej strony pasujące do wyrażenia XPathowego -- ostatecznie wyjdą trójki ((adres URL, tytuł artykułu), tytuł rocznika) @@ -35,7 +36,7 @@ toShadowItem (((url, chapterTitle), articleTitle), yearlyTitle) = format = Just "pdf", finalUrl = url } - where title = "Elektronika Praktyczna " ++ yearlyTitle ++ " " ++ articleTitle + where title = "Elektronika Praktyczna " ++ (replace " " "" articleTitle) date = yearlyTitle getDate yearlyTitle =