{-# LANGUAGE Arrows, NoMonomorphismRestriction #-}
importShadowLibrary.Core
importText.XML.HXT.Core
importText.XML.HXT.XPath
-- import Text.XML.HXT.Curl
importData.List
importData.List.Utils(replace)
importText.Regex.Posix
importText.Printf
extractNestedRecords=extractLinksWithText"//a[@class='archiveVolume' and not(contains(@href, '.PDF')) and not(contains(@href, '.pdf'))]"-- pary adres-tytuł
>>>first(extractLinksWithText"//a[contains(@href,'.pdf')]")-- pobieramy stronę z adresu URL i wyciągamy linki z tej strony pasujące do wyrażenia XPathowego
-- ostatecznie wyjdą trójki ((adres URL, tytuł artykułu), tytuł rocznika)
extractRecords=extractLinksWithText"//a[@class='archiveVolume' and (contains(@href,'.pdf') or contains(@href,'.PDF'))]"
>>>second(arr$replace"\t""")
-- ... a tutaj te trójki przerabiamy do docelowej struktury ShadowItem