This commit is contained in:
Norbert Litkowski 2021-04-07 04:07:53 +02:00
parent 45e471a312
commit 25c6139e81

View File

@ -28,6 +28,7 @@ extractNestedLinksWithText xpathCondition = proc url -> do
extractRecords = proc x -> do
-- todo more specific xpaths
(a, b) <- extractLinksWithText "//aside[@class='widget widget_maxmegamenu']//a[@class='mega-menu-link']" -< x -- pary adres-tytuł podstrony
(a', b') <- extractLinksWithText "//aside[@class='widget widget_maxmegamenu']//a[@class='mega-menu-link']" -< a -- pobieramy podstronę i kolejne podstrony z menu
a'' <- extractNestedLinksWithText "(//big[a[contains(@href,'.pdf')][img]])[1]" -< a' -- pobieramy stronę z adresu URL i wyciągamy linki z tej strony pasujące do wyrażenia XPathowego