mass-scraper/todos.org
siulkilulki 7dd903b3b5 First version of ml hour classificator.
Add last_access field to annotator_console user stats.

Add split-data script.
Add tsv2fasttext.py
Add todos.org.
2018-05-28 15:10:31 +02:00

895 B

Backlog

TODO odsiać binarny content

TODO przetestować find_new_key

TODO napisać testy do annotatora

TODO obsłużyć w annotatorze częściowe godziny typu: 7,00 | 7 00 | 700

TODO handle <sup> and <sub> tags e.g.

Msze od poniedziałku do soboty rano o godzinie 6<sup>45 </sup>`

TODO Change to levelDB database for cache

TODO crawling non domain masses

Scraper shouldn't crawl these types of urls: https://www.tumblr.com/widgets/share/tool/preview?shareSource=legacy&canonicalUrl=&url=http%3A%2F%2Falbert.zgora.pl%2F2014%2F08%2Fbierzmowanie%2F&title=Bierzmowanie

Came from: http://albert.zgora.pl/2014/08/bierzmowanie/

TODO dostęp do redisa bez sudo

W1

TODO dodać ogłoszenia na duzych portalach katolickich

TODO alogrytm do odzielenia trusted od untrusted users