concordia-library/TODO.txt

DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)
DONE 2. anonimizacja zdań
DONE 3. Dzielenie zdań (max 255 tokenów)

- concordia-server
- zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).
- wyłączyć stopWords
- puścić 100% search test na jrc
- wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing


zastanowić się nad optymalizacją:
- unordered_map tmMatchesMap
- LCP array

Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.
lcp search Former-commit-id: 925a5de8bc33256b594c369907f202e29f809f47 2014-05-15 22:20:31 +02:00			`DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)`
			`DONE 2. anonimizacja zdań`
			`DONE 3. Dzielenie zdań (max 255 tokenów)`

			`- concordia-server`
todo thoughts Former-commit-id: 70739722e53d8afce8799f338d0f0467d7cca265 2014-08-15 13:39:21 +02:00			`- zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).`
			`- wyłączyć stopWords`
			`- puścić 100% search test na jrc`
			`- wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing`
anubis search continued Former-commit-id: 95a08f242a03311d067303bfff07bf4890796da5 2014-06-24 18:23:46 +02:00

			`zastanowić się nad optymalizacją:`
			`- unordered_map tmMatchesMap`
			`- LCP array`

			`Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.`