concordia-library/TODO.txt

DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)
DONE 2. anonimizacja zdań
DONE 3. Dzielenie zdań (max 255 tokenów)


DONE Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.

DONE 1. Bitwise operators (i stałe!) przy rozmiarze index character oraz markerów
IN PROGRESS 2. Wykonać anubis search na nowych markerach z długością zdania
3. Multi-threading?

- concordia-server
- zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).
- wyłączyć stopWords
- puścić 100% search test na jrc
- wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing


zastanowić się nad optymalizacją:
- tmMatchesMap jako normalna mapa (nie ptr_map)
- REJECTED LCP array
- !important! rezygnacja z ptr_vector (wycieki!)
- zwracanie wektorów
lcp search Former-commit-id: 925a5de8bc33256b594c369907f202e29f809f47 2014-05-15 22:20:31 +02:00			`DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)`
			`DONE 2. anonimizacja zdań`
			`DONE 3. Dzielenie zdań (max 255 tokenów)`

extended markers - length, bitwise operators Former-commit-id: 948a7fc68bf0b2284ce631d877fc13fa3eaa4882 2015-04-09 22:17:19 +02:00

fixed lcp search Former-commit-id: 18192126d134323569bc43205ccc60788d9e6cb6 2015-04-12 12:06:41 +02:00
			`DONE Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.`

			`DONE 1. Bitwise operators (i stałe!) przy rozmiarze index character oraz markerów`
getTmMatches Former-commit-id: 94aa3db2db88195c61c6ac70006c0e1d743dc854 2015-04-14 20:14:30 +02:00			`IN PROGRESS 2. Wykonać anubis search na nowych markerach z długością zdania`
fixed lcp search Former-commit-id: 18192126d134323569bc43205ccc60788d9e6cb6 2015-04-12 12:06:41 +02:00			`3. Multi-threading?`

lcp search Former-commit-id: 925a5de8bc33256b594c369907f202e29f809f47 2014-05-15 22:20:31 +02:00			`- concordia-server`
todo thoughts Former-commit-id: 70739722e53d8afce8799f338d0f0467d7cca265 2014-08-15 13:39:21 +02:00			`- zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).`
			`- wyłączyć stopWords`
			`- puścić 100% search test na jrc`
			`- wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing`
anubis search continued Former-commit-id: 95a08f242a03311d067303bfff07bf4890796da5 2014-06-24 18:23:46 +02:00

			`zastanowić się nad optymalizacją:`
getTmMatches Former-commit-id: 94aa3db2db88195c61c6ac70006c0e1d743dc854 2015-04-14 20:14:30 +02:00			`- tmMatchesMap jako normalna mapa (nie ptr_map)`
			`- REJECTED LCP array`
			`- !important! rezygnacja z ptr_vector (wycieki!)`
			`- zwracanie wektorów`
anubis search continued Former-commit-id: 95a08f242a03311d067303bfff07bf4890796da5 2014-06-24 18:23:46 +02:00