concordia-library/TODO.txt

- wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing. Nazwijmy to concordia search. Wyszukiwane są wszystkie najdłuższe dopasowania patternu dzięki LCP search. Zwracany jest wynik w postaci listy najdłuższych dopasowanych fragmentów, posortowanych malejąco po długości, z maksymalnie 3 przedstawicielami każdej długości. Dodatkowo obliczany jest zestaw optymalnego pokrycia patternu.
- Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.
- Multi-threading?
- concordia-server (zastanowić się, czy nie napisać CAT-a)
- wyłączyć stopWords
- zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).
- puścić 100% search test na jrc


---------------------------- Archive -----------------------------


DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)
DONE 2. anonimizacja zdań
DONE 3. Dzielenie zdań (max 255 tokenów)

DONE Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.

DONE 1. Bitwise operators (i stałe!) przy rozmiarze index character oraz markerów
DONE 2. Wykonać anubis search na nowych markerach z długością zdania


DONE zastanowić się nad optymalizacją:
REJECTED - tmMatchesMap jako normalna mapa (nie ptr_map)
REJECTED - LCP array
DONE - !important! rezygnacja z ptr_vector
DONE - zwracanie wektorów
DONE - powyrzucać using namespace std
DONE - profiling
added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`- wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing. Nazwijmy to concordia search. Wyszukiwane są wszystkie najdłuższe dopasowania patternu dzięki LCP search. Zwracany jest wynik w postaci listy najdłuższych dopasowanych fragmentów, posortowanych malejąco po długości, z maksymalnie 3 przedstawicielami każdej długości. Dodatkowo obliczany jest zestaw optymalnego pokrycia patternu.`
			`- Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.`
			`- Multi-threading?`
			`- concordia-server (zastanowić się, czy nie napisać CAT-a)`
			`- wyłączyć stopWords`
			`- zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).`
			`- puścić 100% search test na jrc`
lcp search Former-commit-id: 925a5de8bc33256b594c369907f202e29f809f47 2014-05-15 22:20:31 +02:00
extended markers - length, bitwise operators Former-commit-id: 948a7fc68bf0b2284ce631d877fc13fa3eaa4882 2015-04-09 22:17:19 +02:00

added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`---------------------------- Archive -----------------------------`


			`DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)`
			`DONE 2. anonimizacja zdań`
			`DONE 3. Dzielenie zdań (max 255 tokenów)`
fixed lcp search Former-commit-id: 18192126d134323569bc43205ccc60788d9e6cb6 2015-04-12 12:06:41 +02:00
			`DONE Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.`

			`DONE 1. Bitwise operators (i stałe!) przy rozmiarze index character oraz markerów`
added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`DONE 2. Wykonać anubis search na nowych markerach z długością zdania`
anubis search continued Former-commit-id: 95a08f242a03311d067303bfff07bf4890796da5 2014-06-24 18:23:46 +02:00

added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`DONE zastanowić się nad optymalizacją:`
repaired tm matches Former-commit-id: ee2e73ab1e37db051b8be36b97bc503241c798c0 2015-04-15 11:50:59 +02:00			`REJECTED - tmMatchesMap jako normalna mapa (nie ptr_map)`
			`REJECTED - LCP array`
			`DONE - !important! rezygnacja z ptr_vector`
			`DONE - zwracanie wektorów`
todo Former-commit-id: a73e0c0d0887afabdd4ff25b6cc3b11b5a85cb14 2015-04-15 14:14:38 +02:00			`DONE - powyrzucać using namespace std`
added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`DONE - profiling`
anubis search continued Former-commit-id: 95a08f242a03311d067303bfff07bf4890796da5 2014-06-24 18:23:46 +02:00