concordia-library/TODO.txt

---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) -----------------------------
- document analysis - concordia score should be calculated for a document. Idea - for each fragment: (fragment length/document length) * log penalty at sentence level.
- moving/extending concordia matches on demand - powered by concordia-server
- rethink passing variables such as TokenizedSentence by smart pointers. Consider using references in getters.
- multiple indexes based on different hashes. One can be word-net base forms, other - pos-tags and so on. Develop a method of combining results.
IN PROGRESS - document the code (classes, cfg files) and update tutorial
- wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń.
- Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.
- Multi-threading? (przy concordia search jak najbardziej. Tylko wtedy trzebaby zastosować sortowanie po końcach przedziału przed liczeniem best overlay, co nawiasem mówiąc jest gotowe).


---------------------------- Archive -----------------------------
DONE - testy zużycia pamięci
DONE - change the arguments of addExample* fucntions to const reference to TokenizedSentence (not boost::shared_ptr<TokenizedSentence>
DONE - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
DONE - repair stop words feature
DONE - deal with 0 length patterns
DONE - repair concordia-console test feature
DONE - update tests
DONE - work on word regex pattern (allow for some symbols and digits within the word)
REJECTED - concordia_search_result nie musi przechowywać całego tokenVector (bo używa go tylko do odczytania size()).
DONE - implement tokenAnnotations vector as interval tree (not interval tree, but list, which is even better)
DONE (IT IS GOOD AS IT IS) - mess with gcc performance optimization options (https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html)
DONE - concordia-server (zastanowić się, czy nie napisać CAT-a oraz nad tym, czy nie oddzielić projektu concordia-server).
DONE - document the code
DONE - prepare website (home, downloads, documentation, tutorial, issues, sourceforge page, about author)
DONE - copyright libdivsufsort i psi-toolkit (in documentation)

DONE - puścić 100% search test na jrc

REJECTED - zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).

DONE - wyłączyć stopWords

DONE - Przy concordia searCh dodatkowo obliczany ma być zestaw optymalnego pokrycia patternu. Może siłowo? (jeśli przyjąć max dł. zdania 500 tokenów, to nie powinno być źle)

DONE - wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing. Nazwijmy to concordia search. Wyszukiwane są wszystkie najdłuższe dopasowania patternu dzięki LCP search. Zwracany jest wynik w postaci listy najdłuższych dopasowanych fragmentów, posortowanych malejąco po długości, z maksymalnie 3 przedstawicielami każdej długości. 

DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)
DONE 2. anonimizacja zdań
DONE 3. Dzielenie zdań (max 255 tokenów)

DONE Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.

DONE 1. Bitwise operators (i stałe!) przy rozmiarze index character oraz markerów
DONE 2. Wykonać anubis search na nowych markerach z długością zdania


DONE zastanowić się nad optymalizacją:
REJECTED - tmMatchesMap jako normalna mapa (nie ptr_map)
REJECTED - LCP array
DONE - !important! rezygnacja z ptr_vector
DONE - zwracanie wektorów
DONE - powyrzucać using namespace std
DONE - profiling
doc 2015-04-28 21:34:07 +02:00			`---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) -----------------------------`
todo 2015-09-07 08:15:46 +02:00			`- document analysis - concordia score should be calculated for a document. Idea - for each fragment: (fragment length/document length) * log penalty at sentence level.`
			`- moving/extending concordia matches on demand - powered by concordia-server`
todo 2015-08-26 20:14:43 +02:00			`- rethink passing variables such as TokenizedSentence by smart pointers. Consider using references in getters.`
separated tokenization and adding to index 2015-08-01 17:03:39 +02:00			`- multiple indexes based on different hashes. One can be word-net base forms, other - pos-tags and so on. Develop a method of combining results.`
			`IN PROGRESS - document the code (classes, cfg files) and update tutorial`
modified todo 2015-06-12 12:25:02 +02:00			`- wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń.`
added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`- Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.`
100% test in concordia-console. All passed! Former-commit-id: 6e6186a148d637ba5a0d324d6d68c78708f0942d 2015-04-22 16:50:12 +02:00			`- Multi-threading? (przy concordia search jak najbardziej. Tylko wtedy trzebaby zastosować sortowanie po końcach przedziału przed liczeniem best overlay, co nawiasem mówiąc jest gotowe).`
lcp search Former-commit-id: 925a5de8bc33256b594c369907f202e29f809f47 2014-05-15 22:20:31 +02:00
extended markers - length, bitwise operators Former-commit-id: 948a7fc68bf0b2284ce631d877fc13fa3eaa4882 2015-04-09 22:17:19 +02:00

added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`---------------------------- Archive -----------------------------`
todo 2015-08-26 20:14:43 +02:00			`DONE - testy zużycia pamięci`
			`DONE - change the arguments of addExample* fucntions to const reference to TokenizedSentence (not boost::shared_ptr<TokenizedSentence>`
original word positions 2015-06-27 10:09:49 +02:00			`DONE - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)`
			`DONE - repair stop words feature`
done word positions 2015-06-26 22:50:53 +02:00			`DONE - deal with 0 length patterns`
			`DONE - repair concordia-console test feature`
			`DONE - update tests`
			`DONE - work on word regex pattern (allow for some symbols and digits within the word)`
			`REJECTED - concordia_search_result nie musi przechowywać całego tokenVector (bo używa go tylko do odczytania size()).`
tokenizer in progress 2015-06-25 10:12:51 +02:00			`DONE - implement tokenAnnotations vector as interval tree (not interval tree, but list, which is even better)`
modified todo 2015-06-11 11:17:45 +02:00			`DONE (IT IS GOOD AS IT IS) - mess with gcc performance optimization options (https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html)`
modified todo, removed concordia-server 2015-06-09 13:09:10 +02:00			`DONE - concordia-server (zastanowić się, czy nie napisać CAT-a oraz nad tym, czy nie oddzielić projektu concordia-server).`
			`DONE - document the code`
			`DONE - prepare website (home, downloads, documentation, tutorial, issues, sourceforge page, about author)`
			`DONE - copyright libdivsufsort i psi-toolkit (in documentation)`

100% test in concordia-console. All passed! Former-commit-id: 6e6186a148d637ba5a0d324d6d68c78708f0942d 2015-04-22 16:50:12 +02:00			`DONE - puścić 100% search test na jrc`

updated TODO, concordia is not slower after all Former-commit-id: 3621c98c7e30f4a446dcc4b64671e336f1b27f44 2015-04-21 21:54:28 +02:00			`REJECTED - zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).`

			`DONE - wyłączyć stopWords`
added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00
done word positions 2015-06-26 22:50:53 +02:00			`DONE - Przy concordia searCh dodatkowo obliczany ma być zestaw optymalnego pokrycia patternu. Może siłowo? (jeśli przyjąć max dł. zdania 500 tokenów, to nie powinno być źle)`
best overlay computation Former-commit-id: 986f3d6b611fd276a7b26073daa0094caf078d1e 2015-04-21 15:14:48 +02:00
concordia search Former-commit-id: 609c3a54e930ebae45a2e9a07f63991ec4abc9a6 2015-04-17 14:17:59 +02:00			`DONE - wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing. Nazwijmy to concordia search. Wyszukiwane są wszystkie najdłuższe dopasowania patternu dzięki LCP search. Zwracany jest wynik w postaci listy najdłuższych dopasowanych fragmentów, posortowanych malejąco po długości, z maksymalnie 3 przedstawicielami każdej długości.`
added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00
			`DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)`
			`DONE 2. anonimizacja zdań`
			`DONE 3. Dzielenie zdań (max 255 tokenów)`
fixed lcp search Former-commit-id: 18192126d134323569bc43205ccc60788d9e6cb6 2015-04-12 12:06:41 +02:00
			`DONE Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.`

			`DONE 1. Bitwise operators (i stałe!) przy rozmiarze index character oraz markerów`
added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`DONE 2. Wykonać anubis search na nowych markerach z długością zdania`
anubis search continued Former-commit-id: 95a08f242a03311d067303bfff07bf4890796da5 2014-06-24 18:23:46 +02:00

added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`DONE zastanowić się nad optymalizacją:`
repaired tm matches Former-commit-id: ee2e73ab1e37db051b8be36b97bc503241c798c0 2015-04-15 11:50:59 +02:00			`REJECTED - tmMatchesMap jako normalna mapa (nie ptr_map)`
			`REJECTED - LCP array`
			`DONE - !important! rezygnacja z ptr_vector`
			`DONE - zwracanie wektorów`
todo Former-commit-id: a73e0c0d0887afabdd4ff25b6cc3b11b5a85cb14 2015-04-15 14:14:38 +02:00			`DONE - powyrzucać using namespace std`
added profiling, which is very important and private notes, which are even importanter :) Former-commit-id: 1f1746c2de27b52aab4615e64d6b11b0c1e17624 2015-04-16 17:18:17 +02:00			`DONE - profiling`
anubis search continued Former-commit-id: 95a08f242a03311d067303bfff07bf4890796da5 2014-06-24 18:23:46 +02:00