2014-05-15 22:20:31 +02:00
DONE 1. lokalizowane to_lower (wykorzystać utf8case, naprawić testy)
DONE 2. anonimizacja zdań
DONE 3. Dzielenie zdań (max 255 tokenów)
2015-04-09 22:17:19 +02:00
2015-04-12 12:06:41 +02:00
DONE Anubis search się komplikuje! Przy tworzeniu obiektu tmMatches dla przykładu trzeba podać id przykładu, długość patternu i długość przykładu. Dwa pierwsze mamy, ale niestety nie ma skąd wziąć długości przykładu. Pamiętamy tylko offset sufiksu.
DONE 1. Bitwise operators (i stałe!) przy rozmiarze index character oraz markerów
2015-04-14 20:14:30 +02:00
IN PROGRESS 2. Wykonać anubis search na nowych markerach z długością zdania
2015-04-12 12:06:41 +02:00
3. Multi-threading?
2014-05-15 22:20:31 +02:00
- concordia-server
2014-08-15 13:39:21 +02:00
- zastanowić się nad empty hash examples (rozwiązanie: w ogóle nie szukać fraz o pustym hashu, rzucać wyjątek).
- wyłączyć stopWords
- puścić 100% search test na jrc
- wyszukiwanie zdania: wyszukanie najdłuższych pasujących fragmentów Anubisem, 1D (approximate) bin packing
2014-06-24 18:23:46 +02:00
zastanowić się nad optymalizacją:
2015-04-14 20:14:30 +02:00
- tmMatchesMap jako normalna mapa (nie ptr_map)
- REJECTED LCP array
2015-04-15 10:55:26 +02:00
- !important! rezygnacja z ptr_vector
2015-04-14 20:14:30 +02:00
- zwracanie wektorów
2015-04-15 10:55:26 +02:00
- powyrzucać using namespace std
- profiling
2014-06-24 18:23:46 +02:00