From a8c5fa0c7547e0de1a9012c031f67be60128b896 Mon Sep 17 00:00:00 2001 From: rjawor Date: Sat, 27 Jun 2015 10:09:49 +0200 Subject: [PATCH] original word positions --- TODO.txt | 4 ++-- concordia/t/test_hash_generator.cpp | 3 +-- tests/resources/concordia-config/concordia.cfg.in | 2 +- 3 files changed, 4 insertions(+), 5 deletions(-) diff --git a/TODO.txt b/TODO.txt index 6b32e2f..45e5880 100644 --- a/TODO.txt +++ b/TODO.txt @@ -1,7 +1,5 @@ ---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) ----------------------------- -- repair stop words feature - document the code (classes, cfg files) and update tutorial -IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją) - wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń. - testy zużycia pamięci - Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła. @@ -10,6 +8,8 @@ IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieś ---------------------------- Archive ----------------------------- +DONE - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją) +DONE - repair stop words feature DONE - deal with 0 length patterns DONE - repair concordia-console test feature DONE - update tests diff --git a/concordia/t/test_hash_generator.cpp b/concordia/t/test_hash_generator.cpp index b378efa..61e1cfe 100644 --- a/concordia/t/test_hash_generator.cpp +++ b/concordia/t/test_hash_generator.cpp @@ -110,14 +110,13 @@ BOOST_AUTO_TEST_CASE( TokenVectorTest ) std::vector tokens = tokenizedSentence->getTokens(); - /* + /* BOOST_FOREACH(TokenAnnotation annotation, tokens) { std::cout << annotation.getStart() << "," << annotation.getEnd() << " type: " << annotation.getType() << " value: " << annotation.getValue() << std::endl; } - 0,10 type: 0 value: ne_date 13,14 type: 1 value: o 16,24 type: 1 value: godzinie diff --git a/tests/resources/concordia-config/concordia.cfg.in b/tests/resources/concordia-config/concordia.cfg.in index 24df93c..5591f3b 100644 --- a/tests/resources/concordia-config/concordia.cfg.in +++ b/tests/resources/concordia-config/concordia.cfg.in @@ -28,7 +28,7 @@ html_tags_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/html_tags.txt" stop_words_enabled = "@STOP_WORDS_ENABLED@" # If stop_words_enabled is true, set the path to the stop words file -#stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt" +stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt" # File containing regular expressions that match named entities named_entities_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/named_entities.txt"