original word positions

2015-06-27 10:09:49 +02:00 · 2015-06-27 10:09:49 +02:00 · a8c5fa0c75
commit a8c5fa0c75
parent dba70b4e24
3 changed files with 4 additions and 5 deletions
--- a/TODO.txt
+++ b/TODO.txt
@ -1,7 +1,5 @@
 ---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) -----------------------------
 - repair stop words feature
 - document the code (classes, cfg files) and update tutorial
 IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
 - wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń.
 - testy zużycia pamięci
 - Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.
@ -10,6 +8,8 @@ IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieś
 ---------------------------- Archive -----------------------------
 DONE - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
 DONE - repair stop words feature
 DONE - deal with 0 length patterns
 DONE - repair concordia-console test feature
 DONE - update tests
--- a/concordia/t/test_hash_generator.cpp
+++ b/concordia/t/test_hash_generator.cpp
@ -110,14 +110,13 @@ BOOST_AUTO_TEST_CASE( TokenVectorTest )
    std::vector<TokenAnnotation> tokens = tokenizedSentence->getTokens();
-    /*
+    /*    
    BOOST_FOREACH(TokenAnnotation annotation, tokens) {
        std::cout << annotation.getStart() << ","
                  << annotation.getEnd() << " type: "
                  << annotation.getType() << " value: "
                  << annotation.getValue() << std::endl;
    }
    0,10 type: 0 value: ne_date
    13,14 type: 1 value: o
    16,24 type: 1 value: godzinie
--- a/tests/resources/concordia-config/concordia.cfg.in
+++ b/tests/resources/concordia-config/concordia.cfg.in
@ -28,7 +28,7 @@ html_tags_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/html_tags.txt"
 stop_words_enabled = "@STOP_WORDS_ENABLED@"
 # If stop_words_enabled is true, set the path to the stop words file
-#stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
+stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
 # File containing regular expressions that match named entities
 named_entities_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/named_entities.txt"