From a8c5fa0c7547e0de1a9012c031f67be60128b896 Mon Sep 17 00:00:00 2001
From: rjawor <rjawor@amu.edu.pl>
Date: Sat, 27 Jun 2015 10:09:49 +0200
Subject: [PATCH] original word positions

---
 TODO.txt                                          | 4 ++--
 concordia/t/test_hash_generator.cpp               | 3 +--
 tests/resources/concordia-config/concordia.cfg.in | 2 +-
 3 files changed, 4 insertions(+), 5 deletions(-)
diff --git a/TODO.txt b/TODO.txt
index 6b32e2f..45e5880 100644
--- a/TODO.txt
+++ b/TODO.txt
@@ -1,7 +1,5 @@
 ---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) -----------------------------
-- repair stop words feature
 - document the code (classes, cfg files) and update tutorial
-IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
 - wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń.
 - testy zużycia pamięci
 - Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.
@@ -10,6 +8,8 @@ IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieś
 
 
 ---------------------------- Archive -----------------------------
+DONE - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
+DONE - repair stop words feature
 DONE - deal with 0 length patterns
 DONE - repair concordia-console test feature
 DONE - update tests
diff --git a/concordia/t/test_hash_generator.cpp b/concordia/t/test_hash_generator.cpp
index b378efa..61e1cfe 100644
--- a/concordia/t/test_hash_generator.cpp
+++ b/concordia/t/test_hash_generator.cpp
@@ -110,14 +110,13 @@ BOOST_AUTO_TEST_CASE( TokenVectorTest )
 
     std::vector<TokenAnnotation> tokens = tokenizedSentence->getTokens();
 
-    /*
+    /*    
     BOOST_FOREACH(TokenAnnotation annotation, tokens) {
         std::cout << annotation.getStart() << ","
                   << annotation.getEnd() << " type: "
                   << annotation.getType() << " value: "
                   << annotation.getValue() << std::endl;
     }
-    
     0,10 type: 0 value: ne_date
     13,14 type: 1 value: o
     16,24 type: 1 value: godzinie
diff --git a/tests/resources/concordia-config/concordia.cfg.in b/tests/resources/concordia-config/concordia.cfg.in
index 24df93c..5591f3b 100644
--- a/tests/resources/concordia-config/concordia.cfg.in
+++ b/tests/resources/concordia-config/concordia.cfg.in
@@ -28,7 +28,7 @@ html_tags_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/html_tags.txt"
 stop_words_enabled = "@STOP_WORDS_ENABLED@"
 
 # If stop_words_enabled is true, set the path to the stop words file
-#stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
+stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
 
 # File containing regular expressions that match named entities
 named_entities_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/named_entities.txt"