original word positions

This commit is contained in:
rjawor 2015-06-27 10:09:49 +02:00
parent dba70b4e24
commit a8c5fa0c75
3 changed files with 4 additions and 5 deletions

View File

@ -1,7 +1,5 @@
---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) ----------------------------- ---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) -----------------------------
- repair stop words feature
- document the code (classes, cfg files) and update tutorial - document the code (classes, cfg files) and update tutorial
IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
- wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń. - wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń.
- testy zużycia pamięci - testy zużycia pamięci
- Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła. - Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.
@ -10,6 +8,8 @@ IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieś
---------------------------- Archive ----------------------------- ---------------------------- Archive -----------------------------
DONE - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
DONE - repair stop words feature
DONE - deal with 0 length patterns DONE - deal with 0 length patterns
DONE - repair concordia-console test feature DONE - repair concordia-console test feature
DONE - update tests DONE - update tests

View File

@ -110,14 +110,13 @@ BOOST_AUTO_TEST_CASE( TokenVectorTest )
std::vector<TokenAnnotation> tokens = tokenizedSentence->getTokens(); std::vector<TokenAnnotation> tokens = tokenizedSentence->getTokens();
/* /*
BOOST_FOREACH(TokenAnnotation annotation, tokens) { BOOST_FOREACH(TokenAnnotation annotation, tokens) {
std::cout << annotation.getStart() << "," std::cout << annotation.getStart() << ","
<< annotation.getEnd() << " type: " << annotation.getEnd() << " type: "
<< annotation.getType() << " value: " << annotation.getType() << " value: "
<< annotation.getValue() << std::endl; << annotation.getValue() << std::endl;
} }
0,10 type: 0 value: ne_date 0,10 type: 0 value: ne_date
13,14 type: 1 value: o 13,14 type: 1 value: o
16,24 type: 1 value: godzinie 16,24 type: 1 value: godzinie

View File

@ -28,7 +28,7 @@ html_tags_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/html_tags.txt"
stop_words_enabled = "@STOP_WORDS_ENABLED@" stop_words_enabled = "@STOP_WORDS_ENABLED@"
# If stop_words_enabled is true, set the path to the stop words file # If stop_words_enabled is true, set the path to the stop words file
#stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt" stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
# File containing regular expressions that match named entities # File containing regular expressions that match named entities
named_entities_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/named_entities.txt" named_entities_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/named_entities.txt"