original word positions
This commit is contained in:
parent
dba70b4e24
commit
a8c5fa0c75
4
TODO.txt
4
TODO.txt
@ -1,7 +1,5 @@
|
|||||||
---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) -----------------------------
|
---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) -----------------------------
|
||||||
- repair stop words feature
|
|
||||||
- document the code (classes, cfg files) and update tutorial
|
- document the code (classes, cfg files) and update tutorial
|
||||||
IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
|
|
||||||
- wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń.
|
- wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń.
|
||||||
- testy zużycia pamięci
|
- testy zużycia pamięci
|
||||||
- Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.
|
- Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.
|
||||||
@ -10,6 +8,8 @@ IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieś
|
|||||||
|
|
||||||
|
|
||||||
---------------------------- Archive -----------------------------
|
---------------------------- Archive -----------------------------
|
||||||
|
DONE - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
|
||||||
|
DONE - repair stop words feature
|
||||||
DONE - deal with 0 length patterns
|
DONE - deal with 0 length patterns
|
||||||
DONE - repair concordia-console test feature
|
DONE - repair concordia-console test feature
|
||||||
DONE - update tests
|
DONE - update tests
|
||||||
|
@ -110,14 +110,13 @@ BOOST_AUTO_TEST_CASE( TokenVectorTest )
|
|||||||
|
|
||||||
std::vector<TokenAnnotation> tokens = tokenizedSentence->getTokens();
|
std::vector<TokenAnnotation> tokens = tokenizedSentence->getTokens();
|
||||||
|
|
||||||
/*
|
/*
|
||||||
BOOST_FOREACH(TokenAnnotation annotation, tokens) {
|
BOOST_FOREACH(TokenAnnotation annotation, tokens) {
|
||||||
std::cout << annotation.getStart() << ","
|
std::cout << annotation.getStart() << ","
|
||||||
<< annotation.getEnd() << " type: "
|
<< annotation.getEnd() << " type: "
|
||||||
<< annotation.getType() << " value: "
|
<< annotation.getType() << " value: "
|
||||||
<< annotation.getValue() << std::endl;
|
<< annotation.getValue() << std::endl;
|
||||||
}
|
}
|
||||||
|
|
||||||
0,10 type: 0 value: ne_date
|
0,10 type: 0 value: ne_date
|
||||||
13,14 type: 1 value: o
|
13,14 type: 1 value: o
|
||||||
16,24 type: 1 value: godzinie
|
16,24 type: 1 value: godzinie
|
||||||
|
@ -28,7 +28,7 @@ html_tags_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/html_tags.txt"
|
|||||||
stop_words_enabled = "@STOP_WORDS_ENABLED@"
|
stop_words_enabled = "@STOP_WORDS_ENABLED@"
|
||||||
|
|
||||||
# If stop_words_enabled is true, set the path to the stop words file
|
# If stop_words_enabled is true, set the path to the stop words file
|
||||||
#stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
|
stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
|
||||||
|
|
||||||
# File containing regular expressions that match named entities
|
# File containing regular expressions that match named entities
|
||||||
named_entities_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/named_entities.txt"
|
named_entities_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/named_entities.txt"
|
||||||
|
Loading…
Reference in New Issue
Block a user