original word positions
This commit is contained in:
parent
dba70b4e24
commit
a8c5fa0c75
4
TODO.txt
4
TODO.txt
@ -1,7 +1,5 @@
|
||||
---------------------------- Developer's private notes (language may vary, bo tak czasem wygodniej) -----------------------------
|
||||
- repair stop words feature
|
||||
- document the code (classes, cfg files) and update tutorial
|
||||
IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
|
||||
- wiele pamięci tłumaczeń: można je przechowywać w jednym indeksie, ale trzeba dodać tm_id jako metadane zdania (np. zamiast example length). Przy wyszukiwaniu należy filtrować wyniki, aby pochodziły z odpowiedniej pamięci tłumaczeń.
|
||||
- testy zużycia pamięci
|
||||
- Prawdopodobnie długość example w markers będzie potrzebna tylko anubisowi (który, jak się okazuje, jest wolny). Pomyśleć, do czego można wykorzystać markery, bo ich idea wydaje się niezła.
|
||||
@ -10,6 +8,8 @@ IN PROGRESS - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieś
|
||||
|
||||
|
||||
---------------------------- Archive -----------------------------
|
||||
DONE - concordia search zwraca pozycje tokenów z hash'a. Jak to odnieść do examples w korpusie? Należy przechowywać oryginalne pozycje tokenów w bazie danych concordia-server. Pozycje te będą obliczane przez funkcję generateTokenVector (przy użyciu listy oryginalnych pozycji, która będzie modyfikowana synchronicznie z każdą anonimizacją)
|
||||
DONE - repair stop words feature
|
||||
DONE - deal with 0 length patterns
|
||||
DONE - repair concordia-console test feature
|
||||
DONE - update tests
|
||||
|
@ -110,14 +110,13 @@ BOOST_AUTO_TEST_CASE( TokenVectorTest )
|
||||
|
||||
std::vector<TokenAnnotation> tokens = tokenizedSentence->getTokens();
|
||||
|
||||
/*
|
||||
/*
|
||||
BOOST_FOREACH(TokenAnnotation annotation, tokens) {
|
||||
std::cout << annotation.getStart() << ","
|
||||
<< annotation.getEnd() << " type: "
|
||||
<< annotation.getType() << " value: "
|
||||
<< annotation.getValue() << std::endl;
|
||||
}
|
||||
|
||||
0,10 type: 0 value: ne_date
|
||||
13,14 type: 1 value: o
|
||||
16,24 type: 1 value: godzinie
|
||||
|
@ -28,7 +28,7 @@ html_tags_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/html_tags.txt"
|
||||
stop_words_enabled = "@STOP_WORDS_ENABLED@"
|
||||
|
||||
# If stop_words_enabled is true, set the path to the stop words file
|
||||
#stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
|
||||
stop_words_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/stop_words.txt"
|
||||
|
||||
# File containing regular expressions that match named entities
|
||||
named_entities_path = "@TEST_RESOURCES_DIRECTORY@/tokenizer/named_entities.txt"
|
||||
|
Loading…
Reference in New Issue
Block a user