diff --git a/cat/versions_available/icd_plen.cfg b/cat/versions_available/icd_plen.cfg index 15bbdb2..7a4fd3a 100644 --- a/cat/versions_available/icd_plen.cfg +++ b/cat/versions_available/icd_plen.cfg @@ -1,7 +1,7 @@ dir@#@icd_plen concordia_host@#@localhost concordia_port@#@8800 -tmid@#@1 +tmid@#@3 desc@#@Witamy w interaktywnym demo systemu Concordia. System znajduje najdłuższe fragmenty zdania wejściowego w pamięci tłumaczeń. Proszę wpisać polskie zdanie w poniższe pole i nacisnąć Enter (albo użyć przycisku "search"). Aby zapoznać się z systemem możesz użyć wcześniej przygotowanych przykładów - po prostu kliknij link "apply" przy wybranym przykładzie. Po wyszukaniu, kliknij na wybrany podświetlony fragment, aby zobaczyć jego kontekst. enjoy@#@Życzymy udanej pracy z systemem! prompt@#@Wprowadź zdanie (po polsku): diff --git a/cat/versions_available/logofag_enpl.cfg b/cat/versions_available/logofag_enpl.cfg new file mode 100644 index 0000000..b8c636d --- /dev/null +++ b/cat/versions_available/logofag_enpl.cfg @@ -0,0 +1,8 @@ +dir@#@logofag_enpl +concordia_host@#@localhost +concordia_port@#@8800 +tmid@#@8 +desc@#@Witamy w interaktywnym demo systemu Concordia. System znajduje najdłuższe fragmenty zdania wejściowego w pamięci tłumaczeń. Proszę wpisać polskie zdanie w poniższe pole i nacisnąć Enter (albo użyć przycisku "search"). Aby zapoznać się z systemem możesz użyć wcześniej przygotowanych przykładów - po prostu kliknij link "apply" przy wybranym przykładzie. Po wyszukaniu, kliknij na wybrany podświetlony fragment, aby zobaczyć jego kontekst. +enjoy@#@Życzymy udanej pracy z systemem! +prompt@#@Wprowadź zdanie (po polsku): +suggestion@#@Pacjent cierpi na zapalenie ucha środkowego i dur brzuszny diff --git a/cat/versions_available/logofag_plen.cfg b/cat/versions_available/logofag_plen.cfg new file mode 100644 index 0000000..3adcf1d --- /dev/null +++ b/cat/versions_available/logofag_plen.cfg @@ -0,0 +1,8 @@ +dir@#@logofag_plen +concordia_host@#@localhost +concordia_port@#@8800 +tmid@#@7 +desc@#@Witamy w interaktywnym demo systemu Concordia. System znajduje najdłuższe fragmenty zdania wejściowego w pamięci tłumaczeń. Proszę wpisać polskie zdanie w poniższe pole i nacisnąć Enter (albo użyć przycisku "search"). Aby zapoznać się z systemem możesz użyć wcześniej przygotowanych przykładów - po prostu kliknij link "apply" przy wybranym przykładzie. Po wyszukaniu, kliknij na wybrany podświetlony fragment, aby zobaczyć jego kontekst. +enjoy@#@Życzymy udanej pracy z systemem! +prompt@#@Wprowadź zdanie (po polsku): +suggestion@#@Pacjent cierpi na zapalenie ucha środkowego i dur brzuszny diff --git a/cat/versions_enabled/logofag_enpl.cfg b/cat/versions_enabled/logofag_enpl.cfg new file mode 120000 index 0000000..c1c7f55 --- /dev/null +++ b/cat/versions_enabled/logofag_enpl.cfg @@ -0,0 +1 @@ +../versions_available/logofag_enpl.cfg \ No newline at end of file diff --git a/cat/versions_enabled/logofag_plen.cfg b/cat/versions_enabled/logofag_plen.cfg new file mode 120000 index 0000000..370b68b --- /dev/null +++ b/cat/versions_enabled/logofag_plen.cfg @@ -0,0 +1 @@ +../versions_available/logofag_plen.cfg \ No newline at end of file diff --git a/concordia-server/concordia_server.cpp b/concordia-server/concordia_server.cpp index 5f22118..c706ccb 100644 --- a/concordia-server/concordia_server.cpp +++ b/concordia-server/concordia_server.cpp @@ -246,7 +246,8 @@ std::string ConcordiaServer::handleRequest(std::string & requestString) { } else if (operation == CONCORDIA_SEARCH_OP) { std::string pattern = _getStringParameter(d, PATTERN_PARAM); int tmId = _getIntParameter(d, TM_ID_PARAM); - Logger::logString("concordia search pattern", pattern); + // careful! the logging below takes a lot of time + // Logger::logString("concordia search pattern", pattern); _searcherController->concordiaSearch(jsonWriter, pattern, tmId); } else if (operation == CONCORDIA_PHRASE_SEARCH_OP) { std::string pattern = _getStringParameter(d, PATTERN_PARAM); diff --git a/concordia-server/searcher_controller.cpp b/concordia-server/searcher_controller.cpp index 13dace8..ca7b1c6 100644 --- a/concordia-server/searcher_controller.cpp +++ b/concordia-server/searcher_controller.cpp @@ -131,7 +131,8 @@ void SearcherController::concordiaSearch(rapidjson::Writer::iterator it = _concordiasMap->find(tmId); if (it != _concordiasMap->end()) { TokenizedSentence originalPattern = it->second->tokenize(pattern, false, false); - std::string lemmatizedPattern = _lemmatizerFacade->lemmatizeIfNeeded(originalPattern.getTokenizedSentence(), tmId); + std::string lemmatizedPattern = + _lemmatizerFacade->lemmatizeIfNeeded(originalPattern.getTokenizedSentence(), tmId); boost::shared_ptr rawConcordiaResult = it->second->concordiaSearch(lemmatizedPattern, true); CompleteConcordiaSearchResult result = _unitDAO.getConcordiaResult(rawConcordiaResult, originalPattern); diff --git a/mgiza-aligner/dictionaries/logofag_full/en.bz2 b/mgiza-aligner/dictionaries/logofag_full/en.bz2 new file mode 100644 index 0000000..f192a7a Binary files /dev/null and b/mgiza-aligner/dictionaries/logofag_full/en.bz2 differ diff --git a/mgiza-aligner/dictionaries/logofag_full/pl.bz2 b/mgiza-aligner/dictionaries/logofag_full/pl.bz2 new file mode 100644 index 0000000..e18a643 Binary files /dev/null and b/mgiza-aligner/dictionaries/logofag_full/pl.bz2 differ diff --git a/tests/addLemmatizedTM.sh b/tests/addLemmatizedTM.sh index c0c93e9..e411375 100755 --- a/tests/addLemmatizedTM.sh +++ b/tests/addLemmatizedTM.sh @@ -1,7 +1,7 @@ #!/bin/sh -CORPUS_NAME="icd_dictionary" -SRC_LANG_ID=1 -TRG_LANG_ID=2 +CORPUS_NAME="logofag_enpl" +SRC_LANG_ID=2 +TRG_LANG_ID=1 ./addAlignedLemmatizedTM.py $CORPUS_NAME ../mgiza-aligner/corpora/$CORPUS_NAME/src_final.txt $SRC_LANG_ID ../mgiza-aligner/corpora/$CORPUS_NAME/trg_final.txt $TRG_LANG_ID ../mgiza-aligner/corpora/$CORPUS_NAME/aligned_final.txt diff --git a/tests/addLemmatizedTMfromParams.sh b/tests/addLemmatizedTMfromParams.sh new file mode 100755 index 0000000..1c61582 --- /dev/null +++ b/tests/addLemmatizedTMfromParams.sh @@ -0,0 +1,7 @@ +#!/bin/sh + +CORPUS_NAME=$1 +SRC_LANG_ID=$2 +TRG_LANG_ID=$3 + +./addAlignedLemmatizedTM.py $CORPUS_NAME ../mgiza-aligner/corpora/$CORPUS_NAME/src_final.txt $SRC_LANG_ID ../mgiza-aligner/corpora/$CORPUS_NAME/trg_final.txt $TRG_LANG_ID ../mgiza-aligner/corpora/$CORPUS_NAME/aligned_final.txt diff --git a/tests/build.sh b/tests/build.sh new file mode 100755 index 0000000..4985b50 --- /dev/null +++ b/tests/build.sh @@ -0,0 +1,8 @@ +#!/bin/sh + +./addLemmatizedTMfromParams.sh tmrepository_enhr 2 6 +./addTm.py 1 2 placeholder 1 +./addLemmatizedTMfromParams.sh icd_dictionary 1 2 +./addLemmatizedTMfromParams.sh icd_filtered 1 2 +./addLemmatizedTMfromParams.sh emea_plen 1 2 +./addLemmatizedTMfromParams.sh jrc_enes 2 4