From 89fb77bf5873abf367144b2076ae2456ed51d046 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Rafa=C5=82=20Jaworski?= <rjawor@amu.edu.pl>
Date: Fri, 10 Mar 2017 14:52:01 +0100
Subject: [PATCH] working lemmatization

---
 concordia-server/bool_param.cpp               |  24 +++
 concordia-server/bool_param.hpp               |  24 +++
 concordia-server/concordia_server.cpp         |  43 ++++-
 concordia-server/concordia_server.hpp         |   2 +
 concordia-server/config.hpp.in                |   3 +
 concordia-server/db_connection.cpp            |  22 ++-
 concordia-server/db_connection.hpp            |   2 +
 concordia-server/index_controller.cpp         |  93 +++++++---
 concordia-server/index_controller.hpp         |  18 +-
 concordia-server/lemmatizer_facade.cpp        |  25 +++
 concordia-server/lemmatizer_facade.hpp        |   8 +
 concordia-server/searcher_controller.cpp      |  62 +++----
 concordia-server/searcher_controller.hpp      |  10 +-
 concordia-server/tm_dao.cpp                   |  29 ++-
 concordia-server/tm_dao.hpp                   |   5 +
 concordia-server/unit_dao.cpp                 |  52 +++---
 concordia-server/unit_dao.hpp                 |  11 +-
 db/concordia_server.sql                       |   3 +-
 .../.vs/LemmaGenSentenceLemmatizer/v14/.suo   | Bin 38912 -> 52736 bytes
 .../LemmaGenSentenceLemmatizer/Program.cs     |  18 +-
 .../bin/Debug/LemmaGenSentenceLemmatizer.exe  | Bin 6656 -> 6656 bytes
 .../bin/Debug/LemmaGenSentenceLemmatizer.pdb  | Bin 15872 -> 15872 bytes
 .../DesignTimeResolveAssemblyReferences.cache | Bin 0 -> 713 bytes
 ...tizer.csprojResolveAssemblyReference.cache | Bin 13306 -> 22553 bytes
 .../obj/Debug/LemmaGenSentenceLemmatizer.exe  | Bin 6656 -> 6656 bytes
 .../obj/Debug/LemmaGenSentenceLemmatizer.pdb  | Bin 15872 -> 15872 bytes
 mgiza-aligner/Makefile                        |  16 +-
 mgiza-aligner/clean-corpus-n.perl             | 168 ++++++++++++++++++
 mgiza-aligner/sortGizaAlignments.py           |  26 +++
 tests/addAlignedLemmatizedTM.py               |  60 ++++---
 tests/addLemmatizedTM.sh                      |   7 +
 tests/addTm.py                                |   3 +-
 32 files changed, 592 insertions(+), 142 deletions(-)
 create mode 100644 concordia-server/bool_param.cpp
 create mode 100644 concordia-server/bool_param.hpp
 create mode 100644 mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/DesignTimeResolveAssemblyReferences.cache
 create mode 100755 mgiza-aligner/clean-corpus-n.perl
 create mode 100755 mgiza-aligner/sortGizaAlignments.py
 mode change 100644 => 100755 tests/addAlignedLemmatizedTM.py
 create mode 100755 tests/addLemmatizedTM.sh
diff --git a/concordia-server/bool_param.cpp b/concordia-server/bool_param.cpp
new file mode 100644
index 0000000..8029c8f
--- /dev/null
+++ b/concordia-server/bool_param.cpp
@@ -0,0 +1,24 @@
+#include "bool_param.hpp"
+
+
+BoolParam::BoolParam(bool value):_value(value) {
+}
+
+BoolParam::~BoolParam() {
+}
+
+const char * BoolParam::getValue() {
+    if (_value) {
+        return "t";
+    } else {
+        return "f";
+    }
+}
+
+const int BoolParam::getLength() {
+    return 1;
+}
+
+const int BoolParam::isBinary() {
+    return 0;
+}
diff --git a/concordia-server/bool_param.hpp b/concordia-server/bool_param.hpp
new file mode 100644
index 0000000..ddb08f5
--- /dev/null
+++ b/concordia-server/bool_param.hpp
@@ -0,0 +1,24 @@
+#ifndef BOOL_PARAM_HDR
+#define BOOL_PARAM_HDR
+
+#include "query_param.hpp"
+
+class BoolParam : public QueryParam {
+public:
+    /*! Constructor.
+    */
+    BoolParam(bool value);
+    /*! Destructor.
+    */
+    virtual ~BoolParam();
+
+    const char * getValue();
+
+    const int getLength();
+
+    const int isBinary();
+private:
+    bool _value;
+};
+
+#endif
diff --git a/concordia-server/concordia_server.cpp b/concordia-server/concordia_server.cpp
index d33fba2..a5689d7 100644
--- a/concordia-server/concordia_server.cpp
+++ b/concordia-server/concordia_server.cpp
@@ -5,6 +5,7 @@
 #include <iostream>
 #include <fstream>
 #include <ctime>
+#include <utility>
 
 #include <concordia/interval.hpp>
 
@@ -19,16 +20,17 @@
 ConcordiaServer::ConcordiaServer(const std::string & configFilePath)
                                          throw(ConcordiaException) :
                                          _configFilePath(configFilePath) {
+
     std::vector<int> tmIds = _tmDAO.getTmIds();
     _concordiasMap = boost::shared_ptr<boost::ptr_map<int,Concordia> >(new boost::ptr_map<int,Concordia>());
 
     BOOST_FOREACH(int & tmId, tmIds) {
         _addTm(tmId);
     }
-    _indexController = boost::shared_ptr<IndexController> (new IndexController(_concordiasMap));
-    _searcherController = boost::shared_ptr<SearcherController> (new SearcherController(_concordiasMap));
-
     _lemmatizerFacade = boost::shared_ptr<LemmatizerFacade> (new LemmatizerFacade());
+
+    _indexController = boost::shared_ptr<IndexController> (new IndexController(_concordiasMap, _lemmatizerFacade));
+    _searcherController = boost::shared_ptr<SearcherController> (new SearcherController(_concordiasMap, _lemmatizerFacade));
 }
 
 ConcordiaServer::~ConcordiaServer() {
@@ -95,6 +97,27 @@ std::string ConcordiaServer::handleRequest(std::string & requestString) {
                     }
                 }
                 _indexController->addAlignedSentences(jsonWriter, sourceSentences, targetSentences, tmId);
+            } else if (operation == ADD_ALIGNED_LEMMATIZED_SENTENCES_OP) {
+                std::vector<std::string> sourceSentences;
+                std::vector<std::string> targetSentences;
+                std::vector<std::string> alignmentStrings;
+                int tmId = d[TM_ID_PARAM].GetInt();
+                // loading data from json
+                const rapidjson::Value & sentencesArray = d[EXAMPLES_PARAM];
+                Logger::log("addAlignedLemmatizedSentences");
+                Logger::logInt("lemmatized sentences to add", sentencesArray.Size());
+                Logger::logInt("tm id", tmId);
+                for (rapidjson::SizeType i = 0; i < sentencesArray.Size(); i++) {
+                    if (sentencesArray[i].Size() != 3) {
+                        JsonGenerator::signalError(jsonWriter, "sentence should be an array of 3 elements");
+                        break;
+                    } else {
+                        sourceSentences.push_back(sentencesArray[i][0].GetString());
+                        targetSentences.push_back(sentencesArray[i][1].GetString());
+                        alignmentStrings.push_back(sentencesArray[i][2].GetString());
+                    }
+                }
+                _indexController->addAlignedLemmatizedSentences(jsonWriter, sourceSentences, targetSentences, alignmentStrings, tmId);
             } else if (operation == "lemmatize") {
                 std::string sentence = _getStringParameter(d, "sentence");
                 std::string languageCode = _getStringParameter(d, "languageCode");
@@ -130,7 +153,8 @@ std::string ConcordiaServer::handleRequest(std::string & requestString) {
                 int sourceLangId = _getIntParameter(d, SOURCE_LANG_PARAM);
                 int targetLangId = _getIntParameter(d, TARGET_LANG_PARAM);
                 std::string name = _getStringParameter(d, NAME_PARAM);
-                int newId = _tmDAO.addTm(sourceLangId, targetLangId, name);
+                bool lemmatized = _getBoolParameter(d, TM_LEMMATIZED_PARAM);
+                int newId = _tmDAO.addTm(sourceLangId, targetLangId, name, lemmatized);
                 _addTm(newId);
 
                 jsonWriter.StartObject();
@@ -179,6 +203,17 @@ int ConcordiaServer::_getIntParameter(rapidjson::Document & d, const char * name
     }
 }
 
+int ConcordiaServer::_getBoolParameter(rapidjson::Document & d, const char * name)
+                                                       throw (ConcordiaException) {
+    rapidjson::Value::ConstMemberIterator itr = d.FindMember(name);
+    if (itr != d.MemberEnd()) {
+        bool value = itr->value.GetBool();
+        return value;
+    } else {
+        throw ConcordiaException("missing parameter: " + std::string(name));
+    }
+}
+
 void ConcordiaServer::_addTm(int tmId) {
     std::stringstream indexPath;
     indexPath << INDEX_DIRECTORY << "/tm_" << tmId;
diff --git a/concordia-server/concordia_server.hpp b/concordia-server/concordia_server.hpp
index c0e11c2..2822a9e 100644
--- a/concordia-server/concordia_server.hpp
+++ b/concordia-server/concordia_server.hpp
@@ -38,6 +38,8 @@ private:
 
     int _getIntParameter(rapidjson::Document & d, const char * name) throw (ConcordiaException);
 
+    int _getBoolParameter(rapidjson::Document & d, const char * name) throw (ConcordiaException);
+
     void _addTm(int tmId);
 
     std::string _configFilePath;
diff --git a/concordia-server/config.hpp.in b/concordia-server/config.hpp.in
index dac7ae6..571d18a 100644
--- a/concordia-server/config.hpp.in
+++ b/concordia-server/config.hpp.in
@@ -16,7 +16,9 @@
 #define SOURCE_SENTENCE_PARAM "sourceSentence"
 #define TARGET_SENTENCE_PARAM "targetSentence"
 #define TM_ID_PARAM "tmId"
+#define TM_LEMMATIZED_PARAM "tmLemmatized"
 #define SENTENCES_PARAM "sentences"
+#define EXAMPLES_PARAM "examples"
 #define SOURCE_LANG_PARAM "sourceLangId"
 #define TARGET_LANG_PARAM "targetLangId"
 #define NAME_PARAM "name"
@@ -25,6 +27,7 @@
 #define ADD_SENTENCE_OP "addSentence"
 #define ADD_SENTENCES_OP "addSentences"
 #define ADD_ALIGNED_SENTENCES_OP "addAlignedSentences"
+#define ADD_ALIGNED_LEMMATIZED_SENTENCES_OP "addAlignedLemmatizedSentences"
 #define REFRESH_INDEX_OP "refreshIndex"
 #define SIMPLE_SEARCH_OP "simpleSearch"
 #define CONCORDIA_SEARCH_OP "concordiaSearch"
diff --git a/concordia-server/db_connection.cpp b/concordia-server/db_connection.cpp
index c46516c..8b26eeb 100644
--- a/concordia-server/db_connection.cpp
+++ b/concordia-server/db_connection.cpp
@@ -17,7 +17,7 @@ DBconnection::DBconnection() throw(ConcordiaException) {
         ss << "Connection string: " << connectionInfo;
         throw ConcordiaException(ss.str());
     }
-    
+
 }
 
 DBconnection::~DBconnection() {
@@ -90,8 +90,8 @@ PGresult * DBconnection::execute(std::string query,
             paramFormats[index] = param->isBinary();
             index++;
         }
-        
-        
+
+
         PGresult * result = PQexecParams(_connection,
                                          query.c_str(),
                                          params.size(),
@@ -129,7 +129,18 @@ int DBconnection::getIntValue(PGresult * result, int row, int col) throw (Concor
     } catch (std::exception & e) {
         std::stringstream ss;
         ss << "Error getting int value. Message: " << e.what();
-        throw ConcordiaException(ss.str());    
+        throw ConcordiaException(ss.str());
+    }
+}
+
+bool DBconnection::getBoolValue(PGresult * result, int row, int col) throw (ConcordiaException) {
+    try {
+        char * valueStr = PQgetvalue(result,row,col);
+        return std::string(valueStr) == "t";
+    } catch (std::exception & e) {
+        std::stringstream ss;
+        ss << "Error getting bool value. Message: " << e.what();
+        throw ConcordiaException(ss.str());
     }
 }
 
@@ -150,7 +161,6 @@ int DBconnection::getRowCount(PGresult * result) throw (ConcordiaException) {
     } catch (std::exception & e) {
         std::stringstream ss;
         ss << "Error getting int value. Message: " << e.what();
-        throw ConcordiaException(ss.str());    
+        throw ConcordiaException(ss.str());
     }
 }
-
diff --git a/concordia-server/db_connection.hpp b/concordia-server/db_connection.hpp
index c65fb35..9542fb8 100644
--- a/concordia-server/db_connection.hpp
+++ b/concordia-server/db_connection.hpp
@@ -31,6 +31,8 @@ public:
 
     int getIntValue(PGresult * result, int row, int col)  throw (ConcordiaException);
 
+    bool getBoolValue(PGresult * result, int row, int col)  throw (ConcordiaException);
+
     std::string getStringValue(PGresult * result, int row, int col) throw (ConcordiaException);
 
     int getRowCount(PGresult * result)  throw (ConcordiaException);
diff --git a/concordia-server/index_controller.cpp b/concordia-server/index_controller.cpp
index 60d65f0..37de410 100644
--- a/concordia-server/index_controller.cpp
+++ b/concordia-server/index_controller.cpp
@@ -14,9 +14,11 @@
 #include "json_generator.hpp"
 #include "logger.hpp"
 
-IndexController::IndexController(boost::shared_ptr<boost::ptr_map<int,Concordia> >concordiasMap)
+IndexController::IndexController(boost::shared_ptr<boost::ptr_map<int,Concordia> >concordiasMap,
+                                 boost::shared_ptr<LemmatizerFacade> lemmatizerFacade)
                                                                     throw(ConcordiaException):
-                                                                     _concordiasMap(concordiasMap) {
+                                                                     _concordiasMap(concordiasMap),
+                                                                     _lemmatizerFacade(lemmatizerFacade) {
 }
 
 IndexController::~IndexController() {
@@ -32,9 +34,10 @@ void IndexController::addSentence(
     try {
         boost::ptr_map<int,Concordia>::iterator it = _concordiasMap->find(tmId);
         if (it != _concordiasMap->end()) {
+            TokenizedSentence tokenizedLemmatizedSentence = it->second->tokenize(_lemmatizerFacade->lemmatizeIfNeeded(sourceSentence, tmId));
             TokenizedSentence tokenizedSentence = it->second->tokenize(sourceSentence);
-            int sentenceId = _unitDAO.addSentence(tokenizedSentence, targetSentence, tmId);     
-            it->second->addTokenizedExample(tokenizedSentence, sentenceId);
+            int sentenceId = _unitDAO.addSentence(tokenizedSentence, targetSentence, tmId);
+            it->second->addTokenizedExample(tokenizedLemmatizedSentence, sentenceId);
             it->second->refreshSAfromRAM();
 
             jsonWriter.StartObject();
@@ -42,20 +45,20 @@ void IndexController::addSentence(
             jsonWriter.String("success");
             jsonWriter.EndObject();
         } else {
-            JsonGenerator::signalError(jsonWriter, "no such tm!");        
+            JsonGenerator::signalError(jsonWriter, "no such tm!");
         }
     } catch (ConcordiaException & e) {
         std::stringstream errorstream;
         errorstream << "concordia error: " << e.what();
-        JsonGenerator::signalError(jsonWriter, errorstream.str());        
+        JsonGenerator::signalError(jsonWriter, errorstream.str());
     } catch (std::exception & e) {
         std::stringstream errorstream;
         errorstream << "general error: " << e.what();
-        JsonGenerator::signalError(jsonWriter, errorstream.str());        
+        JsonGenerator::signalError(jsonWriter, errorstream.str());
     } catch (...) {
         std::stringstream errorstream;
         errorstream << "unexpected error occurred";
-        JsonGenerator::signalError(jsonWriter, errorstream.str());        
+        JsonGenerator::signalError(jsonWriter, errorstream.str());
     }
 }
 
@@ -67,21 +70,22 @@ void IndexController::addSentences(
     try {
         boost::ptr_map<int,Concordia>::iterator it = _concordiasMap->find(tmId);
         if (it != _concordiasMap->end()) {
+            std::vector<TokenizedSentence> tokenizedLemmatizedSentences = it->second->tokenizeAll(_lemmatizerFacade->lemmatizeSentencesIfNeeded(sourceSentences, tmId));
             std::vector<TokenizedSentence> tokenizedSentences = it->second->tokenizeAll(sourceSentences);
             std::vector<SUFFIX_MARKER_TYPE> sentenceIds = _unitDAO.addSentences(tokenizedSentences, targetSentences, tmId);
-            it->second->addAllTokenizedExamples(tokenizedSentences, sentenceIds);
+            it->second->addAllTokenizedExamples(tokenizedLemmatizedSentences, sentenceIds);
 
             jsonWriter.StartObject();
             jsonWriter.String("status");
             jsonWriter.String("success");
             jsonWriter.EndObject();
         } else {
-            JsonGenerator::signalError(jsonWriter, "no such tm!");        
+            JsonGenerator::signalError(jsonWriter, "no such tm!");
         }
     } catch (ConcordiaException & e) {
         std::stringstream errorstream;
         errorstream << "concordia error: " << e.what();
-        JsonGenerator::signalError(jsonWriter, errorstream.str());        
+        JsonGenerator::signalError(jsonWriter, errorstream.str());
     }
 }
 
@@ -96,28 +100,66 @@ void IndexController::addAlignedSentences(
             std::vector<std::string> sourceSentences;
             std::vector<std::vector<std::vector<int> > > allAlignments;
             _getSourceSentencesAndAlignments(sourceSentences, allAlignments, rawSourceSentences);
-            
-            std::vector<TokenizedSentence> tokenizedSourceSentences = it->second->tokenizeAll(sourceSentences, true, true);            
+
+            std::vector<TokenizedSentence> tokenizedSourceSentences = it->second->tokenizeAll(sourceSentences, true, true);
             std::vector<TokenizedSentence> tokenizedTargetSentences = it->second->tokenizeAll(targetSentences, true, false);
 
             std::vector<SUFFIX_MARKER_TYPE> sentenceIds = _unitDAO.addAlignedSentences(tokenizedSourceSentences, tokenizedTargetSentences, allAlignments, tmId);
             for(int index = 0; index < tokenizedSourceSentences.size(); index++) {
                 it->second->addTokenizedExample(tokenizedSourceSentences.at(index), sentenceIds.at(index));
-            } 
+            }
             jsonWriter.StartObject();
             jsonWriter.String("status");
             jsonWriter.String("success");
             jsonWriter.EndObject();
         } else {
-            JsonGenerator::signalError(jsonWriter, "no such tm!");        
+            JsonGenerator::signalError(jsonWriter, "no such tm!");
         }
     } catch (ConcordiaException & e) {
         std::stringstream errorstream;
         errorstream << "concordia error: " << e.what();
-        JsonGenerator::signalError(jsonWriter, errorstream.str());        
+        JsonGenerator::signalError(jsonWriter, errorstream.str());
     }
 }
 
+void IndexController::addAlignedLemmatizedSentences(
+                 rapidjson::Writer<rapidjson::StringBuffer> & jsonWriter,
+                 const std::vector<std::string> & sourceSentences,
+                 const std::vector<std::string> & targetSentences,
+                 const std::vector<std::string> & alignmentStrings,
+                 const int tmId) {
+    try {
+        boost::ptr_map<int,Concordia>::iterator it = _concordiasMap->find(tmId);
+        if (it != _concordiasMap->end()) {
+            std::vector<std::string> lemmatizedSourceSentences;
+            std::vector<std::vector<std::vector<int> > > allAlignments;
+            _getSourceSentencesAndAlignments(lemmatizedSourceSentences, allAlignments, alignmentStrings);
+
+            std::vector<TokenizedSentence> tokenizedLemmatizedSourceSentences = it->second->tokenizeAll(lemmatizedSourceSentences, true, true);
+            std::vector<TokenizedSentence> tokenizedSourceSentences = it->second->tokenizeAll(sourceSentences, true, false);
+            std::vector<TokenizedSentence> tokenizedTargetSentences = it->second->tokenizeAll(targetSentences, true, false);
+
+            std::vector<SUFFIX_MARKER_TYPE> sentenceIds =
+
+            _unitDAO.addAlignedSentences(tokenizedSourceSentences, tokenizedTargetSentences, allAlignments, tmId);
+            for(int index = 0; index < tokenizedLemmatizedSourceSentences.size(); index++) {
+                it->second->addTokenizedExample(tokenizedLemmatizedSourceSentences.at(index), sentenceIds.at(index));
+            }
+            jsonWriter.StartObject();
+            jsonWriter.String("status");
+            jsonWriter.String("success");
+            jsonWriter.EndObject();
+        } else {
+            JsonGenerator::signalError(jsonWriter, "no such tm!");
+        }
+    } catch (ConcordiaException & e) {
+        std::stringstream errorstream;
+        errorstream << "concordia error: " << e.what();
+        JsonGenerator::signalError(jsonWriter, errorstream.str());
+    }
+}
+
+
 void IndexController::refreshIndexFromRAM(rapidjson::Writer<rapidjson::StringBuffer> & jsonWriter,
                                           const int tmId) {
     try {
@@ -130,12 +172,12 @@ void IndexController::refreshIndexFromRAM(rapidjson::Writer<rapidjson::StringBuf
             jsonWriter.String("success");
             jsonWriter.EndObject();
         } else {
-            JsonGenerator::signalError(jsonWriter, "no such tm!");        
+            JsonGenerator::signalError(jsonWriter, "no such tm!");
         }
     } catch (ConcordiaException & e) {
         std::stringstream errorstream;
         errorstream << "concordia error: " << e.what();
-        JsonGenerator::signalError(jsonWriter, errorstream.str());        
+        JsonGenerator::signalError(jsonWriter, errorstream.str());
     }
 
 }
@@ -147,10 +189,10 @@ void IndexController::_getSourceSentencesAndAlignments(
 
     for (int i = 0; i<rawSourceSentences.size(); i++) {
         std::string rawSourceSentence = rawSourceSentences[i];
-        
+
         std::string sourceSentence = "";
         std::vector<std::vector<int> > alignments;
-        
+
         UnicodeString s(rawSourceSentence.c_str());
         boost::u32regex_iterator<const UChar*> begin(
                            boost::make_u32regex_iterator(
@@ -159,21 +201,21 @@ void IndexController::_getSourceSentencesAndAlignments(
                            )
                                                );
         boost::u32regex_iterator<const UChar*> end;
-        
+
         for (; begin != end; ++begin) {
             UnicodeString tokenUTF8((*begin)[1].first, (*begin).length(1));
             std::string token;
             tokenUTF8.toUTF8String(token);
 
             if (token != "NULL") {
-                std::string numbers((*begin)[2].first, (*begin)[2].second);            
+                std::string numbers((*begin)[2].first, (*begin)[2].second);
                 std::istringstream iss(numbers);
                 std::vector<std::string> numberStrings;
                 std::copy(std::istream_iterator<std::string>(iss),
                           std::istream_iterator<std::string>(),
                           std::back_inserter(numberStrings));
 
-                std::vector<int> tokenAlignments;                
+                std::vector<int> tokenAlignments;
                 for (int j=0;j<numberStrings.size();j++) {
                     int n = atoi(numberStrings[j].c_str()) - 1; //subtracting 1 as we want alignments to be 0-based
                     tokenAlignments.push_back(n);
@@ -182,11 +224,10 @@ void IndexController::_getSourceSentencesAndAlignments(
                 sourceSentence += token + " ";
             }
         }
-        
+
         sourceSentence = sourceSentence.substr(0, sourceSentence.length()-1);
-        
+
         sourceSentences.push_back(sourceSentence);
         allAlignments.push_back(alignments);
     }
 }
-
diff --git a/concordia-server/index_controller.hpp b/concordia-server/index_controller.hpp
index dea675d..c75d9ab 100644
--- a/concordia-server/index_controller.hpp
+++ b/concordia-server/index_controller.hpp
@@ -10,6 +10,8 @@
 
 
 #include "unit_dao.hpp"
+#include "lemmatizer_facade.hpp"
+
 
 #include "rapidjson/writer.h"
 
@@ -17,7 +19,8 @@ class IndexController {
 public:
     /*! Constructor.
     */
-    explicit IndexController(boost::shared_ptr<boost::ptr_map<int,Concordia> >concordiasMap)
+    explicit IndexController(boost::shared_ptr<boost::ptr_map<int,Concordia> >concordiasMap,
+                             boost::shared_ptr<LemmatizerFacade> lemmatizerFacade)
                                                                    throw(ConcordiaException);
     /*! Destructor.
     */
@@ -38,9 +41,16 @@ public:
                              const std::vector<std::string> & targetSentences,
                              const int tmId);
 
+    void addAlignedLemmatizedSentences(
+                          rapidjson::Writer<rapidjson::StringBuffer> & jsonWriter,
+                          const std::vector<std::string> & sourceSentences,
+                          const std::vector<std::string> & targetSentences,
+                          const std::vector<std::string> & alignmentStrings,
+                          const int tmId);
+
     void refreshIndexFromRAM(rapidjson::Writer<rapidjson::StringBuffer> & jsonWriter,
                              const int tmId);
-    
+
 private:
     void _getSourceSentencesAndAlignments(
                             std::vector<std::string> & sourceSentences,
@@ -48,7 +58,9 @@ private:
                             const std::vector<std::string> & rawSourceSentences);
 
     boost::shared_ptr<boost::ptr_map<int,Concordia> > _concordiasMap;
-    
+
+    boost::shared_ptr<LemmatizerFacade> _lemmatizerFacade;
+
     UnitDAO _unitDAO;
 };
 
diff --git a/concordia-server/lemmatizer_facade.cpp b/concordia-server/lemmatizer_facade.cpp
index f6adc31..43b0aae 100644
--- a/concordia-server/lemmatizer_facade.cpp
+++ b/concordia-server/lemmatizer_facade.cpp
@@ -1,5 +1,7 @@
 #include "lemmatizer_facade.hpp"
 
+#include <boost/foreach.hpp>
+
 
 LemmatizerFacade::LemmatizerFacade() throw(ConcordiaException) {
     _lemmatizersMap = boost::ptr_map<std::string,SocketLemmatizer>();
@@ -28,3 +30,26 @@ std::string LemmatizerFacade::lemmatizeSentence(std::string languageCode, std::s
     }
 
 }
+
+std::string LemmatizerFacade::lemmatizeIfNeeded(std::string pattern, int tmId) {
+    std::pair<bool, std::string> tmInfo = _tmDAO.getTmInfo(tmId);
+    if (tmInfo.first) {
+        return lemmatizeSentence(tmInfo.second, pattern);
+    } else {
+        return pattern;
+    }
+}
+
+std::vector<std::string> LemmatizerFacade::lemmatizeSentencesIfNeeded(std::vector<std::string> patterns, int tmId) {
+    std::pair<bool, std::string> tmInfo = _tmDAO.getTmInfo(tmId);
+    if (tmInfo.first) {
+        std::vector<std::string> result;
+        BOOST_FOREACH(std::string & pattern, patterns) {
+            result.push_back(lemmatizeSentence(tmInfo.second, pattern));
+        }
+        return result;
+    } else {
+        return patterns;
+    }
+
+}
diff --git a/concordia-server/lemmatizer_facade.hpp b/concordia-server/lemmatizer_facade.hpp
index 7eea156..e9f5c3e 100644
--- a/concordia-server/lemmatizer_facade.hpp
+++ b/concordia-server/lemmatizer_facade.hpp
@@ -2,6 +2,7 @@
 #define LEMMATIZER_FACADE_HDR
 
 #include "socket_lemmatizer.hpp"
+#include "tm_dao.hpp"
 
 #include <string>
 #include <concordia/concordia_exception.hpp>
@@ -18,8 +19,15 @@ public:
     virtual ~LemmatizerFacade();
 
     std::string lemmatizeSentence(std::string languageCode, std::string sentence);
+
+    std::string lemmatizeIfNeeded(std::string pattern, int tmId);
+
+    std::vector<std::string> lemmatizeSentencesIfNeeded(std::vector<std::string> patterns, int tmId);
+
 private:
     boost::ptr_map<std::string,SocketLemmatizer> _lemmatizersMap;
+
+    TmDAO _tmDAO;
 };
 
 #endif
diff --git a/concordia-server/searcher_controller.cpp b/concordia-server/searcher_controller.cpp
index 11d36ac..dd7eb03 100644
--- a/concordia-server/searcher_controller.cpp
+++ b/concordia-server/searcher_controller.cpp
@@ -8,9 +8,11 @@
 #include "logger.hpp"
 
 
-SearcherController::SearcherController(boost::shared_ptr<boost::ptr_map<int,Concordia> >concordiasMap)
+SearcherController::SearcherController(boost::shared_ptr<boost::ptr_map<int,Concordia> >concordiasMap,
+                                       boost::shared_ptr<LemmatizerFacade> lemmatizerFacade)
                                                                      throw(ConcordiaException):
-                                                                     _concordiasMap(concordiasMap) {
+                                                                     _concordiasMap(concordiasMap),
+                                                                     _lemmatizerFacade(lemmatizerFacade) {
 }
 
 SearcherController::~SearcherController() {
@@ -22,6 +24,7 @@ void SearcherController::simpleSearch(rapidjson::Writer<rapidjson::StringBuffer>
                                       const int tmId) {
     boost::ptr_map<int,Concordia>::iterator it = _concordiasMap->find(tmId);
     if (it != _concordiasMap->end()) {
+        pattern = _lemmatizerFacade->lemmatizeIfNeeded(pattern, tmId);
         std::vector<SimpleSearchResult> results = _unitDAO.getSearchResults(it->second->simpleSearch(pattern));
 
         jsonWriter.StartObject();
@@ -30,48 +33,49 @@ void SearcherController::simpleSearch(rapidjson::Writer<rapidjson::StringBuffer>
         jsonWriter.String("results");
         jsonWriter.StartArray();
         BOOST_FOREACH(SimpleSearchResult & result, results) {
-            JsonGenerator::writeSearchResult(jsonWriter, result);        
-        }    
+            JsonGenerator::writeSearchResult(jsonWriter, result);
+        }
         jsonWriter.EndArray();
         jsonWriter.EndObject();
     } else {
-        JsonGenerator::signalError(jsonWriter, "no such tm!");    
+        JsonGenerator::signalError(jsonWriter, "no such tm!");
     }
 }
 
 void SearcherController::concordiaPhraseSearch(rapidjson::Writer<rapidjson::StringBuffer> & jsonWriter,
                                                std::string & pattern,
                                                const std::vector<Interval> & intervals,
-                                               const int tmId) {    
+                                               const int tmId) {
     boost::ptr_map<int,Concordia>::iterator it = _concordiasMap->find(tmId);
     if (it != _concordiasMap->end()) {
         if (intervals.size() > 0) {
 //            std::string shortPattern = pattern.substr(intervals[0].getStart(), intervals[0].getEnd() - intervals[0].getStart());
+            pattern = _lemmatizerFacade->lemmatizeIfNeeded(pattern, tmId);
             std::string shortPattern = _substrUTF8(pattern, intervals[0].getStart(), intervals[0].getEnd() - intervals[0].getStart());
-            
+
             Logger::log("concordiaPhraseSearch");
             Logger::logString("short pattern", shortPattern);
             std::vector<SimpleSearchResult> shortPatternResults = _unitDAO.getSearchResults(it->second->simpleSearch(shortPattern));
-            
-            
-            
+
+
+
             jsonWriter.StartObject();
             jsonWriter.String("status");
             jsonWriter.String("success");
             jsonWriter.String("found");
             if (shortPatternResults.size() > 0) {
                 jsonWriter.Bool(true);
-            
-    
+
+
                 std::vector<SimpleSearchResult> bestOverlay;
-                
+
                 int currStart = 0;
                 BOOST_FOREACH(const Interval & interval, intervals) {
                     CompleteConcordiaSearchResult restResult = _unitDAO.getConcordiaResult(
                                                     it->second->concordiaSearch(pattern.substr(currStart, interval.getStart()-currStart)));
                     restResult.offsetPattern(currStart);
                     bestOverlay.insert(bestOverlay.end(), restResult.getBestOverlay().begin(), restResult.getBestOverlay().end());
-                    
+
                     SimpleSearchResult shortPatternresult = shortPatternResults[0];
                     shortPatternresult.setMatchedPatternStart(interval.getStart());
                     shortPatternresult.setMatchedPatternEnd(interval.getEnd());
@@ -82,26 +86,26 @@ void SearcherController::concordiaPhraseSearch(rapidjson::Writer<rapidjson::Stri
                                                 it->second->concordiaSearch(_substrUTF8(pattern,currStart,INT_MAX)));
                 lastRestResult.offsetPattern(currStart);
                 bestOverlay.insert(bestOverlay.end(), lastRestResult.getBestOverlay().begin(), lastRestResult.getBestOverlay().end());
-                
+
                 jsonWriter.String("result");
                 jsonWriter.StartObject();
                 jsonWriter.String("bestOverlay");
                 jsonWriter.StartArray();
                 BOOST_FOREACH(SimpleSearchResult & simpleResult, bestOverlay) {
-                    JsonGenerator::writeSearchResult(jsonWriter, simpleResult);        
-                }    
+                    JsonGenerator::writeSearchResult(jsonWriter, simpleResult);
+                }
                 jsonWriter.EndArray();
                 jsonWriter.EndObject();
             } else {
-                jsonWriter.Bool(false);            
+                jsonWriter.Bool(false);
             }
             jsonWriter.EndObject();
         } else {
             JsonGenerator::signalError(jsonWriter, "no intervals for phrase search");
         }
     } else {
-        JsonGenerator::signalError(jsonWriter, "no such tm!");        
-    }            
+        JsonGenerator::signalError(jsonWriter, "no such tm!");
+    }
 }
 
 
@@ -111,8 +115,9 @@ void SearcherController::concordiaSearch(rapidjson::Writer<rapidjson::StringBuff
 
     boost::ptr_map<int,Concordia>::iterator it = _concordiasMap->find(tmId);
     if (it != _concordiasMap->end()) {
+        pattern = _lemmatizerFacade->lemmatizeIfNeeded(pattern, tmId);
         CompleteConcordiaSearchResult result = _unitDAO.getConcordiaResult(it->second->concordiaSearch(pattern));
-        
+
         jsonWriter.StartObject();
         jsonWriter.String("status");
         jsonWriter.String("success");
@@ -123,16 +128,16 @@ void SearcherController::concordiaSearch(rapidjson::Writer<rapidjson::StringBuff
         jsonWriter.String("bestOverlay");
         jsonWriter.StartArray();
         BOOST_FOREACH(SimpleSearchResult & simpleResult, result.getBestOverlay()) {
-            JsonGenerator::writeSearchResult(jsonWriter, simpleResult);        
-        }    
+            JsonGenerator::writeSearchResult(jsonWriter, simpleResult);
+        }
         jsonWriter.EndArray();
         jsonWriter.EndObject();
-        
-        
+
+
         jsonWriter.EndObject();
     } else {
-        JsonGenerator::signalError(jsonWriter, "no such tm!");        
-    }            
+        JsonGenerator::signalError(jsonWriter, "no such tm!");
+    }
 }
 
 std::string SearcherController::_substrUTF8(std::string source, int start, int length) {
@@ -146,6 +151,3 @@ std::string SearcherController::_substrUTF8(std::string source, int start, int l
 
     return result;
 }
-
-
-
diff --git a/concordia-server/searcher_controller.hpp b/concordia-server/searcher_controller.hpp
index e74cacd..659ca7d 100644
--- a/concordia-server/searcher_controller.hpp
+++ b/concordia-server/searcher_controller.hpp
@@ -10,6 +10,7 @@
 
 #include "unit_dao.hpp"
 #include "simple_search_result.hpp"
+#include "lemmatizer_facade.hpp"
 #include "rapidjson/writer.h"
 
 
@@ -17,8 +18,9 @@ class SearcherController {
 public:
     /*! Constructor.
     */
-    explicit SearcherController(boost::shared_ptr<boost::ptr_map<int,Concordia> >concordiasMap)
-                                                                      throw(ConcordiaException);
+    explicit SearcherController(boost::shared_ptr<boost::ptr_map<int,Concordia> > concordiasMap,
+                                boost::shared_ptr<LemmatizerFacade> LemmatizerFacade)
+                                                            throw(ConcordiaException);
     /*! Destructor.
     */
     virtual ~SearcherController();
@@ -40,7 +42,9 @@ private:
     std::string _substrUTF8(std::string source, int start, int length);
 
     boost::shared_ptr<boost::ptr_map<int,Concordia> > _concordiasMap;
-    
+
+    boost::shared_ptr<LemmatizerFacade> _lemmatizerFacade;
+
     UnitDAO _unitDAO;
 };
 
diff --git a/concordia-server/tm_dao.cpp b/concordia-server/tm_dao.cpp
index 1319907..4b2e2da 100644
--- a/concordia-server/tm_dao.cpp
+++ b/concordia-server/tm_dao.cpp
@@ -3,6 +3,7 @@
 #include "query_param.hpp"
 #include "string_param.hpp"
 #include "int_param.hpp"
+#include "bool_param.hpp"
 #include "int_array_param.hpp"
 #include "logger.hpp"
 
@@ -27,20 +28,25 @@ std::vector<int> TmDAO::getTmIds() {
     }
     connection.clearResult(dbResult);
     connection.endTransaction();
-    
+
     return result;
 }
 
 int TmDAO::addTm(const int sourceLangId, const int targetLangId, const std::string name) {
+    addTm(sourceLangId, targetLangId, name, false);
+}
+
+int TmDAO::addTm(const int sourceLangId, const int targetLangId, const std::string name, bool lemmatized) {
     DBconnection connection;
     connection.startTransaction();
 
-    std::string query = "INSERT INTO tm(source_lang_id, target_lang_id, name) values($1::integer,$2::integer,$3::text) RETURNING id";
+    std::string query = "INSERT INTO tm(source_lang_id, target_lang_id, name, lemmatized) values($1::integer,$2::integer,$3::text,$4::bool) RETURNING id";
     std::vector<QueryParam*> params;
     params.push_back(new IntParam(sourceLangId));
     params.push_back(new IntParam(targetLangId));
     params.push_back(new StringParam(name));
-    
+    params.push_back(new BoolParam(lemmatized));
+
     PGresult * result = connection.execute(query, params);
     int newId = connection.getIntValue(result, 0, 0);
     connection.clearResult(result);
@@ -48,8 +54,23 @@ int TmDAO::addTm(const int sourceLangId, const int targetLangId, const std::stri
     BOOST_FOREACH (QueryParam * param, params) {
         delete param;
     }
-    
+
     return newId;
 
 }
 
+std::pair<bool, std::string> TmDAO::getTmInfo(int tmId) {
+    DBconnection connection;
+    connection.startTransaction();
+    std::string query = "select tm.id, tm.lemmatized, language.code from tm inner join language on language.id = tm.source_lang_id where tm.id = $1::integer;";
+    std::vector<QueryParam*> params;
+    params.push_back(new IntParam(tmId));
+    PGresult * dbResult = connection.execute(query, params);
+    bool lemmatized = connection.getBoolValue(dbResult, 0, 1);
+    std::string languageCode = connection.getStringValue(dbResult, 0, 2);
+    connection.clearResult(dbResult);
+    connection.endTransaction();
+
+    return std::pair<bool, std::string>(lemmatized, languageCode);
+
+}
diff --git a/concordia-server/tm_dao.hpp b/concordia-server/tm_dao.hpp
index e43822a..4db8097 100644
--- a/concordia-server/tm_dao.hpp
+++ b/concordia-server/tm_dao.hpp
@@ -3,6 +3,7 @@
 
 #include <string>
 #include <vector>
+#include <utility>
 
 #include <concordia/common/config.hpp>
 #include "db_connection.hpp"
@@ -18,8 +19,12 @@ public:
 
     int addTm(const int sourceLangId, const int targetLangId, const std::string name);
 
+    int addTm(const int sourceLangId, const int targetLangId, const std::string name, bool lemmatized);
+
     std::vector<int> getTmIds();
 
+    std::pair<bool, std::string> getTmInfo(int tmId);
+
 private:
 
 };
diff --git a/concordia-server/unit_dao.cpp b/concordia-server/unit_dao.cpp
index 16a1e92..6a1a68c 100644
--- a/concordia-server/unit_dao.cpp
+++ b/concordia-server/unit_dao.cpp
@@ -22,7 +22,7 @@ int UnitDAO::addSentence(
      const TokenizedSentence & sourceSentence,
      const std::string & targetSentence,
      const int tmId) {
-    
+
     DBconnection connection;
     connection.startTransaction();
     int newId = _addSingleSentence(connection, sourceSentence, targetSentence, tmId);
@@ -38,7 +38,7 @@ std::vector<SUFFIX_MARKER_TYPE> UnitDAO::addSentences(
     std::vector<SUFFIX_MARKER_TYPE> newIds;
     connection.startTransaction();
     int index = 0;
-    BOOST_FOREACH(const TokenizedSentence & sourceSentence, sourceSentences) {    
+    BOOST_FOREACH(const TokenizedSentence & sourceSentence, sourceSentences) {
         newIds.push_back(_addSingleSentence(connection, sourceSentence, targetSentences.at(index), tmId));
         index++;
     }
@@ -50,7 +50,7 @@ std::vector<SUFFIX_MARKER_TYPE> UnitDAO::addAlignedSentences(
          const std::vector<TokenizedSentence> & sourceSentences,
          const std::vector<TokenizedSentence> & targetSentences,
          const std::vector<std::vector<std::vector<int> > > & allAlignments,
-         const int tmId) {
+         const int tmId) throw (ConcordiaException) {
 
     DBconnection connection;
     std::vector<SUFFIX_MARKER_TYPE> newIds;
@@ -59,9 +59,9 @@ std::vector<SUFFIX_MARKER_TYPE> UnitDAO::addAlignedSentences(
     for (int i=0; i< sourceSentences.size(); i++) {
         newIds.push_back(_addAlignedUnit(connection, sourceSentences.at(i), targetSentences.at(i), allAlignments.at(i), tmId));
     }
-    
+
     connection.endTransaction();
-    return newIds;      
+    return newIds;
 }
 
 std::vector<SimpleSearchResult> UnitDAO::getSearchResults(const std::vector<MatchedPatternFragment> & fragments) {
@@ -83,7 +83,7 @@ void UnitDAO::_getResultsFromFragments(
                               std::vector<SimpleSearchResult> & results,
                               const std::vector<MatchedPatternFragment> & fragments,
                               const TokenizedSentence & tokenizedPattern) {
-    
+
     DBconnection connection;
     connection.startTransaction();
 
@@ -95,9 +95,9 @@ void UnitDAO::_getResultsFromFragments(
             matchedPatternStart = tokenizedPattern.getTokens().at(fragment.getStart()).getStart();
             matchedPatternEnd = tokenizedPattern.getTokens().at(fragment.getStart()+fragment.getMatchedLength() - 1).getEnd();
         }
-        
-        
-        
+
+
+
         std::string query = "SELECT id, source_segment, target_segment, source_tokens[$1::integer], source_tokens[$2::integer] FROM unit WHERE id = $3::integer;";
         std::vector<QueryParam*> params;
         params.push_back(new IntParam(2*fragment.getExampleOffset()+1));
@@ -116,7 +116,7 @@ void UnitDAO::_getResultsFromFragments(
             delete param;
         }
 
-        // now add all target fragments matched with this fragment        
+        // now add all target fragments matched with this fragment
         std::string targetQuery = "SELECT target_token_pos, target_tokens[2*target_token_pos+1], target_tokens[2*target_token_pos+2] FROM unit INNER JOIN alignment ON alignment.unit_id = unit.id AND unit.id = $1::integer AND source_token_pos between $2::integer and $3::integer ORDER BY target_token_pos";
         std::vector<QueryParam*> targetParams;
         targetParams.push_back(new IntParam(fragment.getExampleId()));
@@ -127,12 +127,12 @@ void UnitDAO::_getResultsFromFragments(
         int prevPos = -2;
         int currStart = -1;
         int currEnd = -1;
-        
+
         for (int i=0;i<connection.getRowCount(targetResult);i++) {
             int targetPos = connection.getIntValue(targetResult, i, 0);
             int targetStart = connection.getIntValue(targetResult, i, 1);
             int targetEnd = connection.getIntValue(targetResult, i, 2);
-            
+
             if (prevPos < targetPos - 1) { // beginning of detached fragment
                 // check if there is a fragment to end
                 if (currStart >= 0) {
@@ -141,7 +141,7 @@ void UnitDAO::_getResultsFromFragments(
                 currStart = targetStart;
             }
 
-            currEnd = targetEnd;            
+            currEnd = targetEnd;
             prevPos = targetPos;
         }
 
@@ -154,9 +154,9 @@ void UnitDAO::_getResultsFromFragments(
         BOOST_FOREACH (QueryParam * param, targetParams) {
             delete param;
         }
-        
+
         results.push_back(ssResult);
-    }    
+    }
     connection.endTransaction();
 }
 
@@ -181,25 +181,29 @@ int UnitDAO::_addSingleSentence(
     params.push_back(new StringParam(targetSentence));
     params.push_back(new IntParam(tmId));
     params.push_back(new IntArrayParam(_getTokenPositions(sourceSentence)));
-    
+
     PGresult * result = connection.execute(query, params);
     int newId = connection.getIntValue(result, 0, 0);
     connection.clearResult(result);
     BOOST_FOREACH (QueryParam * param, params) {
         delete param;
     }
-    
+
     return newId;
 }
 
 
-int UnitDAO::_addAlignedUnit(
+int UnitDAO::_addAlignedUnit (
      DBconnection & connection,
      const TokenizedSentence & sourceSentence,
      const TokenizedSentence & targetSentence,
      const std::vector<std::vector<int> > & alignments,
-     const int tmId) {
-        
+     const int tmId) throw(ConcordiaException) {
+
+    if (sourceSentence.getTokens().size() != alignments.size()) {
+        throw ConcordiaException("The size of source sentence does not match the size of alignments array.");
+    }
+
     std::string query = "INSERT INTO unit(source_segment, target_segment, tm_id, source_tokens, target_tokens) values($1::text,$2::text,$3::integer,$4,$5) RETURNING id";
     std::vector<QueryParam*> params;
     params.push_back(new StringParam(sourceSentence.getSentence()));
@@ -207,14 +211,14 @@ int UnitDAO::_addAlignedUnit(
     params.push_back(new IntParam(tmId));
     params.push_back(new IntArrayParam(_getTokenPositions(sourceSentence)));
     params.push_back(new IntArrayParam(_getTokenPositions(targetSentence)));
-    
+
     PGresult * result = connection.execute(query, params);
     int newId = connection.getIntValue(result, 0, 0);
     connection.clearResult(result);
     BOOST_FOREACH (QueryParam * param, params) {
         delete param;
     }
-    
+
     // add alignments
     bool nonEmpty = false;
     std::stringstream alignmentsQuery;
@@ -230,10 +234,8 @@ int UnitDAO::_addAlignedUnit(
         query = alignmentsQuery.str();
         query = query.substr(0, query.length()-1);
         PGresult * result = connection.execute(query);
-        connection.clearResult(result);    
+        connection.clearResult(result);
     }
 
     return newId;
 }
-
-
diff --git a/concordia-server/unit_dao.hpp b/concordia-server/unit_dao.hpp
index 875fa0a..7159320 100644
--- a/concordia-server/unit_dao.hpp
+++ b/concordia-server/unit_dao.hpp
@@ -9,6 +9,7 @@
 #include <concordia/substring_occurence.hpp>
 #include <concordia/matched_pattern_fragment.hpp>
 #include <concordia/concordia_search_result.hpp>
+#include <concordia/concordia_exception.hpp>
 #include <boost/shared_ptr.hpp>
 
 #include "simple_search_result.hpp"
@@ -33,13 +34,13 @@ public:
              const std::vector<TokenizedSentence> & sourceSentences,
              const std::vector<std::string> & targetSentences,
              const int tmId);
-             
+
     std::vector<SUFFIX_MARKER_TYPE> addAlignedSentences(
              const std::vector<TokenizedSentence> & sourceSentences,
              const std::vector<TokenizedSentence> & targetSentences,
              const std::vector<std::vector<std::vector<int> > > & allAlignments,
-             const int tmId);
-    
+             const int tmId) throw (ConcordiaException);
+
     std::vector<SimpleSearchResult> getSearchResults(const std::vector<MatchedPatternFragment> & fragments);
 
     CompleteConcordiaSearchResult getConcordiaResult(boost::shared_ptr<ConcordiaSearchResult> rawConcordiaResult);
@@ -50,7 +51,7 @@ private:
                                   const TokenizedSentence & tokenizedPattern);
 
     std::vector<int> _getTokenPositions(const TokenizedSentence & ts);
-    
+
     int _addSingleSentence(
          DBconnection & connection,
          const TokenizedSentence & sourceSentence,
@@ -62,7 +63,7 @@ private:
          const TokenizedSentence & sourceSentence,
          const TokenizedSentence & targetSentence,
          const std::vector<std::vector<int> > & alignments,
-         const int tmId);
+         const int tmId) throw(ConcordiaException);
 };
 
 #endif
diff --git a/db/concordia_server.sql b/db/concordia_server.sql
index 125df22..c8a8a21 100644
--- a/db/concordia_server.sql
+++ b/db/concordia_server.sql
@@ -3,7 +3,8 @@ CREATE TABLE tm (
     id SERIAL PRIMARY KEY,
     source_lang_id integer,
     target_lang_id integer,
-    name varchar(40)
+    name varchar(40),
+    lemmatized bool DEFAULT false
 );
 
 DROP TABLE IF EXISTS language;
diff --git a/mgiza-aligner/LemmaGenSentenceLemmatizer/.vs/LemmaGenSentenceLemmatizer/v14/.suo b/mgiza-aligner/LemmaGenSentenceLemmatizer/.vs/LemmaGenSentenceLemmatizer/v14/.suo
index ef1ddee70546eae2c0b3c4e932eefd6e0df42a8c..b0abdc9f45cff9740c3e977f02883dee13639625 100644
GIT binary patch
delta 2195
zcmcIlZ){Ul6o2=%#oE3%M%Q)i)^1(tX4$$q72_XD>1b2I%G%PBpe``MCAtk6rZrB@
zESeOZV_SRXNQ4m5M2UPE<3+#PL^Lr`SqO<=jK)v?NsRwGGmNaB^Il)AK}?Ktli$1d
zo^#K==l;&Q=Vi|GnNym%J}1vrT0O_r;gIHQ<#L&%8pKk3kwKXq5@UDoK5aX3nRSr{
zCiv&s>#)K{1zLo*9NLtDHM-dhq%~22rt50NP||qZohYEqskPx)k62$L6LFl2`vM!W
zS5_(CO_e!qXh0Ydw;?=;JqRzN2hoe@N95u=v^(V9x_Kw|5d`h@5caze1BfUhhKM6}
zBNB)tg8YMIhfhC@69JKnKauCh#G%E9|J(g<ar)@~%8isS@kTtTGCEs}bK-%<ChQL&
zh@)KGdqZBxo_M(xag%xR*f-!IbRe~ZIDQ;KTs0t&D}fwW0fNEa^BO9q5yug#g8CfJ
z^9Vr9tGZl#i})r^-a?!u;Zpn{%h!hl$`v<)j+OK5Wk?GNeMhb6C0G%naFOq0M<FdH
z^u(pQ-kQM)38>Y&@&Ea#B_Cng;bs5QH<p2wCdKhNNSg;lMmMFWsCqAz%mT~%gYZ6o
z2c-N-y_z;M6|>Tc-^lWwkkEoQYJf-uDNjs(i|P|1p;YqFW+8#{ir$cV%8hnr-@wuC
z7a?FDaSty(xn_Rnmv6t=bL1Y|(8>4ES~jOG)CSJ51<p9kR;7eo;e6V&?>c__>NDf=
zUjMGd<+mYr;(Wo*UvU4<v=oYhlh2z&T5?CGuR;R3b{z>YlkH&|X=~QRAkbaR&nLaJ
zpZ{E_`)*_+@n!mlP4Q1Y{X3sXMoo$y%dnerpDs(@6cjnUG}nqCGL#6IuITAO|0!sQ
zK}geQybpy`jj%!gp-~tg-7KBne&C<uSQ{=mj&R|zF=;G3&+@Jy1T~l)uBe<PCD$eD
zb$8+Z3vjg|B3zeLDf2X|1|i>kQE=f}CqngAN73QnYV(64XGXcbMz@Zt=Q#sB*D|1|
z;-lKg5rx&p2%XNlA#K5YCM8uTbrBQ?w6JQC*Fd063(q!1bgUg$Py!gKo>bl{l)HE8
zsi;*=Q{I?Bg<1Ve$Sjw<QIR#FRIRZJ_dPLzim0R3K9JPv-k`jKYaL;cQQflD>QkM{
zlWDFMmO7UyXgYde$y~b?CMVZJeWOzf^!}>R-M%(HVUxDp`GF3e9t%i;q2k8Ey?h}n
z6z=EY$M8rswuJ@08ZhV^RhAmgA%EnCmV<5C7o_G_^b9_nxyIw-k01F6OkIzX{I6LL
zNuL*!`FjST!9kdrYh)?tAKXtPa7_g_(7#Y=y~XV`ke->UXAs%vfau&dI5TK~2llmB
z$6s%?!QtsHC#x7?u`LpFR9}f~`pr{=rDGO3GBEpUD<0IU-+PIoj~X%SfZ?eYDDL;b
uPqS7jvyfphble0c=PJ0uW-1AFKJG9#j{l3NI6wa8;K-yMS#(3DE$|1A<P;YG

delta 2064
zcmd6o?@yam6vum?wyc)t**XeXH_BQ!j39v`plnw9Knp7%{Sm67zNyQ6p+Z6!4V#P5
zZDxszWAtoACz@G*Y(^7@PqM^Uvgphbm#mvheC<DA76XaQ%=$gG*N{w;`buy5$+`EO
zd(U&vx%Zx?m(1x4%1NKcB%8xz+KRpcelHXXtQKH7{)M1|7}w7Jl6}p!ctg}esna3l
zusBa^N|Zv~KJgx<%u!1tER=UQ)2jKwSrr4gG{IG&9+G`JAvc%$8e|oy05!k{+`taH
zfD7CQwt?-S4tPK>s08fy{*r7hN!FFxLee|ygSrho4B9~l=md{|M*(kXH{>4h81RF~
zK{p5h9rOcs8H5ahJ}?OOf@)CuTw%+Geo42Gyqr<Sw3ThUC(F&-CQmVM(kbVUH_7>9
z9p_KlcA(Gsvw(k_zk9I83pju5e?$HjMjQVJc~g&IXGg&?K&rh?<897i@D?~h*Xx~e
zLhlqf4YFVnybay~XTZB)3GhnES&TmbIq)H1{l}1>fO9l#4=yKniHsW5Ong0e0Zb@R
z+zBnE)DfG!(M8n)t*KGfj9Kzvit3Y;(nf52pXFlLJO+GF-2U6pLTb5@MKn=HXx3tA
zv>q7LL<6GZ=PSd`)LZDFo~Lk47o~ebssbB7X=$(I$2SbnsNn5WIYnF#<OE}Ca86`m
zK~1n`=LU<omr}8aR;(C&i{*;Uw1s|+4N<VWjdU+QA0MJ`ls54Kt!<6|ga634sw^(j
zjrC3V{EpTmh>D93KNxANh+%L@qgSF4o2&qQ?ud31EZmI3cA+@@mU9=~w}1MvGC$fq
zJaXexa@5_rTN!uyu+#M48*=U{qssHM$b^F&22F*d#n4v6*H~J)s%4FJw^<Qsx--)M
z=cGhT<?6|mQ*N486M2=(2$yB4v~p+(TCW*WS;f^~nrNyvrgC|ab&Vr5R%=y}YpTuF
zDbzdu5>33^VZ7hFPu#tCN4TAW1D$j*JY*GoCHQZlcpaW}kz-)L=%m!ZY$X?Fe!6J1
z{QS5v)_+O}l|)Ox(l^|nz&HJLYoe!klGfJWsJ+!?xF(MZx?b~;arwYug_2GkR-Jr`
zB{N<9*AMy*BRs8JY1G-p%gt}#6M@CoDfa3_X2wCb7G!<KOE;Ar#>&i1K~FoIX(ioE
zjY{>GNA@Um;h3Kfx6~52nf%6uiB5cdXR|;L6x)kBtIWa_VoB$(G}C7f1n7x5I~iBJ
zrT#P2s@O<xu?RDQI*`exX>v?A^yJFUGD=-TS*4DPB8}R+mXl$TJFe2~d=)))={Xv2
o`auZlY1m80zrX76R9tJi`1z%)EniLK=TpyqWbF4ZiCk9s1FiFp+yDRo

diff --git a/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/Program.cs b/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/Program.cs
index 4c18358..f53b436 100644
--- a/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/Program.cs
+++ b/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/Program.cs
@@ -12,12 +12,20 @@ namespace LemmaGenSentenceLemmatizer
         {
             if (args.Length == 1)
             {
-                SentenceLemmatizer lemmatizer = new SentenceLemmatizer(args[0]);
-                string line = Console.ReadLine();
-                while (!string.IsNullOrEmpty(line))
+                try
                 {
-                    Console.WriteLine(lemmatizer.lemmatizeSentence(line));
-                    line = Console.ReadLine();
+                    SentenceLemmatizer lemmatizer = new SentenceLemmatizer(args[0]);
+                    string line = Console.ReadLine();
+                    while (line != null)
+                    {
+                        Console.WriteLine(lemmatizer.lemmatizeSentence(line));
+                        line = Console.ReadLine();
+                    }
+
+                }
+                catch (Exception ex)
+                {
+                    Console.WriteLine("Exception occurred: " + ex.Message);
                 }
 
 
diff --git a/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/bin/Debug/LemmaGenSentenceLemmatizer.exe b/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/bin/Debug/LemmaGenSentenceLemmatizer.exe
index 3f36045aafe7617bd1ab49dcfc4f76bdf187f72a..d33ee58421ed8bb8f2a14bfb809592da1464caca 100644
GIT binary patch
delta 1411
zcmZ9MZA_b06vzMf-u5YU<)JSOI-smw5ej{gZV(kVW5d`WqMPf8tD6yorYS?Zz7d_w
z@{-|ZgxEZZ&JRmQOiWa=Ov!W~mJv-%{5n4v)NENI-{%)!W(@J%JGKz-lm71cpL6bc
z?!C|Lo#~wE{NMsl%$473Vqcd(dzp<HjJ29WA)wLl@sN>Vt?Z^T%Szr$VW`$m<S=7;
z4{)s#5TqEO8D+i0-O#}?K?&q=fG?%%Hknlm#bKm)V6bLWR8@w5!(ETdgdC-uahNg=
zz#4E$*a^U0AXtT5kfK|jc197vhP}_iL+NY}54enLysos9#1pl<!<WxdF%x-J1!2{4
zKg!`XB*TqbZvC<FXgR9C6=@0vc~hQhSkG}99*l7JHs$5JtF}o;Zi5C2HPd`8jXB#6
z<B)Lk8fFZOdS1(nX%UfXMfiC=Gj5CMlTA!6G2o_jD}vSFZ_5{nOoMW0xf+T;oMn}k
zqY6<|Z}&Y)@xKEM3SfnP{&*pmo=oNC7W}ON&9qeiP#ldFfZP}V;h}+p)Q2jJtEP75
zHhwm>m40EAMNPvI_7~T1Q*j>O^J>&lQ4L?<5c&5qNtfa$iW$WVir=Z6kFZWTMa4gr
z=MDsUGNOw(%)7W1XZbkUuRwY{ysJcAkpen~#5i|inyBFfdE}%XPK~MFjxb-~F|wuC
zj-@RnNU!h`ahcEKs8^0FBgWq)&$?0z?lr2(vGG{hNfmrDv$TK~Wa(u7pyVuEq)ZfG
zXra|J#FYKCq7Ri=<BZO$EVzqkMH|tMsNyq<F~tGJmlP9<BgCCZD?6+B7S>8M_+z||
zX5wiCa1k#ejAe9+C}t^1Bm0Wz!Ixym@U0rQj45$U<s^vvxy*0o6SV3FEK7D!Odx_C
zSR}geA+Z71iGJK72I+qj!9K+vB&6t7f#<P7c3cHcDvsh`@|;Esiy)7EtR7F{Fot28
zdGu*$TU1++r}dGbehSvI&lMV1UvZnC%pTg-|F=c*8B3Pq)>N|a+6&2iek8Se&vIO}
zp{);ZViZZ7L4o!zgGqRaqx2M!qbG?mbi-@(?sz~~!}+P-zq#H1+>z_48|nFq&rceI
zw)(zGi<vuZI(PQbYjhJB(}fqh8C=(OVPVoD)9hu;@v7CLd34>QSLnLtWggulGziKw
zuG(7Jfbo-UQ{HNcxmzdXBINoS8PHF+V80F=iyw^N=|B2ab}<_}e_(&Q^VhjQD2(y$
zQ)8LY;v31yLjKfLI$s=_@aBzO`hDm7TX&_b_NlbJWnV43WJIfHS9SY87JlQvs>6Ms
Il{+l|0RlDZmH+?%

delta 1302
zcmZ9MZA_b06vzMf-1d2(tWR4iFJlOW#?jKXbP?a!OeB;!rkSuh9E!}P8ti1SwME0?
zES(7|I<tD`7822Y+!A9*YRu+`CHhTceEGKc!Nf0`Ac|&7d`Hi{GO~D+=XcNl+;h%7
z_dZXa+3wly(=XFPwmjb=9xY#dL{upuI^18zfM(T3+ti5Y5KpL*D28^%Va9GI!HvOo
zV73~NtOQ`GUz}t^Fi9BX0CogGuV)+9gvZ);mwK8a#Yh0~)UOF|b^IH|yvT9T(TJa&
zKxaEeYPHqL$-$%>C9?|x)Ntw+E_YjfYkctpC%D$*AU#&@f-Vr`w0N_Xdv8PBYUSSF
z5G}D7wdA=*+;f6BKbD|IE!S0uTD>>PK<-1%l#x0$F2l48^_py=6{rg`q19D({tWfE
z+)me_lCBot^2SD9E60J4yZU;r@;>1gfRqH5_z9;Ax$NY4o{xm<7VsO-;r(f>*Z?0N
z;rsUwq<H?zR$se1MT2s?qs7k!pO%M(KJf!tSTcMLm&u13E^6T&^ss-c(6kND8D<Qh
zH~hfFyo%2_CTqBCJYV5gVId=<<iRA3@#<bgnE}$wQnW}82ILsk@@?ql2YEra^IucK
z%zm`daq4ATd;K`Mt|aU8bdvcd&0#R4^UAn`=GpVEQFDzIu1UDGq5Q0Nx9P|^Y()V@
ziMNa_A;{9j3j$4iZh>B7-)-22YE($@$EFKzW_l21`mx>c9>ZS40mC7~5yL~wI=&Yj
zf6Q>ku#Dj%+PUY0+{*&a%NT!;dV>X=k=?k+b`RSTc^@vDgasUyL&kG}nWTfvMw-Ga
z_)!$tZk1C=pa!RzLDmUu!6jxGA2DP2mU+A34#PeS>4gXIJu_`wj~Qn04||?LR3wnc
zouUaz>_P^v*&DBhuf>ex`eVN#c%D%uyRLK0yu_Q_Y<BUj{(qFD`q+NB(q6Ss`UdiQ
zrza*J%Jm;PT9^UUV$JWvOS4a2YuIxpH9x-g#iwtVKY=SGM3oFdxY-B<v~)Dcwp~=a
z$syjvaY1__$dR^i+#qrs6F<VX<2Y({(`Ly<l<n;h{i@5m*1wRwazHny`)(G%3jdi_
zyuiM6Dt%=&^j-aqKX<+K)3ax<b-lRA%Q)OKnwrW?A9-rBkRKh+=BE!$gwkr-S@kB@
k|6jV=9(ByOMeJ0ke5E&hqZP;hhfSmRRsxNyqMWq<1-Jv^HUIzs

diff --git a/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/bin/Debug/LemmaGenSentenceLemmatizer.pdb b/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/bin/Debug/LemmaGenSentenceLemmatizer.pdb
index 7fafbe76e333cc21b4d2b713da5f65386c5851bb..92ae405df2091d9ee7c03c6846702a177efba434 100644
GIT binary patch
delta 701
zcmaKqO=uHQ5Xax!ZfsgBbZfF3lQh}HG*J@Tw40R1kJ^BxQCboZp&}@L<e+X3y?F@u
z8mM}aV&<TTp7o%hT_}RI9t4F#DSDM$1rIgi2lUkXf7_g0nEB1j&di&)JEA6Puhs6r
zh5FhoXN)yVmF4*d^ToxJCvN1v*8e);?u^&>r?%3%w*KV))sH)!>G$7K^vv`7P4Ok~
zYRVc}=4ifMPIvWw3K*xz)|aSiNc*REb!okD<k1&SnlDQe0aHyJTU&9i2VU^5$L(sH
z{K1r`1ka{o@SZ1&jy<#yoGR$7L(9QCjd%UvI7Ald%+%C9TLavudYdtY?Q`WUeU1!`
zdk|L<2!Kj27mHkMDq@!}{MyR|*jRf8j=r|rhcTI-;ZzSL@ANVz4#34JLI?Z6F!-aj
zBO;&=eiZbB84x*Q1T;VkJP3|~GXFSu2)?{T5S#!*U=c)5F$?07;v#5*mt<NT#$^N!
zgEzqhcneID7WNnVaPWD^C?awQ9S4*lmTUXjQ8%t(Y>f>-Wd5|IGZilIMkK*)8i+)p
zCnGJsMfqqN`bxB{bZ}aZHh7*U%@p*US?1?x)qIZBYU~}7V)0Kr?|hFB?SEKN8%eK|
z7>p_Hzb-exaNcIIAy3=iw?cCxA5c7O8PI2}kY@|Cm1qWjo))Y$Z_+Dk&|RTztLHxp
One!=p+Zi6+?ED8xmzyvE

delta 645
zcmZpuX{g!2!X+^?b6*4_0|Udp_X^L%tbe<;zbl*eS-*MiW*IIW4iQD;!^fr{owhFH
z4D-zCOuwdBd|LEsqvIMz&VwL5KyYxgpvZqlA(#B*(%jU%lH!=K%;M6-9EIS?yy9My
zbHw_wOa11UZ9lV8a{494$$}yVlN}@!Sen<*Q{9{*v4W8^0cv)@WKk(~RuLdCV6vlB
zJF6+sKJLk9rQBJW7}yxxCSR1(pIjr&VI%?+XA)qHWNetv)NmTe2FiW{ihTfL5MTtt
z00@&o2uMF+n7m6`t)8EOp+OYL6#&xGK>FSLe+{xg8mOc}4oC|FX>A}4G`_(QNCVY2
z7y)TPAZ-JrLF(;+v;>gv1f->av@?(fn$_S3q-B7#Kad8R)xgQX#lXv;1mrOQX+EGC
zfeJtZWE{vqA)w*jK&%gD3o@91gf}0Tv1FVW&@f3(g)v~Vs+>HKbd`J0cyY3+yf%<b
zl=o+P&M<kC{3J%n$*v0OKr&aspV55sUWMgArKyU$fr=EBjx$PbeyOC-&BVyKSxQfv
z344Tq;!1q;4g+A+ra*(AV{)$1VW2^V#^ONI(^#7IBG6SHlYN1F$;pkz+KdM$uQk@g
WX5L$4aXbmjM1+a4VzZ&yd3FF+ZK!(y

diff --git a/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/DesignTimeResolveAssemblyReferences.cache b/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/DesignTimeResolveAssemblyReferences.cache
new file mode 100644
index 0000000000000000000000000000000000000000..5767a4e1f5493f1077034c778335fd1fc2408cde
GIT binary patch
literal 713
zcmaKq|8CPT5XZB$>DnwqeE|Ll5`TbNSt(s%AXU>AQFVe%gI4=1LUQBFu<FE<?QAQ1
zO5THafV=JoASxW`8()0B``lf;Ezk3Q;-WXL$Vd5dB6FjyE*v|mr4nq;?b5PT8|cU9
zV64>Dc(BJ3dirr%D_0vBS5P~{RX;wf7fR+IU^UlEsK$$ASd5A{#b6*t2_N!+l0Dm;
zW45vm%9-O1$g5LG1#7GE^zH~Ll!DwLf@M=~zdF89K-8TEN|WTjuG{Dke$-q{c<!{>
zzOSd9>hh8sFkK3oY5`|PUr7O`O&@0R8#J*Z+dAi}2J3l^h8F}o?M=CkA7VY<z<m5q
z{2!n852)BMB=}B~BtYrXjt*Ka6rR4z5b473GM->pZ2aP8|Mko4GZbK;${{|q7E0_q
z*zB>n*#!OJTAO9YPT$XeTUUE*#9n2k&9zZ-!Guy>O1kbk^(Y|eJqG&gPxxa>Jz`l;
zh#(`ytvk^|77|3n?|@dPh!6?5gi0VN@<lf1&VgCi@x;`XlO@~_Vz+o8rfZ(>`&<4l
d&DXo_b;i^0(=ZHMZ8SqHAz{O0ICvZG`~pmk);9nE

literal 0
HcmV?d00001

diff --git a/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/LemmaGenSentenceLemmatizer.csprojResolveAssemblyReference.cache b/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/LemmaGenSentenceLemmatizer.csprojResolveAssemblyReference.cache
index b26246f07e0c6578bef656ce6d663fcc7ab293e3..70c7d05cf3bd9ea20f3c2bfdd4ac6e817625f5fd 100644
GIT binary patch
literal 22553
zcmeHNdvIJ;8Q-(r?B-t5Y=Z*j9Ujs`<0fgFCM^`&rcG06OKD1}HtqIi_a@nPAK~uZ
z^g&;lQCgllBZ3dmKjbkoDhdey$U{Y)K^`hTM&+gB1Eqk@DENnhzu(!tchBA3VoQ=S
z?(E6zm-Bu1+;hJ3o!>p*cOE|B^ZDLI;(w+FKgiZKiI|niW(MuZvRon=k8CiqJF=1P
zjAgboZ#1oJB9mU+K0ngNzn13iT++^2=Hj%Ovn?ap(!4G=kW9obH+OHy>@d@d2ioQh
zb_{k7wztPS+KhQd9UD8RavOcSv$mP)vklv1DQz&3G$l9fjQk^LkxZH~8!BWYy+(G}
zHU^R=wbrJA1W4YqXb1)L)fpq+W5n!?6)N<nzB`i|F)Y)X!AiR`adVxO8BN4ZtDb_s
z#2zz%9%X|YjbzTu`h3%-`ReLUsIS!4DyOdVE9ktcto|ccc3pNRwbDNXss%{uKxQ!4
zgkLZS65GD0Kc0!@QfAuD_KzmAIV0JewR7=Arg?5#dq+R?-44TK`&XN(l(EuG_o1Yj
zj+v6T(E-bSl+W}H8`j7=%N)QU+mU!O8KiL%-HTY)kY%Krdtm--^Xy$+3oh(mZw{Ik
z>uX+`&6+6;v6=06N3p*L<;|TLYe#=%?TQUWZghU6BQm#GFw!lXmCe<oIb%|qOJ!pj
zE14LO&1f{=q%>0)-%Y8cY)D5#+c8ed-ErEOAE&;F8z+gaSbn%pKzpN;*|Ft@ZA3`=
zOnb#HpoyP;R`#_4ZAT}wZQ^k{8re9pz~7TH&XXNzMBVYp?0_^Ldl4@5Vgg~|_F@L=
z=F~8Ob#wYCpBgw3ZJyYna2t~2aUvQRp3L#!SGqcpzDBn8fyr)dt!YPkZF@wv_Q8Vj
zCS#Oj11F(@Nd+^VzijDbw8S|s?#^)&?~9Z<ZU#Lev8SCvGLz&~lG8{|Cpm+J4pcjf
z<ZO~=l5<GTB{`4ed=lwmFJNvKNF6Jk<2o@<xTAz3bLa<U7(!3nkTkOPnoK+~m@wlF
zM&23jUJLiv5I0B6bR13+zOf-2Gi=+mqz`Sha%nq}G7Hhh^g+j4@-<%|5ETCDEv0(!
zBQ)cYg1eP1xRWp=p2+dMuz3q#;qU&j4SWAK>zQ6{HW=+fl8Zosb3pXbxd`ey+B)ZU
z>UA{s|K2!$zaPe-;=XI=Xp4J)(yQxwuth4%7<69Sy!M599YHZwmHlw3vIOr`RW?$h
ztl&q+@8nZ2TY22Hg3;PY+ChSIK|HwO2RT)HH%}_7;D!^&R8@9<iL!zd9Ealh*EZd-
zxDlUl2N-PuNhe6K3&b-NoD8RG?-ojBi$furA@KBW5d_-BB$t2$7lWw16P)1rf;*#K
z3P!t(WC=)cDTwEVb0OdhH(uGChw?HoS~tmZkl+ds^@Tb*j;U(D9;s~6esy$kQ&riO
zCCUmqV$V?YLZGc8`3OkxauCl@&}mQA-mR9(7KcJGxM1(xIdcsdZ7s<aAi;GYYVR7Z
zgkY_^U7&8Xu-0SSXX)%TI$|9Q+8557Z?<(UtfPNFuAqX^O{0-j1CDwl+h<#e^iV@0
z+m}d<Buz#v=MNiM>=DGwY&K&pwPM2w8(R<91X`8u$#IRyLRun~%E|4S2FpwtBO_+K
z$I7IpabqWNR-v!hRVZxdc;Xx(#6!Y0M{&mo+Zv{oh{>HFtVy@EZ{B=7K~PI`Y3YgG
z+S;;(<H%S=TMrWK16d{aUpxz{;x3vT+GE*7OXreFR=WWt#F))TGqR<?aSgH5?JB&c
zZ3Jmz;KwBB(`7t(H8R0XAnVHYF2v>IQ2(Q-IK<FFs?W{3_o4pB@S3)nq#vY-K?swe
zGn9SUf=qBL$nw=(C>QmeA8DT(nb*~Y|Lt?zj$!Z8F?$r1h3IF;WA<%$T{A$MIzgBO
zJ)Bf|0GVJ6WWrRAqp}d4=Xg{$@wzq$(nJr;B<N$M%0tKmhe0M5;R)0jq7NUB-rMoI
zwgaST2?&!|1|s$5cN9#4EG;6u2$AFdBGafT#1LXUkj~(BZG_|+kR}ErOrjS=Ds3SX
z%z{je(l%-e(b<ki=^S3yMoD&pG|_D{3Hmyz^e$wAyFn&pF4=>MLv*R*>BF^nUE52t
z52T6CnJK{O`@i_81{A4_($nct_sAn$%*xY`hG^k<WL0`FqeXeJu*}Gs_0hskKx35W
z0ZWrZ87pBAr)GNDo{ZI<N!wN?d14f9IFlY?b2x`sXC$nXoI2#RY$pa1$%MT-80|?K
zL)oybsQA7Jg?wU~Od-F&zOmq23tDuzt~NcG7|K}&&sQ9WjJ*seyW6Ae`+MuWa?fAZ
zwM&jwpMw4#3sh)8jcBBK{K5Sgy%UQQfO8C@YX|Uvzu-ZT9Xx<q)Y{s*eNn5s<JDTe
z<JIb%zO>3JE1tf%kMbE$M8K^zZ43<t_Tx0}{TY@4L1>i6Q_-leK5!7<#XeNV3h~6J
z2lgU2F3WmbAQ!k6bsmesy|2!oK6Q*`{y(EU1}<eMhxOgYh!Mjl=nMGj%T_8CHuEHE
zapcIDte$}*lXhMHzfUkqlhf!SWOP0{3?dk}N%8fL_y&p@x5=3EMr2Mc2X-NL)3uxM
zT;ls?WGn^W?&frB`Ki@-@m*+L!u%GrE3PRZGjI^hNP)ovpDr@s2vtHxq>&-UBw_@^
zN1}#F`*i-lPcR;o7P%D}X{gU2BN!n{@okRyc8VD@O7UkM@#iRJ%qZ>md1UHj+^B0`
zKwjGF4rI0}wwl1Xz&Xm%?nE160Da{b8#oBYC@^>cyKDpJ+9e96XqPAoxOQ;?v<*_(
z(=YRV{It73gyD$qcEtBk%m`E(;9g`L1Gr%M3WTZwCJ-#H0q&z3R~7mkI0$A#fx!b9
zpbwmDfb|{&FxYhs-~xlut2Dqj_&$ExH$epBSt)+N5kE*V<5_8dhmfi08eD5Uj1sDA
zm_Tc|hhmOLlHbfDRIpby%}S4HdQ{V_@R)}2bh&A^Ln>|XC^FJCkFg1c%u@WgBYuM7
zB#1Q4cPK7SF1q$z2;>*?J!E2&^M$x3k*0VO4T+0YQ!MhBVxek^E{`b~s=KCeKNH5@
zvd>Q;BTexmHo<6Iil27G&rr<xT#BD{#LrP|fk+Gem}1pJE@*y=C#r=e12ob?&r_im
z)k1ST7P?5a(1jig*?85pkoz4m(3gGw6*AI7zh)B*{iXOfj`#(Nxfqb*7aj3S6mu~k
zE%Y)n@8zIg!E*_z-y)+rs0o~OT}U}!nd+c^hjzu8s{PLJ*za`Jey4ft$2Ey-KNn$K
zWJrs=ij1`1pV<VL9a8)kNBkPa`yBBRNBlZ6VVZ==9~c8I3E%?|1*2<>?HLRI5^4UE
zcek|YdK2L)!g;=1kHr6Ks-v366Rrr9pBckF5Z;bjZ`y`61cF;wjI4cv(ToT%W~sLI
zlfSlp!s@fIetH7~T<=`7(zQ3i5}~^GS5OgFJ{ZxcFuItoemxC^uLtkI!5;=K`+5S5
zb8Ap?uH04OQv59rzUngHh9D27e<CMB3VuXTVRTWaf+^qu(+zmF3`}8qV<x}21(Y*s
zX%cjMoD)UhR?r&qsu+3iV1VB<($_U^E{b>GDej|)cN9h!{|4tSO8y0gt1?uJ>5QvT
z7lBSN72s;L2C6CsRS<|#JYxuKeln{kl-^d*Bi>RNUHn6Z(%(H$;?6}ml(>UYgHjbk
zsS$|rct&S2scSO`rZ*M*h&L2Q7q6>eI^qEn_q)o#6y{zRlV5NnY79RvDjM)>3Hy9c
z%mL4Rq#E9;7;h&7RLazK3fTPAHIr!jlL9dDM}^VFA5^sc-h;Ng02&u<&XPF5y~i4q
zsu)UV0Wrb+F`llS?E<NpKzdohj(AC7bn&7Jq!&Cux~CG5#C?#C;a4_UanHAguqsB_
z1%Q$=S<P}WHk%mxr2;GQ3x(0e&sB{5%!4tW54e++8?rx8gOaoDP@R_nB0!8gS+%-A
zY9o-IQ?MhRRTy17qXOw^50D<L1SG*@oH6`LQ-G&1waKcAC#wa3k}_F!x)|#s#(t>4
zO8h`!bn$%^V^4Z8#uK~p$?EYMl&X8Ox)g{x%A#-y!SuL-AMu#N=;BcoOyBl^>4{2U
z3iEiE$uFJ+9g}%42|NY9Hg#3;)YSt}DO1-<u=zz{FVXgh0x<Eg!sy~#D%u|Mpp7T&
z?$qTj3ZJe)sk*1GwLpv;XI<d}X&r%dzk(g{b%oKz*Hj>V)dM8n$tVXB?`G8Iq$-}1
zHUcru9kr`n9Bm?w?p2^8?ok+B+^yp1E)R})iKh%l;(18N@GDILUWBOutcn4)6;M)~
zUev|dHe&2c3arEz6-F0#su;V&gE3y3axvy^F7WbH4N6rEr9mLZb$UZCkcJ7Q+ZF7H
z+Y|<;$10F+^#F<2?8<?}>vlCDRWXp#K#b$`iU)xs#L*`e=!jbsMi)1$IJ(J$Bi_p_
z!%_GZNSXYC7a_-F-b(_ng0DfXilH_NP*uDbvl9>UtG`{u-5~{P;yQ)V#V1tUecXdP
z-hOp)=dS*E3$_NTDhAblAV!I)4!BS{NGKgp&?ELMj4t-6P}=K(5^qeGL+MBjO4YrQ
za2*ii*#kY~g6S~9v{S*47*!Zu<Ww-(9x(BqeHoa-yxPoL^ZrNn^lv<M{wvoDUU43y
z1V1%}d2yA=FL-g4MM{(KLA^>3!XZ5HHd9|HTH1`@-Jgne@WO_-4qn_~(b77?Jd*bo
zZ9ZDjS!G3MAFU|Q&b+nq3~j8E0z3lo7UfY$rJ`a<;X$b}!z;_`=sijuVeU40o8zw2
zSS8K4p}^!9+)!YV(#r*5t_QufZ7UQlGxShd(cz;M6%6IZDm6#1%j6gIx-3$f!kkUL
Y8XYVYEz{@_9x(aE;X;u-U!*7e2d6<jn*aa+

literal 13306
zcmeHMTXP&o72aOWu6D+<WIF_G2tmPyT&%3_maNz$wroYRWg}b06|A+_qurJ?((I0y
znN=*~Dx3?KgaQmt5TFWpfds0!6jfZF0#85{RRn$jyu%B>0KTvH*0Z|>R_rYbS*_BU
zK0Rmpa{B9Y`kal4SS<E06h2wH;vm<~IXT}8yrnRGvgEk=^d&o33(}LGFZ+5gOFwYD
z;_<<e^Z@_*dM8V6Sn}oZqAZ2J?e_J~l@?tmcUEp*^44VW_~O9u(&*CI(%@izbif|A
z6CCWZ)?>_X2B9p>hju6_WiC0cR9wd+<yV-6>&je+DFo?hJ6H+rMOSjxW(SBt@*hPz
zAz;mVc7Dpvg`VG8Sx;)xE3DhT^!KpSNiQ$wd~d_aOFzYidFQ4yu%aM&*>+1Zh{ZZO
zVu{4ARI9OOs(l@5G3S}4{{L}d{MkL6mGu!&(;!KJ>|t#;{*y@%XL2HgDJ}bUp?3;e
z33{KnF@EI9%tg5*eOb)O-V;F}3(&j_GBxF9rXVk0^!&9<`uyojb#7xMJ(?b>3#KRM
zS8RVhop;?NRb;nixI&QgeAii2!=x}wt}Vk<)c!)jRRftAXmxcWbIQw=3bGgmnafU4
zvfbYKu#|Va-l2iPQR;RTxC%0}vQV&}m&JKVQm={+vHyPURk@-RHs{MloRLs%c`j7r
zSr~7loeMi<hjyA|UWTV{V3s_Qff{=k#?H2LYyzYUgXG&eh*}^=BK$Ak->th@un#I#
zb))ax{q393iNHb))PsRm+NmxAeby;{N{vQS($>+=%P>71hGko^7o#n-Nr`GX`!GOT
zu|~JXk@nE$5^v^1B<~@4nB=`A?<3hya)9LhBp)Dogye%HkCJ={B*6|2*KBaaiE0k+
zFwMAfZnW=Rt{sHuyu7pI$b6Sww&k1WVZFQZa$OeluthNKT|v$cL+L9Q(CwFsp;M3*
zAGUj`YV7%0EFO=G_-?w!*h9<TADMn<+On)<FIWrKe;_?PFg$qF5?m-JtP4HXC`3gx
z3VpaiC_zR2@0V>DNi4gsQT;rYGM}zENu}7D>7<U*Tlrw&DnH@>oxl3G{`vSHr_F<4
z%tIvf;>nMKSQ|r7^XS0X(3m9%phgWou7tF`Aix@ho@f*z02_s#Y!FHipby$!{N?X2
zynehJd+`(&ZyqM;14%v&qVGk52lqi!&W~TZR0e9Adg&(_07(vl=*kf^XpQh1QbHO~
zY493_h8u(uG>8wHn!k9Vx2)z7EZ!U?IRcU#1Bs}aj-pY6<4UNm=B}e?IA04Q^ze&9
zcNcw)joG8Q(IbOLhezbV_|XIn)t0Oyy;HXx=$12O2lJut6qmc4VBRULyOJK~(25=4
z8l96t;Q1%~+=>(8Mvc&LrZ`pN6_rA!Qz(>F(AMS4g1x>j^HaW8=wP^KJX%>Rf|^Q@
z7ctmEh@Xp^I_hyCZtK!_aw;CgmH7JL!opUpd0%g%^!*KZuU_Ro(p#7lAjxMy=2Tb_
zxhqyeh<b>vcKB{0>|)7v+50h&PWqr2wW;FaE$y_L;&FUxevIT<kiGO~EP_T=Il1Rh
zNuB^XHOsqneZC{<!J+i<_&A<}Lj!k_8K}<tBs%M)y;k$)ER3zsdlH|Sr$F}7=(7l#
zIyL3fs3fOAW}4MrpZ}Ki{XBZ?q$$0Zc~9eWa|UED?J<j>?NIYRgG%x&$cg&A?_s{P
z=&6%7>0a=04xgLnNj?s;m)4ENAhiF>`R#&8B1<b^Wot>Io_bZ~i@LIvgwjlL$uqM|
z#hkPQnaWmfx!qZ2P)@kZp6`S!h5b=>%JV0^V(5GBzAQ|XS6t?B$lT1?j{k7A4|UW+
zXVGz;a5I^ma_!}yM|D*HUUYWGM29M!@p!7cVs|RD7_FJ1;*zsm@@;0Ms>TZU^lEi8
zGTC?c)xl<~*tE1`cRQcT{39A@F@SFEm3rdIIqcqnIu08$AC`Fm?>~e8<V6slnY)Sp
z{{Gd8{#xFpzd7&HU(LJptDaltU23n&l~zWR0h~FHag84#oB8h4Oq<!c!Sr4>8%r6t
zaY}xO&e$Q|#4O`2)b2^o(GkcQZ=%n;QGfJP#`so(=KlZFA9i5oO_|r!q`hwEa3Etw
zEY);xY!SaH3?pSrhmoR-WiekUKVyQ9Oj*%SqQab<c?Cq!wW;QXYIBCobatxwYPI<q
zo1X(wPCJWALODFkypFm;x{b=U_8`5QrZN{XhWK^`h{kO&->NWp5wpZM!4a86h<F1P
zLP`Nd(616CEOot1f>SG9K}G4sK}FDYs^-;d^BSA!I+X%=!`Rn+{4KM97fKsNRMy&~
zjh2Zu)5Cz`4wlO^YTO3%l?sCwP|cUY)l~B(Fm=_?bvLVqzF6s?#P9KMZh#1SXVv^-
zwfP2{&wwb^Y_hqo8q2(i2Bnfuqmpa0N|f!pg@ME?mDL-!!Mq$%#Y?&>ZbwwXTS2ob
z=;qa$Uq(f#;uTZ`9lvURwc7kyHuEZ=nm<=<{yZu@bO|hRgSNTBg&Jr|X3yEHo{xu9
z<U{@5WM(hQ4Tk{(zfGa=sh0!~`BqE>56Au-lH~kF=b{X4e;EY79MQMM1TBa#XeYMY
z4JN*GgTei;a)bE-Hn^n;dkrsmUM=%=P*Kv3jtDiz5`lh>{K`4PH?THWK%35yK`*ld
zs_HM3+wfX^2OFHK{;+A8Uj<u+($`QE1r0sI)fh{x=}=mYKq-Syo1w&;$qtmZF_gZJ
z4UXI+zJZ1^nBG85NDV(CuQ8U$>0nxnfQk3mCNT9}M=MKQ@PesACp;OU_w~eLZzCIH
z@P4?1w{48K?_h&9)Ae1jWwd<{HE~q~n8;|1B^GqFU5TKLu|yNvj8(MmKxrF8=?B>0
zWH|?AnQwwA1L-Z)#3wZDh)Wt{iFqAJ7b8Go^w|WY9tN8%alzn^W~;FnjNNvywvDm&
z6Kt?%wtfn>jJBVlCeCR96SEp)iL*M|&P340IKK&P2IKu5C~adX{Sq4-xpDmp4P`L>
z8Z~iR!;d(nF_xIr!E`bLCT544z|_N}5KCO#0&Qu!m}}X=+cw7A+t^^ubo~Zw8EwBs
zO&r$%CXQ*0C7#jIHW5J^^KwmSGnk*-fzmdH((karwHw#(!IXjY2h_x<h8;1YF_swC
zfix5W5;M8YKw?IB2T0o(NPofxSAW@h2lX<J{*0P<T7!=0(-=z})^YSy1V>E$H{qy<
zIaZdqV2-tw`|DxuEJcxD+{|1)F!Hz81aoK<jpJW0J<N=-#04`WEqh})8|{r@ZOh&m
zutY@}xU>}IZ8Iv$TW3pA-X&P#f_I6QbEE@^_C`n0vNs;_s3?zmOHuA3OI&alDZ<}c
J^xV#_e*;S&kiY-{

diff --git a/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/LemmaGenSentenceLemmatizer.exe b/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/LemmaGenSentenceLemmatizer.exe
index 3f36045aafe7617bd1ab49dcfc4f76bdf187f72a..d33ee58421ed8bb8f2a14bfb809592da1464caca 100644
GIT binary patch
delta 1411
zcmZ9MZA_b06vzMf-u5YU<)JSOI-smw5ej{gZV(kVW5d`WqMPf8tD6yorYS?Zz7d_w
z@{-|ZgxEZZ&JRmQOiWa=Ov!W~mJv-%{5n4v)NENI-{%)!W(@J%JGKz-lm71cpL6bc
z?!C|Lo#~wE{NMsl%$473Vqcd(dzp<HjJ29WA)wLl@sN>Vt?Z^T%Szr$VW`$m<S=7;
z4{)s#5TqEO8D+i0-O#}?K?&q=fG?%%Hknlm#bKm)V6bLWR8@w5!(ETdgdC-uahNg=
zz#4E$*a^U0AXtT5kfK|jc197vhP}_iL+NY}54enLysos9#1pl<!<WxdF%x-J1!2{4
zKg!`XB*TqbZvC<FXgR9C6=@0vc~hQhSkG}99*l7JHs$5JtF}o;Zi5C2HPd`8jXB#6
z<B)Lk8fFZOdS1(nX%UfXMfiC=Gj5CMlTA!6G2o_jD}vSFZ_5{nOoMW0xf+T;oMn}k
zqY6<|Z}&Y)@xKEM3SfnP{&*pmo=oNC7W}ON&9qeiP#ldFfZP}V;h}+p)Q2jJtEP75
zHhwm>m40EAMNPvI_7~T1Q*j>O^J>&lQ4L?<5c&5qNtfa$iW$WVir=Z6kFZWTMa4gr
z=MDsUGNOw(%)7W1XZbkUuRwY{ysJcAkpen~#5i|inyBFfdE}%XPK~MFjxb-~F|wuC
zj-@RnNU!h`ahcEKs8^0FBgWq)&$?0z?lr2(vGG{hNfmrDv$TK~Wa(u7pyVuEq)ZfG
zXra|J#FYKCq7Ri=<BZO$EVzqkMH|tMsNyq<F~tGJmlP9<BgCCZD?6+B7S>8M_+z||
zX5wiCa1k#ejAe9+C}t^1Bm0Wz!Ixym@U0rQj45$U<s^vvxy*0o6SV3FEK7D!Odx_C
zSR}geA+Z71iGJK72I+qj!9K+vB&6t7f#<P7c3cHcDvsh`@|;Esiy)7EtR7F{Fot28
zdGu*$TU1++r}dGbehSvI&lMV1UvZnC%pTg-|F=c*8B3Pq)>N|a+6&2iek8Se&vIO}
zp{);ZViZZ7L4o!zgGqRaqx2M!qbG?mbi-@(?sz~~!}+P-zq#H1+>z_48|nFq&rceI
zw)(zGi<vuZI(PQbYjhJB(}fqh8C=(OVPVoD)9hu;@v7CLd34>QSLnLtWggulGziKw
zuG(7Jfbo-UQ{HNcxmzdXBINoS8PHF+V80F=iyw^N=|B2ab}<_}e_(&Q^VhjQD2(y$
zQ)8LY;v31yLjKfLI$s=_@aBzO`hDm7TX&_b_NlbJWnV43WJIfHS9SY87JlQvs>6Ms
Il{+l|0RlDZmH+?%

delta 1302
zcmZ9MZA_b06vzMf-1d2(tWR4iFJlOW#?jKXbP?a!OeB;!rkSuh9E!}P8ti1SwME0?
zES(7|I<tD`7822Y+!A9*YRu+`CHhTceEGKc!Nf0`Ac|&7d`Hi{GO~D+=XcNl+;h%7
z_dZXa+3wly(=XFPwmjb=9xY#dL{upuI^18zfM(T3+ti5Y5KpL*D28^%Va9GI!HvOo
zV73~NtOQ`GUz}t^Fi9BX0CogGuV)+9gvZ);mwK8a#Yh0~)UOF|b^IH|yvT9T(TJa&
zKxaEeYPHqL$-$%>C9?|x)Ntw+E_YjfYkctpC%D$*AU#&@f-Vr`w0N_Xdv8PBYUSSF
z5G}D7wdA=*+;f6BKbD|IE!S0uTD>>PK<-1%l#x0$F2l48^_py=6{rg`q19D({tWfE
z+)me_lCBot^2SD9E60J4yZU;r@;>1gfRqH5_z9;Ax$NY4o{xm<7VsO-;r(f>*Z?0N
z;rsUwq<H?zR$se1MT2s?qs7k!pO%M(KJf!tSTcMLm&u13E^6T&^ss-c(6kND8D<Qh
zH~hfFyo%2_CTqBCJYV5gVId=<<iRA3@#<bgnE}$wQnW}82ILsk@@?ql2YEra^IucK
z%zm`daq4ATd;K`Mt|aU8bdvcd&0#R4^UAn`=GpVEQFDzIu1UDGq5Q0Nx9P|^Y()V@
ziMNa_A;{9j3j$4iZh>B7-)-22YE($@$EFKzW_l21`mx>c9>ZS40mC7~5yL~wI=&Yj
zf6Q>ku#Dj%+PUY0+{*&a%NT!;dV>X=k=?k+b`RSTc^@vDgasUyL&kG}nWTfvMw-Ga
z_)!$tZk1C=pa!RzLDmUu!6jxGA2DP2mU+A34#PeS>4gXIJu_`wj~Qn04||?LR3wnc
zouUaz>_P^v*&DBhuf>ex`eVN#c%D%uyRLK0yu_Q_Y<BUj{(qFD`q+NB(q6Ss`UdiQ
zrza*J%Jm;PT9^UUV$JWvOS4a2YuIxpH9x-g#iwtVKY=SGM3oFdxY-B<v~)Dcwp~=a
z$syjvaY1__$dR^i+#qrs6F<VX<2Y({(`Ly<l<n;h{i@5m*1wRwazHny`)(G%3jdi_
zyuiM6Dt%=&^j-aqKX<+K)3ax<b-lRA%Q)OKnwrW?A9-rBkRKh+=BE!$gwkr-S@kB@
k|6jV=9(ByOMeJ0ke5E&hqZP;hhfSmRRsxNyqMWq<1-Jv^HUIzs

diff --git a/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/LemmaGenSentenceLemmatizer.pdb b/mgiza-aligner/LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/obj/Debug/LemmaGenSentenceLemmatizer.pdb
index 7fafbe76e333cc21b4d2b713da5f65386c5851bb..92ae405df2091d9ee7c03c6846702a177efba434 100644
GIT binary patch
delta 701
zcmaKqO=uHQ5Xax!ZfsgBbZfF3lQh}HG*J@Tw40R1kJ^BxQCboZp&}@L<e+X3y?F@u
z8mM}aV&<TTp7o%hT_}RI9t4F#DSDM$1rIgi2lUkXf7_g0nEB1j&di&)JEA6Puhs6r
zh5FhoXN)yVmF4*d^ToxJCvN1v*8e);?u^&>r?%3%w*KV))sH)!>G$7K^vv`7P4Ok~
zYRVc}=4ifMPIvWw3K*xz)|aSiNc*REb!okD<k1&SnlDQe0aHyJTU&9i2VU^5$L(sH
z{K1r`1ka{o@SZ1&jy<#yoGR$7L(9QCjd%UvI7Ald%+%C9TLavudYdtY?Q`WUeU1!`
zdk|L<2!Kj27mHkMDq@!}{MyR|*jRf8j=r|rhcTI-;ZzSL@ANVz4#34JLI?Z6F!-aj
zBO;&=eiZbB84x*Q1T;VkJP3|~GXFSu2)?{T5S#!*U=c)5F$?07;v#5*mt<NT#$^N!
zgEzqhcneID7WNnVaPWD^C?awQ9S4*lmTUXjQ8%t(Y>f>-Wd5|IGZilIMkK*)8i+)p
zCnGJsMfqqN`bxB{bZ}aZHh7*U%@p*US?1?x)qIZBYU~}7V)0Kr?|hFB?SEKN8%eK|
z7>p_Hzb-exaNcIIAy3=iw?cCxA5c7O8PI2}kY@|Cm1qWjo))Y$Z_+Dk&|RTztLHxp
One!=p+Zi6+?ED8xmzyvE

delta 645
zcmZpuX{g!2!X+^?b6*4_0|Udp_X^L%tbe<;zbl*eS-*MiW*IIW4iQD;!^fr{owhFH
z4D-zCOuwdBd|LEsqvIMz&VwL5KyYxgpvZqlA(#B*(%jU%lH!=K%;M6-9EIS?yy9My
zbHw_wOa11UZ9lV8a{494$$}yVlN}@!Sen<*Q{9{*v4W8^0cv)@WKk(~RuLdCV6vlB
zJF6+sKJLk9rQBJW7}yxxCSR1(pIjr&VI%?+XA)qHWNetv)NmTe2FiW{ihTfL5MTtt
z00@&o2uMF+n7m6`t)8EOp+OYL6#&xGK>FSLe+{xg8mOc}4oC|FX>A}4G`_(QNCVY2
z7y)TPAZ-JrLF(;+v;>gv1f->av@?(fn$_S3q-B7#Kad8R)xgQX#lXv;1mrOQX+EGC
zfeJtZWE{vqA)w*jK&%gD3o@91gf}0Tv1FVW&@f3(g)v~Vs+>HKbd`J0cyY3+yf%<b
zl=o+P&M<kC{3J%n$*v0OKr&aspV55sUWMgArKyU$fr=EBjx$PbeyOC-&BVyKSxQfv
z344Tq;!1q;4g+A+ra*(AV{)$1VW2^V#^ONI(^#7IBG6SHlYN1F$;pkz+KdM$uQk@g
WX5L$4aXbmjM1+a4VzZ&yd3FF+ZK!(y

diff --git a/mgiza-aligner/Makefile b/mgiza-aligner/Makefile
index 7e384c0..aebcaeb 100644
--- a/mgiza-aligner/Makefile
+++ b/mgiza-aligner/Makefile
@@ -1,10 +1,22 @@
 SRC_LANG=en
 TRG_LANG=pl
-CORPUS_NAME=europarl
+CORPUS_NAME=europarljrc
 
 all: corpora/$(CORPUS_NAME)/giza.cfg corpora/$(CORPUS_NAME)/src.low_trg.low.cooc corpora/$(CORPUS_NAME)/src.low_trg.low.snt corpora/$(CORPUS_NAME)/src.low.vcb corpora/$(CORPUS_NAME)/trg.low.vcb
 	mgiza/mgizapp/bin/mgiza corpora/$(CORPUS_NAME)/giza.cfg
-	cat corpora/$(CORPUS_NAME)/aligned*part* > corpora/$(CORPUS_NAME)/aligned.txt
+	cat corpora/$(CORPUS_NAME)/aligned*part* | ./sortGizaAlignments.py > corpora/$(CORPUS_NAME)/aligned.txt
+
+clean-intermediate-files:
+	rm -f corpora/$(CORPUS_NAME)/*.lem
+	rm -f corpora/$(CORPUS_NAME)/*.low
+	rm -f corpora/$(CORPUS_NAME)/*.classes
+	rm -f corpora/$(CORPUS_NAME)/*.classes.cats
+	rm -f corpora/$(CORPUS_NAME)/*.vcb
+	rm -f corpora/$(CORPUS_NAME)/*.snt
+	rm -f corpora/$(CORPUS_NAME)/*.cooc
+	rm -f corpora/$(CORPUS_NAME)/aligned*part*
+	rm -f corpora/$(CORPUS_NAME)/giza.cfg
+
 
 clean:
 	rm -f corpora/$(CORPUS_NAME)/*.tok
diff --git a/mgiza-aligner/clean-corpus-n.perl b/mgiza-aligner/clean-corpus-n.perl
new file mode 100755
index 0000000..76a09e5
--- /dev/null
+++ b/mgiza-aligner/clean-corpus-n.perl
@@ -0,0 +1,168 @@
+#!/usr/bin/env perl
+#
+# This file is part of moses.  Its use is licensed under the GNU Lesser General
+# Public License version 2.1 or, at your option, any later version.
+
+# $Id: clean-corpus-n.perl 3633 2010-10-21 09:49:27Z phkoehn $
+use warnings;
+use strict;
+use Getopt::Long;
+my $help;
+my $lc = 0; # lowercase the corpus?
+my $ignore_ratio = 0;
+my $ignore_xml = 0;
+my $enc = "utf8"; # encoding of the input and output files
+    # set to anything else you wish, but I have not tested it yet
+my $max_word_length = 1000; # any segment with a word (or factor) exceeding this length in chars
+    # is discarded; motivated by symal.cpp, which has its own such parameter (hardcoded to 1000)
+    # and crashes if it encounters a word that exceeds it
+my $ratio = 9;
+
+GetOptions(
+  "help" => \$help,
+  "lowercase|lc" => \$lc,
+  "encoding=s" => \$enc,
+  "ratio=f" => \$ratio,
+  "ignore-ratio" => \$ignore_ratio,
+  "ignore-xml" => \$ignore_xml,
+  "max-word-length|mwl=s" => \$max_word_length
+) or exit(1);
+
+if (scalar(@ARGV) < 6 || $help) {
+    print "syntax: clean-corpus-n.perl [-ratio n] corpus l1 l2 clean-corpus min max [lines retained file]\n";
+    exit;
+}
+
+my $corpus = $ARGV[0];
+my $l1 = $ARGV[1];
+my $l2 = $ARGV[2];
+my $out = $ARGV[3];
+my $min = $ARGV[4];
+my $max = $ARGV[5];
+
+my $linesRetainedFile = "";
+if (scalar(@ARGV) > 6) {
+	$linesRetainedFile = $ARGV[6];
+	open(LINES_RETAINED,">$linesRetainedFile") or die "Can't write $linesRetainedFile";
+}
+
+print STDERR "clean-corpus.perl: processing $corpus.$l1 & .$l2 to $out, cutoff $min-$max, ratio $ratio\n";
+
+my $opn = undef;
+my $l1input = "$corpus.$l1";
+if (-e $l1input) {
+  $opn = $l1input;
+} elsif (-e $l1input.".gz") {
+  $opn = "gunzip -c $l1input.gz |";
+} else {
+    die "Error: $l1input does not exist";
+}
+open(F,$opn) or die "Can't open '$opn'";
+$opn = undef;
+my $l2input = "$corpus.$l2";
+if (-e $l2input) {
+  $opn = $l2input;
+} elsif (-e $l2input.".gz") {
+  $opn = "gunzip -c $l2input.gz |";
+} else  {
+ die "Error: $l2input does not exist";
+}
+
+open(E,$opn) or die "Can't open '$opn'";
+
+open(FO,">$out.$l1") or die "Can't write $out.$l1";
+open(EO,">$out.$l2") or die "Can't write $out.$l2";
+
+# necessary for proper lowercasing
+my $binmode;
+if ($enc eq "utf8") {
+  $binmode = ":utf8";
+} else {
+  $binmode = ":encoding($enc)";
+}
+binmode(F, $binmode);
+binmode(E, $binmode);
+binmode(FO, $binmode);
+binmode(EO, $binmode);
+
+my $innr = 0;
+my $outnr = 0;
+my $factored_flag;
+while(my $f = <F>) {
+  $innr++;
+  print STDERR "." if $innr % 10000 == 0;
+  print STDERR "($innr)" if $innr % 100000 == 0;
+  my $e = <E>;
+  die "$corpus.$l2 is too short!" if !defined $e;
+  chomp($e);
+  chomp($f);
+  if ($innr == 1) {
+    $factored_flag = ($e =~ /\|/ || $f =~ /\|/);
+  }
+
+  #if lowercasing, lowercase
+  if ($lc) {
+    $e = lc($e);
+    $f = lc($f);
+  }
+
+  $e =~ s/\|//g unless $factored_flag;
+  $e =~ s/\s+/ /g;
+  $e =~ s/^ //;
+  $e =~ s/ $//;
+  $f =~ s/\|//g unless $factored_flag;
+  $f =~ s/\s+/ /g;
+  $f =~ s/^ //;
+  $f =~ s/ $//;
+  next if $f eq '';
+  next if $e eq '';
+
+  my $ec = &word_count($e);
+  my $fc = &word_count($f);
+  next if $ec > $max;
+  next if $fc > $max;
+  next if $ec < $min;
+  next if $fc < $min;
+  next if !$ignore_ratio && $ec/$fc > $ratio;
+  next if !$ignore_ratio && $fc/$ec > $ratio;
+  # Skip this segment if any factor is longer than $max_word_length
+  my $max_word_length_plus_one = $max_word_length + 1;
+  next if $e =~ /[^\s\|]{$max_word_length_plus_one}/;
+  next if $f =~ /[^\s\|]{$max_word_length_plus_one}/;
+
+  # An extra check: none of the factors can be blank!
+  die "There is a blank factor in $corpus.$l1 on line $innr: $f"
+    if $f =~ /[ \|]\|/;
+  die "There is a blank factor in $corpus.$l2 on line $innr: $e"
+    if $e =~ /[ \|]\|/;
+
+  $outnr++;
+  print FO $f."\n";
+  print EO $e."\n";
+
+  if ($linesRetainedFile ne "") {
+	print LINES_RETAINED $innr."\n";
+  }
+}
+
+if ($linesRetainedFile ne "") {
+  close LINES_RETAINED;
+}
+
+print STDERR "\n";
+my $e = <E>;
+die "$corpus.$l2 is too long!" if defined $e;
+
+print STDERR "Input sentences: $innr  Output sentences:  $outnr\n";
+
+sub word_count {
+  my ($line) = @_;
+  if ($ignore_xml) {
+    $line =~ s/<\S[^>]*\S>/ /g;
+    $line =~ s/\s+/ /g;
+    $line =~ s/^ //g;
+    $line =~ s/ $//g;
+  }
+  my @w = split(/ /,$line);
+  return scalar @w;
+}
diff --git a/mgiza-aligner/sortGizaAlignments.py b/mgiza-aligner/sortGizaAlignments.py
new file mode 100755
index 0000000..e6762ca
--- /dev/null
+++ b/mgiza-aligner/sortGizaAlignments.py
@@ -0,0 +1,26 @@
+#!/usr/bin/python3
+
+import sys, re
+
+examples_dict = {}
+p = re.compile("# Sentence pair \((\d+)\)")
+
+i = 0
+for line in sys.stdin:
+    line = line.strip()
+    if i % 3 == 0:
+        current_example = [line]
+        m = p.match(line)
+        if m:
+            current_key = int(m.group(1))
+        else:
+            raise Exception("Wrong line: "+line)
+    elif i % 3 == 1:
+        current_example.append(line)
+    else:
+        current_example.append(line)
+        examples_dict[current_key] = current_example
+    i+=1
+
+for key in sorted(examples_dict.keys()):
+    print ('\n'.join(examples_dict[key]))
diff --git a/tests/addAlignedLemmatizedTM.py b/tests/addAlignedLemmatizedTM.py
old mode 100644
new mode 100755
index ee8a246..aecc7dd
--- a/tests/addAlignedLemmatizedTM.py
+++ b/tests/addAlignedLemmatizedTM.py
@@ -21,10 +21,15 @@ def file_len(fname):
             pass
     return i + 1
 
-def add_data(data):
+def add_examples(examplesData):
     req = urllib2.Request(address)
     req.add_header('Content-Type', 'application/json')
-    json.loads(urllib2.urlopen(req, json.dumps(data)).read())
+    response = json.loads(urllib2.urlopen(req, json.dumps(examplesData)).read())
+    if response['status'] == 'error':
+        raise Exception(response['message'])
+
+if len(sys.argv) != 7:
+    raise Exception("wrong number of arguments")
 
 name = sys.argv[1]
 sourceFile = sys.argv[2]
@@ -40,13 +45,14 @@ if (file_len(alignmentsFile) != 3*file_len(sourceFile)):
     raise Exception("alignments file is not exactly 3 times longer than source and target")
 
 
-totalLines = file_len(sourceFile)
+totalExamples = file_len(sourceFile)
 
 data = {
     'operation': 'addTm',
     'sourceLangId':sourceLangId,
     'targetLangId':targetLangId,
-    'name':name
+    'name':name,
+    'tmLemmatized':True
 }
 
 req = urllib2.Request(address)
@@ -60,35 +66,35 @@ data = {
     'tmId':tmId
 }
 
-sentences = []
+examples = []
 start = time.time()
-with open(sourceFile) as sourceLines, open(targetFile) as targetLines, open(alignmentsFile) as alignmentsLines:
+with open(sourceFile) as sf, open(targetFile) as tf, open(alignmentsFile) as af:
+    for lineNumber in range(totalExamples):
+        sourceSentence = sf.readline().strip()
+        targetSentence = tf.readline().strip()
 
-    lineNumber = 0
-    for line in sourceLines:
-        line = line.strip()
-        if lineNumber % 3 == 1:
-            currSentence.append(line)
-        elif lineNumber % 3 == 2:
-            currSentence.append(line)
-            currSentence.reverse()
-            sentences.append(currSentence)
-            currSentence = []
-            if len(sentences) >= BUFFER_SIZE:
-                data['sentences'] = sentences
-                add_data(data)
-                mark = time.time()
-                print "Added %d of %d sentences. Time elapsed: %.4f s, current speed: %.4f sentences/second" % ( (lineNumber+1)/3, totalLines/3, mark-start, (lineNumber+1)/(3*(mark-start)))
-                sentences = []
-        lineNumber += 1
+        # skip to lines of the alignments file, these are lemmatized and we need the raw sentences from the source and target files.
+        af.readline()
+        af.readline()
+
+        alignmentString = af.readline().strip()
+
+        examples.append([sourceSentence, targetSentence, alignmentString])
+
+        if len(examples) >= BUFFER_SIZE:
+            data['examples'] = examples
+            add_examples(data)
+            mark = time.time()
+            print "Added %d of %d lemmatized examples. Time elapsed: %.4f s, current speed: %.4f examples/second" % ( (lineNumber+1), totalExamples, mark-start, (lineNumber+1)/(mark-start))
+            examples = []
 
 
-if len(sentences) > 0:
-    data['sentences'] = sentences
-    add_data(data)
+if len(examples) > 0:
+    data['examples'] = examples
+    add_examples(data)
 
 end = time.time()
-print "Added all %d sentences. Time elapsed: %.4f s, overall speed: %.4f sentences/second" % ((lineNumber+1)/3, end-start, (lineNumber+1)/(3*(end-start)))
+print "Added all %d lemmatized sentences. Time elapsed: %.4f s, overall speed: %.4f sentences/second" % ((lineNumber+1), end-start, (lineNumber+1)/(end-start))
 
 print "Generating index..."
 start = time.time()
diff --git a/tests/addLemmatizedTM.sh b/tests/addLemmatizedTM.sh
new file mode 100755
index 0000000..ba53f7f
--- /dev/null
+++ b/tests/addLemmatizedTM.sh
@@ -0,0 +1,7 @@
+#!/bin/sh
+
+CORPUS_NAME="europarl_sample"
+SRC_LANG_ID=2
+TRG_LANG_ID=1
+
+./addAlignedLemmatizedTM.py $CORPUS_NAME ../mgiza-aligner/corpora/$CORPUS_NAME/src.tok $SRC_LANG_ID ../mgiza-aligner/corpora/$CORPUS_NAME/trg.tok $TRG_LANG_ID ../mgiza-aligner/corpora/$CORPUS_NAME/aligned.txt
diff --git a/tests/addTm.py b/tests/addTm.py
index e3bfaa3..c36e791 100755
--- a/tests/addTm.py
+++ b/tests/addTm.py
@@ -16,7 +16,8 @@ data = {
     'operation': 'addTm',
     'sourceLangId':int(sys.argv[1]),
     'targetLangId':int(sys.argv[2]),
-    'name':sys.argv[3]
+    'name':sys.argv[3],
+    'tmLemmatized':bool(int(sys.argv[4]))
 }
 
 req = urllib2.Request(address)