corpus compilator

2017-07-21 17:37:00 +02:00 · 2017-07-21 17:37:00 +02:00 · 966a6530be
commit 966a6530be
parent 8cf2911c72
11 changed files with 16721 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -36,3 +36,5 @@ mgiza-aligner/mgiza/mgizapp/src/mkcls/Makefile
 mgiza-aligner/mgiza/mgizapp/src/mkcls/cmake_install.cmake
 __pycache__
 import-requests/request_handler.log
+mgiza-aligner/corpus-compilator/corpora
+mgiza-aligner/corpus-compilator/dictionaries/*lem
--- a/mgiza-aligner/corpus-compilator/Makefile
+++ b/mgiza-aligner/corpus-compilator/Makefile
@ -0,0 +1,55 @@
+SRC_LANG=pl
+TRG_LANG=en
+CORPUS_NAME=europarl_sample
+DICTIONARY_NAME=classyf_popular_medicine
+SEPARATOR=@\#@
+CORPUS_CHUNK_SIZE=100000
+
+all: corpora/$(CORPUS_NAME)/src_filtered.txt corpora/$(CORPUS_NAME)/trg_filtered.txt
+
+corpora/$(CORPUS_NAME)/src_filtered.txt corpora/$(CORPUS_NAME)/trg_filtered.txt: corpora/$(CORPUS_NAME)/src_clean.txt corpora/$(CORPUS_NAME)/trg_clean.txt corpora/$(CORPUS_NAME)/corpus_lines.txt
+	./compile.py corpora/$(CORPUS_NAME)/src_clean.txt corpora/$(CORPUS_NAME)/trg_clean.txt corpora/$(CORPUS_NAME)/corpus_lines.txt corpora/$(CORPUS_NAME)/src_filtered.txt corpora/$(CORPUS_NAME)/trg_filtered.txt
+
+corpora/$(CORPUS_NAME)/corpus_lines.txt: index-corpus dictionaries/$(DICTIONARY_NAME).lem
+	./get_corpus_lines.py dictionaries/$(DICTIONARY_NAME).lem corpora/$(CORPUS_NAME)/report.txt > $@
+
+index-corpus: split-corpus
+	./load_corpus.sh corpora/$(CORPUS_NAME)/csv/
+
+split-corpus: corpora/$(CORPUS_NAME)/src.csv
+	mkdir corpora/$(CORPUS_NAME)/csv
+	split -l $(CORPUS_CHUNK_SIZE) -d --additional-suffix=".csv" $< corpora/$(CORPUS_NAME)/csv/src
+
+corpora/$(CORPUS_NAME)/src.csv: corpora/$(CORPUS_NAME)/src_clean.lem
+	./lem2csv.py $< > $@
+
+
+dictionaries/$(DICTIONARY_NAME).lem: dictionaries/$(DICTIONARY_NAME).txt
+	mono ../LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/bin/Debug/LemmaGenSentenceLemmatizer.exe $(SRC_LANG) < $< | sort -u > $@
+
+corpora/$(CORPUS_NAME)/trg_clean.lem: corpora/$(CORPUS_NAME)/trg_clean.tok
+	mono ../LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/bin/Debug/LemmaGenSentenceLemmatizer.exe $(TRG_LANG) < $< > $@
+
+corpora/$(CORPUS_NAME)/src_clean.lem: corpora/$(CORPUS_NAME)/src_clean.tok
+	mono ../LemmaGenSentenceLemmatizer/LemmaGenSentenceLemmatizer/bin/Debug/LemmaGenSentenceLemmatizer.exe $(SRC_LANG) < $< > $@
+
+corpora/$(CORPUS_NAME)/src_clean.txt corpora/$(CORPUS_NAME)/trg_clean.txt corpora/$(CORPUS_NAME)/src_clean.tok corpora/$(CORPUS_NAME)/trg_clean.tok: corpora/$(CORPUS_NAME)/src.txt corpora/$(CORPUS_NAME)/trg.txt corpora/$(CORPUS_NAME)/src.tok corpora/$(CORPUS_NAME)/trg.tok
+	../clean_corpus.py corpora/$(CORPUS_NAME)/src.txt corpora/$(CORPUS_NAME)/trg.txt corpora/$(CORPUS_NAME)/src.tok corpora/$(CORPUS_NAME)/trg.tok corpora/$(CORPUS_NAME)/src_clean.txt corpora/$(CORPUS_NAME)/trg_clean.txt corpora/$(CORPUS_NAME)/src_clean.tok corpora/$(CORPUS_NAME)/trg_clean.tok $(SEPARATOR)
+
+corpora/$(CORPUS_NAME)/trg.tok: corpora/$(CORPUS_NAME)/trg.txt
+	/usr/local/bin/concordia-sentence-tokenizer -c ../../concordia.cfg < $< > $@
+
+corpora/$(CORPUS_NAME)/src.tok: corpora/$(CORPUS_NAME)/src.txt
+	/usr/local/bin/concordia-sentence-tokenizer -c ../../concordia.cfg < $< > $@
+
+clean:
+	rm -f corpora/$(CORPUS_NAME)/report.txt
+	./clear_solr_index.sh
+	rm -rf corpora/$(CORPUS_NAME)/csv
+	rm -f corpora/$(CORPUS_NAME)/src.csv
+	rm -f corpora/$(CORPUS_NAME)/corpus_lines.txt
+	rm -f dictionaries/$(DICTIONARY_NAME).lem
+	rm -f corpora/$(CORPUS_NAME)/*.lem
+	rm -f corpora/$(CORPUS_NAME)/*.tok
+	rm -f corpora/$(CORPUS_NAME)/src_clean.txt
+	rm -f corpora/$(CORPUS_NAME)/trg_clean.txt
--- a/mgiza-aligner/corpus-compilator/clear_solr_index.sh
+++ b/mgiza-aligner/corpus-compilator/clear_solr_index.sh
@ -0,0 +1,5 @@
+#!/bin/sh
+
+echo "Clearing solr index"
+
+curl "http://localhost:8983/solr/corpus_compiler/update?stream.body=<delete><query>*:*</query></delete>&commit=true"
--- a/mgiza-aligner/corpus-compilator/compile.py
+++ b/mgiza-aligner/corpus-compilator/compile.py
@ -0,0 +1,17 @@
+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+
+import sys
+
+
+with open(sys.argv[1]) as src_clean, open(sys.argv[2]) as trg_clean, open(sys.argv[3]) as corpus_lines, open(sys.argv[4], 'w') as src_filtered, open(sys.argv[5],'w') as trg_filtered:
+    index = 1
+    for corpus_line_raw in corpus_lines:
+        corpus_line = int(corpus_line_raw)
+        while index < corpus_line:
+            src_clean.readline()
+            trg_clean.readline()
+            index+=1
+        src_filtered.write(src_clean.readline())
+        trg_filtered.write(trg_clean.readline())
+        index+=1
--- a/mgiza-aligner/corpus-compilator/dictionaries/classyf_popular_medicine.txt
+++ b/mgiza-aligner/corpus-compilator/dictionaries/classyf_popular_medicine.txt
--- a/mgiza-aligner/corpus-compilator/dictionaries/popular_medicine_dictionary.txt
+++ b/mgiza-aligner/corpus-compilator/dictionaries/popular_medicine_dictionary.txt
--- a/mgiza-aligner/corpus-compilator/dictionaries/test.txt
+++ b/mgiza-aligner/corpus-compilator/dictionaries/test.txt
@ -0,0 +1,2 @@
+parlamentu europejskiego
+protokół
--- a/mgiza-aligner/corpus-compilator/get_corpus_lines.py
+++ b/mgiza-aligner/corpus-compilator/get_corpus_lines.py
@ -0,0 +1,39 @@
+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+
+import sys, json, requests
+
+dictionary_path = sys.argv[1]
+report_path = sys.argv[2]
+
+
+dictionary_frequencies = []
+filtered_corpus_lines = set([])
+
+with open(dictionary_path) as dictionary:
+    index = 0
+    for line in dictionary:
+        index += 1
+        word = line.rstrip()
+        request_url = 'http://localhost:8983/solr/corpus_compiler/select?q='
+        request_url += '"'+word+'"'
+        request_url +='&rows=100000&wt=json'
+        response = requests.get(request_url)
+        try:
+            json_response = json.loads(response.content.decode('utf-8'))
+            if json_response['response']['numFound'] > 0:
+                dictionary_frequencies.append((word,json_response['response']['numFound']))
+                for doc in json_response['response']['docs']:
+                    filtered_corpus_lines.add(doc['line_number'])
+        except:
+            pass
+        if index % 100 == 0:
+            sys.stderr.write("Done %d dictionary words. Current corpus size: %d\n" % (index, len(filtered_corpus_lines)))
+
+
+for number in sorted(filtered_corpus_lines):
+    print(str(number))
+
+with open(report_path, 'w') as report:
+    for entry in sorted(dictionary_frequencies, key=lambda x:-x[1]):
+        report.write("%s\t%d\n" % entry)
--- a/mgiza-aligner/corpus-compilator/lem2csv.py
+++ b/mgiza-aligner/corpus-compilator/lem2csv.py
@ -0,0 +1,10 @@
+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+
+import sys
+
+index = 0
+with open(sys.argv[1]) as corpus:
+    for line in corpus:
+        index += 1
+        print(str(index)+"\t"+line.rstrip())
--- a/mgiza-aligner/corpus-compilator/load_corpus.sh
+++ b/mgiza-aligner/corpus-compilator/load_corpus.sh
@ -0,0 +1,15 @@
+#!/bin/sh
+
+CORPUS_FOLDER=$1
+
+CHUNKS_COUNT=`ls $CORPUS_FOLDER | wc -l`
+
+echo "Total file count" $CHUNKS_COUNT
+INDEX=0
+for FILE in `ls $CORPUS_FOLDER`
+do
+    INDEX=`expr $INDEX + 1`
+    echo "Working on file" $INDEX "of" $CHUNKS_COUNT
+    curl -X POST --data-binary @$CORPUS_FOLDER$FILE -H 'Content-type:application/csv' \
+      'http://localhost:8983/solr/corpus_compiler/update?commit=true&optimize=true&separator=%09&fieldnames=line_number,content'
+done
--- a/mgiza-aligner/corpus-compilator/setup_solr.sh
+++ b/mgiza-aligner/corpus-compilator/setup_solr.sh
@ -0,0 +1,12 @@
+#!/bin/sh
+
+SOLR_HOME=/home/rafalj/programs/solr-6.0.0
+
+$SOLR_HOME/bin/solr restart
+$SOLR_HOME/bin/solr create -c corpus_compiler
+
+
+curl -X POST -H 'Content-type:application/json'  http://localhost:8983/solr/corpus_compiler/schema -d '{
+  "add-field":{ "name":"content", "type":"text_general"},
+  "add-field":{ "name":"line_number", "type":"int"}
+}'