Improve the results to 0.8ish
This commit is contained in:
parent
83e6d37f53
commit
9728e579d4
148
dev-0/out.tsv
148
dev-0/out.tsv
@ -1,87 +1,87 @@
|
|||||||
5
|
14
|
||||||
29
|
|
||||||
35
|
|
||||||
32
|
|
||||||
18
|
|
||||||
20
|
|
||||||
3
|
|
||||||
42
|
|
||||||
4
|
|
||||||
1
|
|
||||||
17
|
|
||||||
20
|
|
||||||
16
|
|
||||||
44
|
|
||||||
13
|
|
||||||
13
|
|
||||||
41
|
|
||||||
36
|
|
||||||
10
|
|
||||||
0
|
0
|
||||||
27
|
|
||||||
28
|
|
||||||
8
|
|
||||||
14
|
|
||||||
25
|
|
||||||
19
|
|
||||||
2
|
|
||||||
8
|
|
||||||
38
|
|
||||||
40
|
|
||||||
34
|
|
||||||
34
|
|
||||||
15
|
|
||||||
24
|
|
||||||
13
|
|
||||||
9
|
|
||||||
39
|
|
||||||
5
|
|
||||||
2
|
|
||||||
32
|
|
||||||
4
|
4
|
||||||
33
|
|
||||||
15
|
|
||||||
21
|
|
||||||
30
|
|
||||||
37
|
|
||||||
9
|
|
||||||
11
|
|
||||||
26
|
|
||||||
15
|
|
||||||
25
|
|
||||||
35
|
|
||||||
34
|
|
||||||
19
|
|
||||||
6
|
|
||||||
14
|
|
||||||
16
|
|
||||||
16
|
|
||||||
34
|
|
||||||
7
|
7
|
||||||
15
|
2
|
||||||
|
5
|
||||||
|
22
|
||||||
12
|
12
|
||||||
34
|
5
|
||||||
31
|
4
|
||||||
20
|
15
|
||||||
7
|
5
|
||||||
34
|
0
|
||||||
30
|
2
|
||||||
35
|
8
|
||||||
|
8
|
||||||
|
8
|
||||||
|
2
|
||||||
9
|
9
|
||||||
18
|
23
|
||||||
10
|
24
|
||||||
30
|
|
||||||
3
|
|
||||||
43
|
|
||||||
42
|
|
||||||
25
|
|
||||||
6
|
6
|
||||||
|
13
|
||||||
|
10
|
||||||
|
15
|
||||||
|
6
|
||||||
|
11
|
||||||
|
13
|
||||||
|
23
|
||||||
|
0
|
||||||
|
22
|
||||||
|
22
|
||||||
|
3
|
||||||
|
20
|
||||||
|
8
|
||||||
|
3
|
||||||
|
20
|
||||||
|
14
|
||||||
|
11
|
||||||
|
7
|
||||||
|
5
|
||||||
|
18
|
||||||
|
1
|
||||||
|
7
|
||||||
|
16
|
||||||
21
|
21
|
||||||
22
|
22
|
||||||
1
|
0
|
||||||
|
22
|
||||||
|
3
|
||||||
|
15
|
||||||
|
4
|
||||||
|
22
|
||||||
|
6
|
||||||
17
|
17
|
||||||
|
10
|
||||||
|
0
|
||||||
|
0
|
||||||
|
22
|
||||||
|
20
|
||||||
|
3
|
||||||
|
0
|
||||||
|
1
|
||||||
|
21
|
||||||
|
5
|
||||||
|
6
|
||||||
|
22
|
||||||
|
16
|
||||||
|
19
|
||||||
|
22
|
||||||
|
2
|
||||||
|
9
|
||||||
|
16
|
||||||
1
|
1
|
||||||
0
|
0
|
||||||
|
12
|
||||||
15
|
15
|
||||||
|
17
|
||||||
|
7
|
||||||
|
2
|
||||||
|
4
|
||||||
|
15
|
||||||
|
4
|
||||||
|
2
|
||||||
|
3
|
||||||
|
6
|
||||||
7
|
7
|
||||||
23
|
|
||||||
|
|
@ -17,12 +17,11 @@ def main():
|
|||||||
documents = [preprocess(document, stopwords)
|
documents = [preprocess(document, stopwords)
|
||||||
for document in in_file.readlines()]
|
for document in in_file.readlines()]
|
||||||
|
|
||||||
vectorizer = TfidfVectorizer(ngram_range=(1, 3), use_idf=False)
|
|
||||||
vectorizer = TfidfVectorizer()
|
vectorizer = TfidfVectorizer()
|
||||||
|
|
||||||
document_vectors = vectorizer.fit_transform(documents)
|
document_vectors = vectorizer.fit_transform(documents)
|
||||||
predictions = KMeans(
|
predictions = KMeans(
|
||||||
n_clusters=45, max_iter=1000).fit_predict(document_vectors)
|
n_clusters=25, max_iter=1000).fit_predict(document_vectors)
|
||||||
|
|
||||||
with open("dev-0/out.tsv", "w") as out_file:
|
with open("dev-0/out.tsv", "w") as out_file:
|
||||||
for prediction in predictions:
|
for prediction in predictions:
|
||||||
|
@ -17,12 +17,11 @@ def main():
|
|||||||
documents = [preprocess(document, stopwords)
|
documents = [preprocess(document, stopwords)
|
||||||
for document in in_file.readlines()]
|
for document in in_file.readlines()]
|
||||||
|
|
||||||
vectorizer = TfidfVectorizer(ngram_range=(1, 3), use_idf=False)
|
|
||||||
vectorizer = TfidfVectorizer()
|
vectorizer = TfidfVectorizer()
|
||||||
|
|
||||||
document_vectors = vectorizer.fit_transform(documents)
|
document_vectors = vectorizer.fit_transform(documents)
|
||||||
predictions = KMeans(
|
predictions = KMeans(
|
||||||
n_clusters=45, max_iter=1000).fit_predict(document_vectors)
|
n_clusters=25, max_iter=1000).fit_predict(document_vectors)
|
||||||
|
|
||||||
with open("test-A/out.tsv", "w") as out_file:
|
with open("test-A/out.tsv", "w") as out_file:
|
||||||
for prediction in predictions:
|
for prediction in predictions:
|
||||||
|
1282
test-A/out.tsv
1282
test-A/out.tsv
File diff suppressed because it is too large
Load Diff
Loading…
Reference in New Issue
Block a user