Go to file
Rafał Sobański 3d15bdda38 first commit
2021-06-29 12:08:21 +02:00
paranormal-or-skeptic first commit 2021-06-29 12:08:21 +02:00
Raport.pdf first commit 2021-06-29 12:08:21 +02:00
README.md first commit 2021-06-29 12:08:21 +02:00

Skeptic vs paranormal subreddits

Classify a reddit as either from Skeptic subreddit or one of the "paranormal" subreddits (Paranormal, UFOs, TheTruthIsHere, Ghosts, ,Glitch-in-the-Matrix, conspiracytheories).

Output label is the probability of a paranormal subreddit.

Sources

Data taken from https://archive.org/details/2015_reddit_comments_corpus.

Cel projektu

Przewidzenie czy dany post na reddicie pochodzi ze „sceptycznych” subredditów, czy z „paranormalnych” subredditów.

Dane

Dane pochodzą z wyzwania „Skeptic vs paranormal subreddits” na platformie gonito.net (link: https://gonito.net/challenge/paranormal-or-skeptic. Zbiór jest podzielony na 289579 przykładów uczących oraz 5272 przykładów testowych.

Modele

W projekcie porównano działanie 3 modeli:

  • Regresja liniowa.
  • Regresja logistyczna korzystająca z solvera lbfgs.
  • Klasyfikator SGD.

Ewaluacja

Do ewaluacji wykorzystano metryki accuracy, precision, recall i F1-score. Wyniki ewaluacji przedstawia poniższa tabelka:

Model Accuracy Precision Recall F1-score
Regresja liniowa 0.7083 0.6513 0.3783 0.4786
Regresja logistyczna 0.7123 0.6382 0.4319 0.5152
Klasyfikator SGD 0.7191 0.6224 0.5247 0.5694

Wnioski

Najlepsze rezultaty uzyskał Klasyfikator SGD. Warto zauważyć, że Recall malał wraz ze wzrostem pozostałych metryk. Stąd też w przypadku regresji liniowej Precision było największe, mimo najsłabszych pozostałych wyników, a w przypadku SGD Precision było najniższe, mimo najlepszych wyników (szczególnie Recall i F1).