In [None]:
%pip install pandas
%pip install matplotlib
%pip install nltk
%pip install wordcloud
%pip install scikit-learn==1.3.2
%pip install scikit-fuzzy==0.4.2
# Import pakietów
import nltk
nltk.download('punkt')
nltk.download('stopwords')
import pandas as pd
import matplotlib.pyplot as plt
import re
import string
from wordcloud import WordCloud
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
import joblib
import pickle

Note: you may need to restart the kernel to use updated packages.


In [None]:
# Załaduj dane
data_path = "joined_data.csv"
data = pd.read_csv(data_path)

In [None]:
print(data.head())

In [None]:
print(data.info())

In [None]:
data

In [None]:
# Usuwamy NaN

In [None]:
data.dropna(inplace=True)

In [None]:
# Usuwamy puste wiadomości i wiadomości zawierające jedynie "\n"

In [None]:
data = data[data['Body'] != '\n']

In [None]:
data = data[data['Body'] != 'empty']

In [None]:
data.reset_index(drop=True, inplace=True)

In [None]:
data

In [None]:
# Sprawdźmy rozkład targetów
print(data['Label'].value_counts())

In [None]:
# Analiza długości wiadomości

In [None]:
def get_len(row):
 try:
 return len(row)
 except:
 return row

In [None]:
data['message_length'] = data['Body'].apply(get_len)

In [None]:
data.sort_values(by='message_length')

In [None]:
# Jedna wiadomość jest bardzo długa 17085626

In [None]:
data['message_length'].value_counts()

In [None]:
# Histogram długości wiadomości dla każdej kategorii - ograniczamy do 200.000 znaków celem wyświetlenia histogramów
hist_data = data[data['message_length'] < 200000]
plt.figure(figsize=(10, 6))
hist_data[hist_data['Label'] == 0]['message_length'].hist(bins=100, alpha=0.6, label='Not Spam')
hist_data[hist_data['Label'] == 1]['message_length'].hist(bins=100, alpha=0.6, label='Spam')
plt.legend()
plt.xlabel('Długość wiadomości')
plt.ylabel('Liczba wiadomości')
plt.title('Rozkład długości wiadomości')
plt.show()

In [None]:
# Ograniczamy jeszcze bardziej 

In [None]:
# Histogram długości wiadomości dla każdej kategorii - ograniczamy do 10000 znaków celem wyświetlenia histogramów
hist_data = data[data['message_length'] < 10000]
plt.figure(figsize=(10, 6))
hist_data[hist_data['Label'] == 0]['message_length'].hist(bins=100, alpha=0.6, label='Not Spam')
hist_data[hist_data['Label'] == 1]['message_length'].hist(bins=100, alpha=0.6, label='Spam')
plt.legend()
plt.xlabel('Długość wiadomości')
plt.ylabel('Liczba wiadomości')
plt.title('Rozkład długości wiadomości')
plt.show()

In [None]:
# Można zauważyć, że trudno odróżnić widomości po samej długości. W tym celu należy skorzystać z bardziej zaawansowanych metod.

In [None]:
# Przetwarzanie tekstu

In [None]:
data

In [None]:
stop_words = set(stopwords.words('english'))
ps = PorterStemmer()

def preprocess_text(text):
 # Usuwanie znaków specjalnych i tokenizacja
 text = re.sub(r'\d+', '', text)
 text = text.translate(str.maketrans('', '', string.punctuation))
 words = word_tokenize(text)
 # Usuwanie stopwords i stemming
 words = [ps.stem(word) for word in words if word.lower() not in stop_words]
 return " ".join(words)

In [None]:
# Ten proces jest czasochłonny

In [None]:
data['processed_message'] = data['Body'].apply(preprocess_text)

In [None]:
data.head()

In [None]:
data['processed_message']

In [None]:
# Analiza słów za pomocą WordCloud
spam_words = ' '.join(list(data[data['Label'] == 1]['processed_message']))
not_spam_words = ' '.join(list(data[data['Label'] == 0]['processed_message']))

In [None]:
plt.figure(figsize=(10, 6))
wordcloud_spam = WordCloud(width=800, height=400).generate(spam_words)
plt.imshow(wordcloud_spam, interpolation='bilinear')
plt.axis('off')
plt.title('Word Cloud dla Spam')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
wordcloud_not_spam = WordCloud(width=800, height=400).generate(not_spam_words)
plt.imshow(wordcloud_not_spam, interpolation='bilinear')
plt.axis('off')
plt.title('Word Cloud dla Not Spam')
plt.show()

In [None]:
# Budowa modelu klasyfikacyjnego

In [None]:
# Zamiana tekstu na wektory
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data['processed_message'])
y = data['Label']

In [None]:
# Podział na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Trenowanie modelu Naiwnego Bayesa
model_NB = MultinomialNB()
model_NB.fit(X_train, y_train)

In [None]:
# Predykcja i ocena Naiwny Bayes
y_pred_NB = model_NB.predict(X_test)
accuracy_NB = accuracy_score(y_test, y_pred_NB)
classification_rep_NB = classification_report(y_test, y_pred_NB)
confusion_matrix_NB = confusion_matrix(y_test, y_pred_NB)

In [None]:
accuracy_NB

In [None]:
print(classification_rep_NB)

In [None]:
print(confusion_matrix_NB)

In [None]:
# Trening Drzewa Decyzyjnego (DT)

In [None]:
# Parametry domyślne
model_DT = DecisionTreeClassifier(criterion= 'gini',
 max_depth= None,
 min_samples_leaf= 1,
 min_samples_split= 2,
 splitter= 'best')
model_DT.fit(X_train, y_train)

In [None]:
# Predykcja i ocena DT
y_pred_DT = model_DT.predict(X_test)
accuracy_DT = accuracy_score(y_test, y_pred_DT)
classification_rep_DT = classification_report(y_test, y_pred_DT)
confusion_matrix_DT = confusion_matrix(y_test, y_pred_DT)

In [None]:
accuracy_DT

In [None]:
print(classification_rep_DT)

In [None]:
print(confusion_matrix_DT)

In [None]:
# Las losowy

In [None]:
model_RF = RandomForestClassifier(n_estimators= 100,
 bootstrap= True,
 ccp_alpha= 0.0,
 criterion= 'gini',
 max_depth= None,
 min_samples_leaf= 1,
 min_samples_split= 2,
 random_state=123)
model_RF.fit(X_train, y_train)

In [None]:
# Predykcja i ocena RF
y_pred_RF = model_RF.predict(X_test)
accuracy_RF = accuracy_score(y_test, y_pred_RF)
classification_rep_RF = classification_report(y_test, y_pred_RF)
confusion_matrix_RF = confusion_matrix(y_test, y_pred_RF)

In [None]:
accuracy_RF

In [None]:
print(classification_rep_RF)

In [None]:
print(confusion_matrix_RF)

In [None]:
# Najlepszym modelem okazał się Las losowy - lepiej sklasyfikować spam jako wiadomość nie będącą spamem niż odwrotnie. 
# Dlatego wybieramy RF, a nie NB.

In [None]:
# Teraz dokonamy treningu na pełnych danych i zapiszemy model celem wykorzystania na danych rzeczywistych w późniejszej 
# aplikacji.

In [None]:
model_RF_full = RandomForestClassifier(n_estimators= 100,
 bootstrap= True,
 ccp_alpha= 0.0,
 criterion= 'gini',
 max_depth= None,
 min_samples_leaf= 1,
 min_samples_split= 2,
 random_state=123)

In [None]:
model_RF_full.fit(X, y)

In [None]:
# Predykcja i ocena RF
y_pred_RF_full = model_RF_full.predict(X)
accuracy_RF_full = accuracy_score(y, y_pred_RF_full)
classification_rep_RF_full = classification_report(y, y_pred_RF_full)
confusion_matrix_RF_full = confusion_matrix(y, y_pred_RF_full)

In [None]:
accuracy_RF_full

In [None]:
print(classification_rep_RF_full)

In [None]:
print(confusion_matrix_RF_full)

In [None]:
model_RF_full

In [None]:
# Zapisz model i vectorizer
joblib.dump(model_RF_full, 'spam_classifier_model.pkl')
joblib.dump(vectorizer, 'vectorizer.pkl')

In [None]:
# Uwaga, ważna jest zgodność wersji scikita i joblib tutaj i w środowisku aplikacji

In [None]:
pip freeze | findstr scikit

In [None]:
# Jak instalować?

In [140]:
# Np. tak
# pip install scikit-learn==1.3.2