cretea text classification

2023-05-06 17:20:36 +02:00 · 2023-05-06 17:20:36 +02:00 · fb24ad5bca
parent 1b74870dd0
commit fb24ad5bca
10 changed files with 285 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -1 +1,3 @@
+.vscode
+__pycache__
 data/
--- a/README.md
+++ b/README.md
@ -4,3 +4,4 @@
 ### Filip Patyk 
 ### 424714

+[https://git.wmi.amu.edu.pl/AITech/aitech-iumkv](https://git.wmi.amu.edu.pl/AITech/aitech-ium)
--- a/src/datasets/init.py
+++ b/src/datasets/init.py
@ -0,0 +1,4 @@
+__all__ = ["Dataset", "NewsDataset"]
+
+from .news_dataset import NewsDataset
+from .dataset import Dataset
--- a/src/datasets/dataset.py
+++ b/src/datasets/dataset.py
@ -0,0 +1,36 @@
+import torch
+import pandas as pd
+from transformers import BertTokenizer
+
+tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
+
+
+class Dataset(torch.utils.data.Dataset):
+    def __init__(self, data: pd.DataFrame) -> None:
+        self.labels = data["label"].to_list()
+        # self.texts = [
+        #     tokenizer(
+        #         text,
+        #         padding="max_length",
+        #         max_length=512,
+        #         truncation=True,
+        #         return_tensors="pt",
+        #     )
+        #     for text in data["text"]
+        # ]
+        self.texts = data["text"].to_list()
+
+    def __getitem__(self, idx):
+        label = self.labels[idx]
+        text = tokenizer(
+                self.texts[idx],
+                padding="max_length",
+                max_length=512,
+                truncation=True,
+                return_tensors="pt",
+            )
+
+        return text, label
+
+    def __len__(self) -> int:
+        return len(self.labels)
--- a/src/datasets/news_dataset.py
+++ b/src/datasets/news_dataset.py
@ -0,0 +1,34 @@
+import pandas as pd
+
+from pathlib import Path
+
+
+class NewsDataset:
+    def __init__(self, data_dir_path: str = "data", data_lenght: int = None) -> None:
+        self.data_dir_path = Path(data_dir_path)
+        self.true_news_path = self.data_dir_path / "True.csv"
+        self.fake_news_path = self.data_dir_path / "Fake.csv"
+
+        self.true_news = self.load_news(self.true_news_path, data_lenght)
+        self.fake_news = self.load_news(self.fake_news_path, data_lenght)
+
+        self.true_news["label"] = 1
+        self.fake_news["label"] = 0
+
+    def load_news(self, file_path: Path, trim: int = None) -> pd.DataFrame:
+        news = pd.read_csv(file_path)
+        news = news.drop(columns=["title", "subject", "date"])
+
+        return news if not trim else news.head(trim)
+
+    @property
+    def data(self) -> pd.DataFrame:
+        dataset = pd.concat([self.true_news, self.fake_news], axis=0)
+        dataset["text"] = dataset["text"].str.strip()
+        dataset.dropna(axis=0, how="any", inplace=False, subset=["text"])
+        return dataset
+
+
+if __name__ == "__main__":
+    dataset = NewsDataset()
+    print(dataset.data.head(5))
--- a/src/evaluate.py
+++ b/src/evaluate.py
@ -0,0 +1,47 @@
+import os
+
+import pandas as pd
+import torch
+import torch.nn as nn
+
+from datasets import Dataset
+
+NUM_WORKERS = os.cpu_count()
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+PIN_MEMORY = True if DEVICE == "cuda" else False
+
+
+def evaluate(
+    model: nn.Module,
+    test_data: pd.DataFrame,
+    batch_size: int,
+) -> None:
+    test_dataset = Dataset(test_data)
+
+    test_dataloader = torch.utils.data.DataLoader(
+        test_dataset,
+        batch_size=batch_size,
+        num_workers=NUM_WORKERS,
+        pin_memory=PIN_MEMORY,
+        shuffle=True,
+    )
+
+    model.to(DEVICE)
+    total_acc_test = 0
+
+    with torch.no_grad():
+        for test_input, test_label in test_dataloader:
+            test_label = test_label.to(DEVICE)
+            mask = test_input["attention_mask"].to(DEVICE)
+            input_id = test_input["input_ids"].squeeze(1).to(DEVICE)
+
+            output = model(input_id, mask)
+
+            acc = (output.argmax(dim=1) == test_label).sum().item()
+            total_acc_test += acc
+
+    print(f"Test Accuracy: {total_acc_test / len(test_data): .3f}")
+
+
+if __name__ == "__main__":
+    pass
--- a/src/main.py
+++ b/src/main.py
@ -0,0 +1,48 @@
+import random
+from sklearn.model_selection import train_test_split
+
+from models import BertClassifier
+from datasets import NewsDataset
+from train import train
+from evaluate import evaluate
+
+SEED = 2137
+
+# Hyperparameters
+
+INITIAL_LR = 1e-6
+NUM_EPOCHS = 5
+BATCH_SIZE = 2
+
+if __name__ == "__main__":
+    # loading & spliting data
+    news_dataset = NewsDataset(data_dir_path="data", data_lenght=2000)
+
+    train_val_data, test_data = train_test_split(
+        news_dataset.data,
+        test_size=0.8,
+        shuffle=True,
+        random_state=random.seed(SEED),
+    )
+    train_data, val_data = train_test_split(
+        train_val_data,
+        test_size=0.2,
+        shuffle=True,
+        random_state=random.seed(SEED),
+    )
+    # trainig model
+    trained_model = train(
+        model=BertClassifier(),
+        train_data=train_data,
+        val_data=val_data,
+        learning_rate=INITIAL_LR,
+        epochs=NUM_EPOCHS,
+        batch_size=BATCH_SIZE,
+    )
+
+    # evaluating model
+    evaluate(
+        model=trained_model,
+        test_data=test_data,
+        batch_size=BATCH_SIZE,
+    )
--- a/src/models/init.py
+++ b/src/models/init.py
@ -0,0 +1,3 @@
+__all__ = ["BertClassifier"]
+
+from .bert_model import BertClassifier
--- a/src/models/bert_model.py
+++ b/src/models/bert_model.py
@ -0,0 +1,22 @@
+from torch import nn
+from transformers import BertModel
+
+
+class BertClassifier(nn.Module):
+    def __init__(self, dropout: float = 0.5, num_classes: int = 2):
+        super(BertClassifier, self).__init__()
+
+        self.bert = BertModel.from_pretrained("bert-base-cased")
+        self.dropout = nn.Dropout(dropout)
+        self.linear = nn.Linear(768, num_classes)
+        self.relu = nn.ReLU()
+
+    def forward(self, input_id, mask):
+        _, pooled_output = self.bert(
+            input_ids=input_id, attention_mask=mask, return_dict=False
+        )
+        dropout_output = self.dropout(pooled_output)
+        linear_output = self.linear(dropout_output)
+        final_layer = self.relu(linear_output)
+
+        return final_layer
--- a/src/train.py
+++ b/src/train.py
@ -0,0 +1,88 @@
+import os
+
+import pandas as pd
+import torch
+import torch.nn as nn
+from tqdm import tqdm
+
+from datasets import Dataset
+
+NUM_WORKERS = os.cpu_count()
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+PIN_MEMORY = True if DEVICE == "cuda" else False
+
+
+def train(
+    model: nn.Module,
+    train_data: pd.DataFrame,
+    val_data: pd.DataFrame,
+    learning_rate: float,
+    epochs: int,
+    batch_size: int,
+) -> nn.Module:
+    train_dataset, val_dataset = Dataset(train_data), Dataset(val_data)
+
+    train_dataloader = torch.utils.data.DataLoader(
+        train_dataset,
+        batch_size=batch_size,
+        num_workers=NUM_WORKERS,
+        pin_memory=PIN_MEMORY,
+        shuffle=True,
+    )
+    val_dataloader = torch.utils.data.DataLoader(
+        val_dataset,
+        batch_size=batch_size,
+        num_workers=NUM_WORKERS,
+        pin_memory=PIN_MEMORY,
+        shuffle=True,
+    )
+
+    criterion = nn.CrossEntropyLoss()
+    optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
+
+    model.to(DEVICE)
+    for epoch in range(epochs):
+        total_acc_train = 0
+        total_loss_train = 0
+        for train_input, train_label in tqdm(train_dataloader):
+            train_label = train_label.to(DEVICE)
+            mask = train_input["attention_mask"].to(DEVICE)
+            input_id = train_input["input_ids"].squeeze(1).to(DEVICE)
+
+            output = model(input_id, mask)
+
+            batch_loss = criterion(output, train_label.long())
+            total_loss_train += batch_loss.item()
+
+            acc = (output.argmax(dim=1) == train_label).sum().item()
+            total_acc_train += acc
+
+            model.zero_grad()
+            batch_loss.backward()
+            optimizer.step()
+
+        total_acc_val = 0
+        total_loss_val = 0
+
+        with torch.no_grad():
+            for val_input, val_label in val_dataloader:
+                val_label = val_label.to(DEVICE)
+                mask = val_input["attention_mask"].to(DEVICE)
+                input_id = val_input["input_ids"].squeeze(1).to(DEVICE)
+
+                output = model(input_id, mask)
+
+                batch_loss = criterion(output, val_label.long())
+                total_loss_val += batch_loss.item()
+
+                acc = (output.argmax(dim=1) == val_label).sum().item()
+                total_acc_val += acc
+
+        print(
+            f"Epochs: {epoch + 1} | Train Loss: {total_loss_train / len(train_data): .3f} \
+                | Train Accuracy: {total_acc_train / len(train_data): .3f} \
+                | Val Loss: {total_loss_val / len(val_data): .3f} \
+                | Val Accuracy: {total_acc_val / len(val_data): .3f}"
+        )
+
+    return model