Go to file
2025-02-08 14:51:01 +00:00
project_files released 2025-02-07 21:40:31 +00:00
ecom_data.csv init project 2025-02-07 14:13:16 +00:00
environment.yml init project 2025-02-07 14:13:16 +00:00
project.html added missed header 2025-02-08 14:51:01 +00:00
project.ipynb added missed header 2025-02-08 14:51:01 +00:00
README.md added README.md 2025-02-08 14:07:06 +00:00

Analiza zestawu danych: "Actual transactions from UK retailer"

📌 Temat

Analiza i wizualizacja danych w Pythonie

📅 Data publikacji

7 lutego 2025

👤 Autor

Aleksy Zakrzewski

📖 Opis analizy

Celem projektu jest analiza wzorców sprzedaży oraz identyfikacja istotnych insightów biznesowych. Projekt obejmuje eksplorację danych, czyszczenie, analizę wartości odstających oraz predykcję wartości zakupów na podstawie danych historycznych.

📂 Źródło danych

Zestaw danych zawiera rzeczywiste transakcje brytyjskiego sprzedawcy e-commerce, obejmujące szczegółowe informacje o zakupach, takie jak produkty, ceny, ilości oraz dane klientów.

🔍 Główne etapy analizy

  • Eksploracyjna analiza danych (EDA): podstawowe statystyki, analiza wartości odstających.
  • Transformacja danych: konwersja dat na cechy numeryczne (miesiące, dni tygodnia, dni robocze/weekendy).
  • Modele predykcyjne: regresja liniowa oraz Random Forest do przewidywania wartości zakupów.
  • Segmentacja klientów: analiza RFM oraz klasteryzacja K-Means.
  • Wizualizacje: zależności między zmiennymi, analiza sezonowości i zachowań klientów.

🚀 Technologie

  • Język: Python
  • Biblioteki: Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn

📊 Wyniki

  • Random Forest osiągnął R² = 0.99, co oznacza wysoką skuteczność modelu predykcyjnego.
  • Segmentacja klientów metodą K-Means umożliwiła identyfikację kluczowych grup klientów.
  • Identyfikacja anomalii i wartości odstających pozwoliła na poprawę jakości danych i wyników modeli.

📌 Repozytorium zawiera kod źródłowy oraz szczegółowe wyniki analizy.