added simple source analisys and small corection of oblicz_modele

This commit is contained in:
Wojciech Borowski-Dobrowolski 2024-02-25 22:23:30 +01:00
parent 9ed51ed28b
commit 8ddc6f79d2
2 changed files with 329 additions and 22 deletions

329
euproj_model/analiza.ipynb Normal file
View File

@ -0,0 +1,329 @@
{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"id": "ed074a2b-d1f5-4770-8efe-05c23a6cd3b4",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Pierwsze wiersze danych:\n",
" Tytuł projektu/ Project name \\\n",
"0 Kontrola graniczna jakości handlowej artykułów... \n",
"1 Zwiększenie mobilności patroli Straży Graniczn... \n",
"2 Wzmocnienie potencjału jednostek Krajowej Admi... \n",
"3 Zapewnienie obsługi fitosanitarnej eksportu ro... \n",
"4 Zapewnienie przez WIORiN w Bydgoszczy obsługi ... \n",
"\n",
" Skrócony opis [do 2000 znaków] / Project summary \\\n",
"0 Prowadzenie kontroli granicznych artykułów rol... \n",
"1 Przedstawione we wniosku cele projektu są zgod... \n",
"2 Wielka Brytania jest jednym z najważniejszych ... \n",
"3 Założeniem projektu jest zapewnienie przez Woj... \n",
"4 Założeniem projektu jest zapewnienie przez Woj... \n",
"\n",
" Numer umowy/decyzji/ Contract number Nazwa beneficjenta/ Beneficiary name \\\n",
"0 PBAR.01.03.00-12-0001/22 WOJEWODA MAŁOPOLSKI \n",
"1 PBAR.01.03.00-14-0001/22 KOMENDANT GŁÓWNY STRAŻY GRANICZNEJ \n",
"2 PBAR.01.04.00-00-0001/22 MINISTER FINANSÓW \n",
"3 PBAR.01.05.00-02-0001/23 WOJEWODA DOLNOŚLĄSKI \n",
"4 PBAR.01.05.00-04-0001/23 WOJEWODA KUJAWSKO POMORSKI \n",
"\n",
" Fundusz/ Fund Program/ Programme \\\n",
"0 BAR Pobrexitowa Rezerwa Dostosowawcza \n",
"1 BAR Pobrexitowa Rezerwa Dostosowawcza \n",
"2 BAR Pobrexitowa Rezerwa Dostosowawcza \n",
"3 BAR Pobrexitowa Rezerwa Dostosowawcza \n",
"4 BAR Pobrexitowa Rezerwa Dostosowawcza \n",
"\n",
" Priorytet/ Priority axis \\\n",
"0 1. Administracja Publiczna \n",
"1 1. Administracja Publiczna \n",
"2 1. Administracja Publiczna \n",
"3 1. Administracja Publiczna \n",
"4 1. Administracja Publiczna \n",
"\n",
" Działanie/ Measure Poddziałanie/ Submeasure \\\n",
"0 1.3. Działania mające na celu zapewnienie funk... Brak poddziałania \n",
"1 1.3. Działania mające na celu zapewnienie funk... Brak poddziałania \n",
"2 1.4. Działania mające na celu zapewnienie funk... Brak poddziałania \n",
"3 1.5. Działania mające na celu zapewnienie funk... Brak poddziałania \n",
"4 1.5. Działania mające na celu zapewnienie funk... Brak poddziałania \n",
"\n",
" Wartość projektu (w zł, dla projektów EWT w euro)/ Total project value (PLN, for ETC projects EUR) \\\n",
"0 49060.00 \n",
"1 2730187.00 \n",
"2 11658152.78 \n",
"3 20469.54 \n",
"4 17840.13 \n",
"\n",
" ... Typ obszaru, na którym realizowany jest projekt/ Territory type \\\n",
"0 ... 07 Nie dotyczy \n",
"1 ... 07 Nie dotyczy \n",
"2 ... 07 Nie dotyczy \n",
"3 ... 07 Nie dotyczy \n",
"4 ... 07 Nie dotyczy \n",
"\n",
" Data rozpoczęcia realizacji projektu/ Project start date \\\n",
"0 2023-01-01 \n",
"1 2022-12-01 \n",
"2 2022-04-01 \n",
"3 2023-01-01 \n",
"4 2023-01-01 \n",
"\n",
" Data zakończenia realizacji projektu/ Project end date \\\n",
"0 2023-10-31 \n",
"1 2023-11-30 \n",
"2 2023-12-10 \n",
"3 2023-10-31 \n",
"4 2023-10-31 \n",
"\n",
" Projekt konkursowy czy pozakonkursowy/ Project implemented under competitive or non-competitive procedure \\\n",
"0 Pozakonkursowy \n",
"1 Pozakonkursowy \n",
"2 Pozakonkursowy \n",
"3 Pozakonkursowy \n",
"4 Pozakonkursowy \n",
"\n",
" Dziedzina działalności gospodarczej, której dotyczy projekt/ Area of economic activity \\\n",
"0 18 Administracja publiczna \n",
"1 18 Administracja publiczna \n",
"2 18 Administracja publiczna \n",
"3 18 Administracja publiczna \n",
"4 18 Administracja publiczna \n",
"\n",
" Obszar wsparcia projektu/ Area of project intervention \\\n",
"0 119 Inwestycje w zdolności instytucjonalne i w... \n",
"1 119 Inwestycje w zdolności instytucjonalne i w... \n",
"2 119 Inwestycje w zdolności instytucjonalne i w... \n",
"3 119 Inwestycje w zdolności instytucjonalne i w... \n",
"4 119 Inwestycje w zdolności instytucjonalne i w... \n",
"\n",
" Cel projektu/ Project thematic objective \\\n",
"0 PBAR Nie dotyczy (tylko PBAR) \n",
"1 PBAR Nie dotyczy (tylko PBAR) \n",
"2 PBAR Nie dotyczy (tylko PBAR) \n",
"3 PBAR Nie dotyczy (tylko PBAR) \n",
"4 PBAR Nie dotyczy (tylko PBAR) \n",
"\n",
" Cel uzupełniający dla projektów EFS/ ESF secondary theme \\\n",
"0 Projekt nie jest realizowany w ramach EFS \n",
"1 Projekt nie jest realizowany w ramach EFS \n",
"2 Projekt nie jest realizowany w ramach EFS \n",
"3 Projekt nie jest realizowany w ramach EFS \n",
"4 Projekt nie jest realizowany w ramach EFS \n",
"\n",
" Projekt realizowany w ramach terytorialnych mechanizmów wdrażania/ Project implemented under territorial delivery mechanisms \\\n",
"0 Nie dotyczy \n",
"1 Nie dotyczy \n",
"2 Nie dotyczy \n",
"3 Nie dotyczy \n",
"4 Nie dotyczy \n",
"\n",
" Finansowanie zakończone/ Funding completed \n",
"0 Nie \n",
"1 Nie \n",
"2 Nie \n",
"3 Nie \n",
"4 Nie \n",
"\n",
"[5 rows x 25 columns]\n",
"\n",
"Informacje o danych:\n",
"<class 'pandas.core.frame.DataFrame'>\n",
"RangeIndex: 104464 entries, 0 to 104463\n",
"Data columns (total 25 columns):\n",
" # Column Non-Null Count Dtype \n",
"--- ------ -------------- ----- \n",
" 0 Tytuł projektu/ Project name 104464 non-null object \n",
" 1 Skrócony opis [do 2000 znaków] / Project summary 104464 non-null object \n",
" 2 Numer umowy/decyzji/ Contract number 104464 non-null object \n",
" 3 Nazwa beneficjenta/ Beneficiary name 104464 non-null object \n",
" 4 Fundusz/ Fund 104464 non-null object \n",
" 5 Program/ Programme 104464 non-null object \n",
" 6 Priorytet/ Priority axis 104464 non-null object \n",
" 7 Działanie/ Measure 104464 non-null object \n",
" 8 Poddziałanie/ Submeasure 104464 non-null object \n",
" 9 Wartość projektu (w zł, dla projektów EWT w euro)/ Total project value (PLN, for ETC projects EUR) 104462 non-null float64\n",
" 10 Wydatki kwalifikowalne (w zł, dla projektów EWT w euro)/ Total eligible expenditure (PLN, for ETC projects EUR) 104464 non-null float64\n",
" 11 Wartość unijnego dofinansowania (w zł, dla projektów EWT w euro)/ Amount of EU co-financing (PLN, for ETC projects EUR) 104464 non-null float64\n",
" 12 Poziom unijnego dofinansowania w procentach (w %)/ Union co-financing rate (%) 104463 non-null float64\n",
" 13 Forma finansowania/ Form of finance 104464 non-null object \n",
" 14 Miejsce realizacji projektu/ Project location 104464 non-null object \n",
" 15 Typ obszaru, na którym realizowany jest projekt/ Territory type 104464 non-null object \n",
" 16 Data rozpoczęcia realizacji projektu/ Project start date 104464 non-null object \n",
" 17 Data zakończenia realizacji projektu/ Project end date 104464 non-null object \n",
" 18 Projekt konkursowy czy pozakonkursowy/ Project implemented under competitive or non-competitive procedure 104464 non-null object \n",
" 19 Dziedzina działalności gospodarczej, której dotyczy projekt/ Area of economic activity 104464 non-null object \n",
" 20 Obszar wsparcia projektu/ Area of project intervention 104464 non-null object \n",
" 21 Cel projektu/ Project thematic objective 104464 non-null object \n",
" 22 Cel uzupełniający dla projektów EFS/ ESF secondary theme 104464 non-null object \n",
" 23 Projekt realizowany w ramach terytorialnych mechanizmów wdrażania/ Project implemented under territorial delivery mechanisms 104464 non-null object \n",
" 24 Finansowanie zakończone/ Funding completed 104464 non-null object \n",
"dtypes: float64(4), object(21)\n",
"memory usage: 19.9+ MB\n",
"None\n",
"\n",
"Podstawowe statystyki:\n",
" Wartość projektu (w zł, dla projektów EWT w euro)/ Total project value (PLN, for ETC projects EUR) \\\n",
"count 1.044620e+05 \n",
"mean 5.682795e+06 \n",
"std 5.710127e+07 \n",
"min 5.882000e+01 \n",
"25% 2.567512e+05 \n",
"50% 8.584657e+05 \n",
"75% 2.500000e+06 \n",
"max 4.296273e+09 \n",
"\n",
" Wydatki kwalifikowalne (w zł, dla projektów EWT w euro)/ Total eligible expenditure (PLN, for ETC projects EUR) \\\n",
"count 1.044640e+05 \n",
"mean 4.483507e+06 \n",
"std 3.814639e+07 \n",
"min 0.000000e+00 \n",
"25% 2.420308e+05 \n",
"50% 7.939919e+05 \n",
"75% 2.202566e+06 \n",
"max 3.319219e+09 \n",
"\n",
" Wartość unijnego dofinansowania (w zł, dla projektów EWT w euro)/ Amount of EU co-financing (PLN, for ETC projects EUR) \\\n",
"count 1.044640e+05 \n",
"mean 3.481933e+06 \n",
"std 3.204890e+07 \n",
"min 0.000000e+00 \n",
"25% 1.986397e+05 \n",
"50% 6.093140e+05 \n",
"75% 1.707185e+06 \n",
"max 2.850000e+09 \n",
"\n",
" Poziom unijnego dofinansowania w procentach (w %)/ Union co-financing rate (%) \n",
"count 104463.000000 \n",
"mean 81.682823 \n",
"std 14.704195 \n",
"min 0.000000 \n",
"25% 80.000000 \n",
"50% 84.999999 \n",
"75% 85.000000 \n",
"max 100.000000 \n",
"\n",
"Brakujące wartości:\n",
"Tytuł projektu/ Project name 0\n",
"Skrócony opis [do 2000 znaków] / Project summary 0\n",
"Numer umowy/decyzji/ Contract number 0\n",
"Nazwa beneficjenta/ Beneficiary name 0\n",
"Fundusz/ Fund 0\n",
"Program/ Programme 0\n",
"Priorytet/ Priority axis 0\n",
"Działanie/ Measure 0\n",
"Poddziałanie/ Submeasure 0\n",
"Wartość projektu (w zł, dla projektów EWT w euro)/ Total project value (PLN, for ETC projects EUR) 2\n",
"Wydatki kwalifikowalne (w zł, dla projektów EWT w euro)/ Total eligible expenditure (PLN, for ETC projects EUR) 0\n",
"Wartość unijnego dofinansowania (w zł, dla projektów EWT w euro)/ Amount of EU co-financing (PLN, for ETC projects EUR) 0\n",
"Poziom unijnego dofinansowania w procentach (w %)/ Union co-financing rate (%) 1\n",
"Forma finansowania/ Form of finance 0\n",
"Miejsce realizacji projektu/ Project location 0\n",
"Typ obszaru, na którym realizowany jest projekt/ Territory type 0\n",
"Data rozpoczęcia realizacji projektu/ Project start date 0\n",
"Data zakończenia realizacji projektu/ Project end date 0\n",
"Projekt konkursowy czy pozakonkursowy/ Project implemented under competitive or non-competitive procedure 0\n",
"Dziedzina działalności gospodarczej, której dotyczy projekt/ Area of economic activity 0\n",
"Obszar wsparcia projektu/ Area of project intervention 0\n",
"Cel projektu/ Project thematic objective 0\n",
"Cel uzupełniający dla projektów EFS/ ESF secondary theme 0\n",
"Projekt realizowany w ramach terytorialnych mechanizmów wdrażania/ Project implemented under territorial delivery mechanisms 0\n",
"Finansowanie zakończone/ Funding completed 0\n",
"dtype: int64\n",
"\n",
"Unikalne wartości w poszczególnych kolumnach:\n",
"Tytuł projektu/ Project name: 97278 unikalnych wartości\n",
"Skrócony opis [do 2000 znaków] / Project summary: 91179 unikalnych wartości\n",
"Numer umowy/decyzji/ Contract number: 104464 unikalnych wartości\n",
"Nazwa beneficjenta/ Beneficiary name: 53109 unikalnych wartości\n",
"Fundusz/ Fund: 4 unikalnych wartości\n",
"Program/ Programme: 28 unikalnych wartości\n",
"Priorytet/ Priority axis: 253 unikalnych wartości\n",
"Działanie/ Measure: 912 unikalnych wartości\n",
"Poddziałanie/ Submeasure: 749 unikalnych wartości\n",
"Wartość projektu (w zł, dla projektów EWT w euro)/ Total project value (PLN, for ETC projects EUR): 79924 unikalnych wartości\n",
"Wydatki kwalifikowalne (w zł, dla projektów EWT w euro)/ Total eligible expenditure (PLN, for ETC projects EUR): 77470 unikalnych wartości\n",
"Wartość unijnego dofinansowania (w zł, dla projektów EWT w euro)/ Amount of EU co-financing (PLN, for ETC projects EUR): 80375 unikalnych wartości\n",
"Poziom unijnego dofinansowania w procentach (w %)/ Union co-financing rate (%): 56657 unikalnych wartości\n",
"Forma finansowania/ Form of finance: 5 unikalnych wartości\n",
"Miejsce realizacji projektu/ Project location: 4498 unikalnych wartości\n",
"Typ obszaru, na którym realizowany jest projekt/ Territory type: 7 unikalnych wartości\n",
"Data rozpoczęcia realizacji projektu/ Project start date: 2818 unikalnych wartości\n",
"Data zakończenia realizacji projektu/ Project end date: 2212 unikalnych wartości\n",
"Projekt konkursowy czy pozakonkursowy/ Project implemented under competitive or non-competitive procedure: 3 unikalnych wartości\n",
"Dziedzina działalności gospodarczej, której dotyczy projekt/ Area of economic activity: 24 unikalnych wartości\n",
"Obszar wsparcia projektu/ Area of project intervention: 111 unikalnych wartości\n",
"Cel projektu/ Project thematic objective: 21 unikalnych wartości\n",
"Cel uzupełniający dla projektów EFS/ ESF secondary theme: 9 unikalnych wartości\n",
"Projekt realizowany w ramach terytorialnych mechanizmów wdrażania/ Project implemented under territorial delivery mechanisms: 3 unikalnych wartości\n",
"Finansowanie zakończone/ Funding completed: 2 unikalnych wartości\n"
]
}
],
"source": [
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"\n",
"df = pd.read_csv('Lista_projektow_FE_2014_2020_020124.csv')\n",
"\n",
"\n",
"print(\"Pierwsze wiersze danych:\")\n",
"print(df.head())\n",
"\n",
"\n",
"print(\"\\nInformacje o danych:\")\n",
"print(df.info())\n",
"\n",
"\n",
"print(\"\\nPodstawowe statystyki:\")\n",
"print(df.describe())\n",
"\n",
"\n",
"print(\"\\nBrakujące wartości:\")\n",
"print(df.isnull().sum())\n",
"\n",
"\n",
"print(\"\\nUnikalne wartości w poszczególnych kolumnach:\")\n",
"for column in df.columns:\n",
" unique_values = df[column].unique()\n",
" print(f\"{column}: {len(unique_values)} unikalnych wartości\")\n",
"\n",
"\n"
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "00d4787a-0dd7-413b-8f38-609fcf38ee83",
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.7"
}
},
"nbformat": 4,
"nbformat_minor": 5
}

View File

@ -332,28 +332,6 @@
"joblib.dump(tfidf_vectorizer,\"vectoriser.sav\")"
]
},
{
"cell_type": "code",
"execution_count": 25,
"id": "491e7f67-2394-45df-b556-c0093fc2ae09",
"metadata": {},
"outputs": [
{
"ename": "AttributeError",
"evalue": "'csr_matrix' object has no attribute 'to_hdf'",
"output_type": "error",
"traceback": [
"\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
"\u001b[0;31mAttributeError\u001b[0m Traceback (most recent call last)",
"Cell \u001b[0;32mIn[25], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m X_full_tfidf\u001b[38;5;241m.\u001b[39mto_hdf(\u001b[38;5;124m'\u001b[39m\u001b[38;5;124mvector_tfidf.hdf\u001b[39m\u001b[38;5;124m'\u001b[39m)\n",
"\u001b[0;31mAttributeError\u001b[0m: 'csr_matrix' object has no attribute 'to_hdf'"
]
}
],
"source": [
"X_full_tfidf.to_hdf('vector_tfidf.hdf')"
]
},
{
"cell_type": "code",
"execution_count": 13,