92 lines
3.7 KiB
Markdown
92 lines
3.7 KiB
Markdown
|
# Charakteryzacja zbiorów oraz jego historyczność (zadanie 1)
|
||
|
|
||
|
## 1. kddcup99
|
||
|
|
||
|
Przygotowany na Fifth International Conference on Knowledge Discovery and Data Mining by w ramach konkursu wyłonić najlepiej zaprojektowany model pradykcyjny wykrywający potencjalny atak.
|
||
|
W zbiorze były 4 typy ataków (DOS, R2L, U2R, probing). W zbiorze danych były 24 ataki i 14 dodatkowych w zbiorze testującym.
|
||
|
Dane zostały zasymulowane w sieci militernej. To 4GB ruchu sieciowego z 7 tygodni (około 5 milionów rekordów połączeń).
|
||
|
Połączenie to sekwencja pakietów TCP z zdefiniowanym początkiem i końcem (w czasie) i jest oznaczone jako norlalne lub przez kod ataku. Każde zawiera około 100 bajtów.
|
||
|
|
||
|
Co do używalności to znalazłem:
|
||
|
|
||
|
- Pracę z 2016r. opisującą zastosowania w uczeniu maszynowym w latach 2010-2015 - https://peerj.com/preprints/1954/
|
||
|
- Pracę z 2018r. w której autor mówi że ten zbiór używa się często jako benchmark - https://arxiv.org/abs/1811.05372
|
||
|
|
||
|
### Nie wiem czy to oznacza że jest nadal używany (to jednak 3 lata) - wydaje mi się że tak i taką ocenę zostawiam :)
|
||
|
|
||
|
<br>
|
||
|
|
||
|
## 2. network
|
||
|
|
||
|
Zrzut ruchu sieciowego wykonanego programem tcdump pomiędzy pewną siecią LAN a sieciami zewnętrznymi.
|
||
|
Dzięki ofiltrowaniu tcdump'a zebrane zostały wyłącznie połączenia TCP i UDP.
|
||
|
|
||
|
### Każdy pakiet TCP składa się z:
|
||
|
|
||
|
- Time stamp
|
||
|
- Source IP address
|
||
|
- Source port
|
||
|
- Destination IP address
|
||
|
- Destination port
|
||
|
- Flags (syn, fin, push, rst, or .)
|
||
|
- Data sequence number of this packet
|
||
|
- Data sequence number of the data expected in return
|
||
|
- Number of bytes of receive buffer space available
|
||
|
- Indication of whether or not the data is urgent
|
||
|
|
||
|
### Każdy pakiet UDP składa się z:
|
||
|
|
||
|
- Time stamp
|
||
|
- Source IP address
|
||
|
- Source port
|
||
|
- Destination IP address
|
||
|
- Destination port
|
||
|
- Length of the packet
|
||
|
Wszystkie adresy IP zostały zmodyfikowane by nie udostępniać możliwie niebezpiecznych danych.
|
||
|
|
||
|
|
||
|
### Ostatnia edycja strony tego zbioru była 4 kwietnia 2001r., ostatni artykuł jaki mają podany na stronie (http://ivpr.cs.uml.edu/publications/) jest z 2000r., nie znalazłem wspominek o wykorzystaniu tych danych w nowszych pracach więc oznaczam ten zbiór jaki historyczny.
|
||
|
|
||
|
<br>
|
||
|
|
||
|
## 3. wywołania systemowe
|
||
|
|
||
|
Zbiór zawiera dane wywołań aktywnych procesów systemowych.
|
||
|
Każdy plik ścieżkowy (\*.int) zawiera listę par numerów w kolejności:
|
||
|
|
||
|
- PID procesu
|
||
|
- numer reprezentujący zapytanie systemowe
|
||
|
|
||
|
Mapowanie numerów na wywołania jest załączone w dokumentacji w folderze `UserDoc`.
|
||
|
Można też ją pobrać jako postscript pod tym adresem: https://www.cs.unm.edu/~immsec/software/stide_user_doc.ps
|
||
|
|
||
|
<br>
|
||
|
|
||
|
## 4. UNIX shell log
|
||
|
|
||
|
9 zbiorów danych aktywności uzytkmownika (USER0 i USER1 to ta sama osoba na innych maszynach) w systemie UNIX.
|
||
|
Dane są wyczyszczone z wszystkich adresów sieciowych, danych osobowych, timestamp'ów etc.
|
||
|
Reprezentacja tokenowa danych zawartych w zbiorze jest super opisana tutaj (http://kdd.ics.uci.edu/databases/UNIX_user_data/README) więc nie będę jej powtarzać.
|
||
|
|
||
|
### Nie znalazłem nowych prac z wykorzystaniem tego zbioru, a strona UCI KDD jest archiwalna jako że wchłonął ich UCI ML więc zakładam że zbiór jest archiwalny.
|
||
|
|
||
|
<br>
|
||
|
<br>
|
||
|
|
||
|
# Dodatkowe zbiory (zadanie 3)
|
||
|
|
||
|
## 1. UNSW-NB15:
|
||
|
|
||
|
- opis: https://www.unsw.adfa.edu.au/unsw-canberra-cyber/cybersecurity/ADFA-NB15-Datasets/
|
||
|
- link: https://cloudstor.aarnet.edu.au/plus/index.php/s/2DhnLGDdEECo4ys
|
||
|
|
||
|
## 2. NSL_KDD:
|
||
|
|
||
|
- opis: Nie znalazłem samego setu, ale znalazłem jego zrzut :)
|
||
|
- link: https://github.com/jmnwong/NSL-KDD-Dataset
|
||
|
|
||
|
## P.S.
|
||
|
|
||
|
Wiem że nie do końca o to chodziło ale jak chodzi o ciekawą graficzną interpretację to polecam:
|
||
|
https://www.gwern.net/Traffic
|