Charakteryzacja zbiorów oraz jego historyczność (zadanie 1)

1. kddcup99

Przygotowany na Fifth International Conference on Knowledge Discovery and Data Mining by w ramach konkursu wyłonić najlepiej zaprojektowany model pradykcyjny wykrywający potencjalny atak. W zbiorze były 4 typy ataków (DOS, R2L, U2R, probing). W zbiorze danych były 24 ataki i 14 dodatkowych w zbiorze testującym. Dane zostały zasymulowane w sieci militernej. To 4GB ruchu sieciowego z 7 tygodni (około 5 milionów rekordów połączeń). Połączenie to sekwencja pakietów TCP z zdefiniowanym początkiem i końcem (w czasie) i jest oznaczone jako norlalne lub przez kod ataku. Każde zawiera około 100 bajtów.

Co do używalności to znalazłem:

Pracę z 2016r. opisującą zastosowania w uczeniu maszynowym w latach 2010-2015 - https://peerj.com/preprints/1954/
Pracę z 2018r. w której autor mówi że ten zbiór używa się często jako benchmark - https://arxiv.org/abs/1811.05372

Nie wiem czy to oznacza że jest nadal używany (to jednak 3 lata) - wydaje mi się że tak i taką ocenę zostawiam :)

2. network

Zrzut ruchu sieciowego wykonanego programem tcdump pomiędzy pewną siecią LAN a sieciami zewnętrznymi. Dzięki ofiltrowaniu tcdump'a zebrane zostały wyłącznie połączenia TCP i UDP.

Każdy pakiet TCP składa się z:

Time stamp
Source IP address
Source port
Destination IP address
Destination port
Flags (syn, fin, push, rst, or .)
Data sequence number of this packet
Data sequence number of the data expected in return
Number of bytes of receive buffer space available
Indication of whether or not the data is urgent

Każdy pakiet UDP składa się z:

Time stamp
Source IP address
Source port
Destination IP address
Destination port
Length of the packet
Wszystkie adresy IP zostały zmodyfikowane by nie udostępniać możliwie niebezpiecznych danych.

Ostatnia edycja strony tego zbioru była 4 kwietnia 2001r., ostatni artykuł jaki mają podany na stronie (http://ivpr.cs.uml.edu/publications/) jest z 2000r., nie znalazłem wspominek o wykorzystaniu tych danych w nowszych pracach więc oznaczam ten zbiór jaki historyczny.

3. wywołania systemowe

Zbiór zawiera dane wywołań aktywnych procesów systemowych. Każdy plik ścieżkowy (*.int) zawiera listę par numerów w kolejności:

PID procesu
numer reprezentujący zapytanie systemowe

Mapowanie numerów na wywołania jest załączone w dokumentacji w folderze UserDoc.
Można też ją pobrać jako postscript pod tym adresem: https://www.cs.unm.edu/~immsec/software/stide_user_doc.ps

4. UNIX shell log

9 zbiorów danych aktywności uzytkmownika (USER0 i USER1 to ta sama osoba na innych maszynach) w systemie UNIX.
Dane są wyczyszczone z wszystkich adresów sieciowych, danych osobowych, timestamp'ów etc.
Reprezentacja tokenowa danych zawartych w zbiorze jest super opisana tutaj (http://kdd.ics.uci.edu/databases/UNIX_user_data/README) więc nie będę jej powtarzać.

Nie znalazłem nowych prac z wykorzystaniem tego zbioru, a strona UCI KDD jest archiwalna jako że wchłonął ich UCI ML więc zakładam że zbiór jest archiwalny.

Dodatkowe zbiory (zadanie 3)

1. UNSW-NB15:

2. NSL_KDD:

opis: Nie znalazłem samego setu, ale znalazłem jego zrzut :)
link: https://github.com/jmnwong/NSL-KDD-Dataset

P.S.

Wiem że nie do końca o to chodziło ale jak chodzi o ciekawą graficzną interpretację to polecam: https://www.gwern.net/Traffic

3.7 KiB Raw Blame History