DNWA/11
Jakub Stefko ab1d7e2546 ...
2021-01-28 18:33:55 +01:00
..
kddcup99 ... 2021-01-28 18:33:55 +01:00
network ... 2021-01-28 18:33:55 +01:00
unix ... 2021-01-28 18:33:55 +01:00
wywolania ... 2021-01-28 18:33:55 +01:00
11.Rproj ... 2021-01-28 18:33:55 +01:00
README.md ... 2021-01-28 18:33:55 +01:00

Charakteryzacja zbiorów oraz jego historyczność (zadanie 1)

1. kddcup99

Przygotowany na Fifth International Conference on Knowledge Discovery and Data Mining by w ramach konkursu wyłonić najlepiej zaprojektowany model pradykcyjny wykrywający potencjalny atak. W zbiorze były 4 typy ataków (DOS, R2L, U2R, probing). W zbiorze danych były 24 ataki i 14 dodatkowych w zbiorze testującym. Dane zostały zasymulowane w sieci militernej. To 4GB ruchu sieciowego z 7 tygodni (około 5 milionów rekordów połączeń). Połączenie to sekwencja pakietów TCP z zdefiniowanym początkiem i końcem (w czasie) i jest oznaczone jako norlalne lub przez kod ataku. Każde zawiera około 100 bajtów.

Co do używalności to znalazłem:

Nie wiem czy to oznacza że jest nadal używany (to jednak 3 lata) - wydaje mi się że tak i taką ocenę zostawiam :)


2. network

Zrzut ruchu sieciowego wykonanego programem tcdump pomiędzy pewną siecią LAN a sieciami zewnętrznymi. Dzięki ofiltrowaniu tcdump'a zebrane zostały wyłącznie połączenia TCP i UDP.

Każdy pakiet TCP składa się z:

  • Time stamp
  • Source IP address
  • Source port
  • Destination IP address
  • Destination port
  • Flags (syn, fin, push, rst, or .)
  • Data sequence number of this packet
  • Data sequence number of the data expected in return
  • Number of bytes of receive buffer space available
  • Indication of whether or not the data is urgent

Każdy pakiet UDP składa się z:

  • Time stamp
  • Source IP address
  • Source port
  • Destination IP address
  • Destination port
  • Length of the packet
    Wszystkie adresy IP zostały zmodyfikowane by nie udostępniać możliwie niebezpiecznych danych.

Ostatnia edycja strony tego zbioru była 4 kwietnia 2001r., ostatni artykuł jaki mają podany na stronie (http://ivpr.cs.uml.edu/publications/) jest z 2000r., nie znalazłem wspominek o wykorzystaniu tych danych w nowszych pracach więc oznaczam ten zbiór jaki historyczny.


3. wywołania systemowe

Zbiór zawiera dane wywołań aktywnych procesów systemowych. Każdy plik ścieżkowy (*.int) zawiera listę par numerów w kolejności:

  • PID procesu
  • numer reprezentujący zapytanie systemowe

Mapowanie numerów na wywołania jest załączone w dokumentacji w folderze UserDoc.
Można też ją pobrać jako postscript pod tym adresem: https://www.cs.unm.edu/~immsec/software/stide_user_doc.ps


4. UNIX shell log

9 zbiorów danych aktywności uzytkmownika (USER0 i USER1 to ta sama osoba na innych maszynach) w systemie UNIX.
Dane są wyczyszczone z wszystkich adresów sieciowych, danych osobowych, timestamp'ów etc.
Reprezentacja tokenowa danych zawartych w zbiorze jest super opisana tutaj (http://kdd.ics.uci.edu/databases/UNIX_user_data/README) więc nie będę jej powtarzać.

Nie znalazłem nowych prac z wykorzystaniem tego zbioru, a strona UCI KDD jest archiwalna jako że wchłonął ich UCI ML więc zakładam że zbiór jest archiwalny.



Dodatkowe zbiory (zadanie 3)

1. UNSW-NB15:

2. NSL_KDD:

P.S.

Wiem że nie do końca o to chodziło ale jak chodzi o ciekawą graficzną interpretację to polecam: https://www.gwern.net/Traffic