DNWA/11/README.md

# Charakteryzacja zbiorów oraz jego historyczność (zadanie 1)

## 1. kddcup99

Przygotowany na Fifth International Conference on Knowledge Discovery and Data Mining by w ramach konkursu wyłonić najlepiej zaprojektowany model pradykcyjny wykrywający potencjalny atak.
W zbiorze były 4 typy ataków (DOS, R2L, U2R, probing). W zbiorze danych były 24 ataki i 14 dodatkowych w zbiorze testującym.
Dane zostały zasymulowane w sieci militernej. To 4GB ruchu sieciowego z 7 tygodni (około 5 milionów rekordów połączeń).
Połączenie to sekwencja pakietów TCP z zdefiniowanym początkiem i końcem (w czasie) i jest oznaczone jako norlalne lub przez kod ataku. Każde zawiera około 100 bajtów.

Co do używalności to znalazłem:

- Pracę z 2016r. opisującą zastosowania w uczeniu maszynowym w latach 2010-2015 - https://peerj.com/preprints/1954/
- Pracę z 2018r. w której autor mówi że ten zbiór używa się często jako benchmark - https://arxiv.org/abs/1811.05372

### Nie wiem czy to oznacza że jest nadal używany (to jednak 3 lata) - wydaje mi się że tak i taką ocenę zostawiam :)

<br>

## 2. network

Zrzut ruchu sieciowego wykonanego programem tcdump pomiędzy pewną siecią LAN a sieciami zewnętrznymi.
Dzięki ofiltrowaniu tcdump'a zebrane zostały wyłącznie połączenia TCP i UDP.

### Każdy pakiet TCP składa się z:

- Time stamp
- Source IP address
- Source port
- Destination IP address
- Destination port
- Flags (syn, fin, push, rst, or .)
- Data sequence number of this packet
- Data sequence number of the data expected in return
- Number of bytes of receive buffer space available
- Indication of whether or not the data is urgent

### Każdy pakiet UDP składa się z:

- Time stamp
- Source IP address
- Source port
- Destination IP address
- Destination port
- Length of the packet  
  Wszystkie adresy IP zostały zmodyfikowane by nie udostępniać możliwie niebezpiecznych danych.  


### Ostatnia edycja strony tego zbioru była 4 kwietnia 2001r., ostatni artykuł jaki mają podany na stronie (http://ivpr.cs.uml.edu/publications/) jest z 2000r., nie znalazłem wspominek o wykorzystaniu tych danych w nowszych pracach więc oznaczam ten zbiór jaki historyczny.

<br>

## 3. wywołania systemowe

Zbiór zawiera dane wywołań aktywnych procesów systemowych.
Każdy plik ścieżkowy (\*.int) zawiera listę par numerów w kolejności:

- PID procesu
- numer reprezentujący zapytanie systemowe

Mapowanie numerów na wywołania jest załączone w dokumentacji w folderze `UserDoc`.  
 Można też ją pobrać jako postscript pod tym adresem: https://www.cs.unm.edu/~immsec/software/stide_user_doc.ps

<br>

## 4. UNIX shell log

9 zbiorów danych aktywności uzytkmownika (USER0 i USER1 to ta sama osoba na innych maszynach) w systemie UNIX.  
 Dane są wyczyszczone z wszystkich adresów sieciowych, danych osobowych, timestamp'ów etc.  
 Reprezentacja tokenowa danych zawartych w zbiorze jest super opisana tutaj (http://kdd.ics.uci.edu/databases/UNIX_user_data/README) więc nie będę jej powtarzać.

### Nie znalazłem nowych prac z wykorzystaniem tego zbioru, a strona UCI KDD jest archiwalna jako że wchłonął ich UCI ML więc zakładam że zbiór jest archiwalny.

<br>
<br>

# Dodatkowe zbiory (zadanie 3)

## 1. UNSW-NB15:

- opis: https://www.unsw.adfa.edu.au/unsw-canberra-cyber/cybersecurity/ADFA-NB15-Datasets/
- link: https://cloudstor.aarnet.edu.au/plus/index.php/s/2DhnLGDdEECo4ys

## 2. NSL_KDD:

- opis: Nie znalazłem samego setu, ale znalazłem jego zrzut :)
- link: https://github.com/jmnwong/NSL-KDD-Dataset

## P.S.

Wiem że nie do końca o to chodziło ale jak chodzi o ciekawą graficzną interpretację to polecam:
https://www.gwern.net/Traffic
... 2021-01-28 18:33:55 +01:00			`# Charakteryzacja zbiorów oraz jego historyczność (zadanie 1)`

			`## 1. kddcup99`

			`Przygotowany na Fifth International Conference on Knowledge Discovery and Data Mining by w ramach konkursu wyłonić najlepiej zaprojektowany model pradykcyjny wykrywający potencjalny atak.`
			`W zbiorze były 4 typy ataków (DOS, R2L, U2R, probing). W zbiorze danych były 24 ataki i 14 dodatkowych w zbiorze testującym.`
			`Dane zostały zasymulowane w sieci militernej. To 4GB ruchu sieciowego z 7 tygodni (około 5 milionów rekordów połączeń).`
			`Połączenie to sekwencja pakietów TCP z zdefiniowanym początkiem i końcem (w czasie) i jest oznaczone jako norlalne lub przez kod ataku. Każde zawiera około 100 bajtów.`

			`Co do używalności to znalazłem:`

			`- Pracę z 2016r. opisującą zastosowania w uczeniu maszynowym w latach 2010-2015 - https://peerj.com/preprints/1954/`
			`- Pracę z 2018r. w której autor mówi że ten zbiór używa się często jako benchmark - https://arxiv.org/abs/1811.05372`

			`### Nie wiem czy to oznacza że jest nadal używany (to jednak 3 lata) - wydaje mi się że tak i taką ocenę zostawiam :)`

			`<br>`

			`## 2. network`

			`Zrzut ruchu sieciowego wykonanego programem tcdump pomiędzy pewną siecią LAN a sieciami zewnętrznymi.`
			`Dzięki ofiltrowaniu tcdump'a zebrane zostały wyłącznie połączenia TCP i UDP.`

			`### Każdy pakiet TCP składa się z:`

			`- Time stamp`
			`- Source IP address`
			`- Source port`
			`- Destination IP address`
			`- Destination port`
			`- Flags (syn, fin, push, rst, or .)`
			`- Data sequence number of this packet`
			`- Data sequence number of the data expected in return`
			`- Number of bytes of receive buffer space available`
			`- Indication of whether or not the data is urgent`

			`### Każdy pakiet UDP składa się z:`

			`- Time stamp`
			`- Source IP address`
			`- Source port`
			`- Destination IP address`
			`- Destination port`
			`- Length of the packet`
			`Wszystkie adresy IP zostały zmodyfikowane by nie udostępniać możliwie niebezpiecznych danych.`


			`### Ostatnia edycja strony tego zbioru była 4 kwietnia 2001r., ostatni artykuł jaki mają podany na stronie (http://ivpr.cs.uml.edu/publications/) jest z 2000r., nie znalazłem wspominek o wykorzystaniu tych danych w nowszych pracach więc oznaczam ten zbiór jaki historyczny.`

			`<br>`

			`## 3. wywołania systemowe`

			`Zbiór zawiera dane wywołań aktywnych procesów systemowych.`
			`Każdy plik ścieżkowy (\*.int) zawiera listę par numerów w kolejności:`

			`- PID procesu`
			`- numer reprezentujący zapytanie systemowe`

			Mapowanie numerów na wywołania jest załączone w dokumentacji w folderze `UserDoc`.
			`Można też ją pobrać jako postscript pod tym adresem: https://www.cs.unm.edu/~immsec/software/stide_user_doc.ps`

			`<br>`

			`## 4. UNIX shell log`

			`9 zbiorów danych aktywności uzytkmownika (USER0 i USER1 to ta sama osoba na innych maszynach) w systemie UNIX.`
			`Dane są wyczyszczone z wszystkich adresów sieciowych, danych osobowych, timestamp'ów etc.`
			`Reprezentacja tokenowa danych zawartych w zbiorze jest super opisana tutaj (http://kdd.ics.uci.edu/databases/UNIX_user_data/README) więc nie będę jej powtarzać.`

			`### Nie znalazłem nowych prac z wykorzystaniem tego zbioru, a strona UCI KDD jest archiwalna jako że wchłonął ich UCI ML więc zakładam że zbiór jest archiwalny.`

			`<br>`
			`<br>`

			`# Dodatkowe zbiory (zadanie 3)`

			`## 1. UNSW-NB15:`

			`- opis: https://www.unsw.adfa.edu.au/unsw-canberra-cyber/cybersecurity/ADFA-NB15-Datasets/`
			`- link: https://cloudstor.aarnet.edu.au/plus/index.php/s/2DhnLGDdEECo4ys`

			`## 2. NSL_KDD:`

			`- opis: Nie znalazłem samego setu, ale znalazłem jego zrzut :)`
			`- link: https://github.com/jmnwong/NSL-KDD-Dataset`

			`## P.S.`

			`Wiem że nie do końca o to chodziło ale jak chodzi o ciekawą graficzną interpretację to polecam:`
			`https://www.gwern.net/Traffic`