# DVC
<img src="img/expcontrol/dvc-logo.png">

## DVC - Data Version Control
- [dvc.org](https://dvc.org/)
- "Version Control System for Machine Learning Projects" (System kontroli wersji dla projektów uczenia maszynowego)
- Open Source
- Umożliwia:
  - wersjonowanie danych i modeli. "Git dla danych i modeli"
  - budowanie potoków ("pipeline") definiujących jak budować/trenować/ewaluować modele. "Makefile dla uczenia maszynowego"
  - śledzeniem, porównywanie metryk i parametrów
- ściśle zintegowany z gitem
- działa niezależnie od używanego języka/bibliotek i systemu operacyjnego
- 5-minutowe wprowadzenie: https://www.youtube.com/watch?v=UbL7VUpv1Bs&t=197s

## Instalacja i inicjalizacja
 - https://dvc.org/doc/install
 - ```pip(x) install dvc``` albo:
 - ```conda install dvc```

In [10]:
conda install dvc

Collecting package metadata (current_repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Solving environment: failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: /home/tomek/miniconda3

  added / updated specs:
    - dvc


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    atpublic-1.0               |             py_0           7 KB  conda-forge
    bzip2-1.0.8                |       h7f98852_4         484 KB  conda-forge
    cached-property-1.5.2      |       hd8ed1ab_1           4 KB  conda-forge
    cached_property-1.5.2      |     pyha770c72_1          11 KB  conda-forge
    colorama-0.4.4             |     pyh9f0ad1d_0          18 KB  conda-forge
    commonmark-0.9.1           | 

diskcache-5.2.1      | 36 KB     | ##################################### | 100% 
pathspec-0.8.1       | 29 KB     | ##################################### | 100% 
cached-property-1.5. | 4 KB      | ##################################### | 100% 
networkx-2.5         | 1.2 MB    | ##################################### | 100% 
commonmark-0.9.1     | 46 KB     | ##################################### | 100% 
configobj-5.0.6      | 31 KB     | ##################################### | 100% 
python-fsutil-0.5.0  | 13 KB     | ##################################### | 100% 
fsspec-0.9.0         | 75 KB     | ##################################### | 100% 
dulwich-0.20.23      | 721 KB    | ##################################### | 100% 
funcy-1.16           | 30 KB     | ##################################### | 100% 
bzip2-1.0.8          | 484 KB    | ##################################### | 100% 
ply-3.11             | 44 KB     | ##################################### | 100% 
libgit2-1.1.0        | 693 K

Stwórzmy katalog, w którym będziemy przechowywać nasz projekt:

In [12]:
!mkdir -p IUM_10/sample-ml-project

In [2]:
#Jupyter notebook magic https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-cd
%cd "IUM_10/sample-ml-project"

/home/tomek/AITech/repo/aitech-ium-private/IUM_10/sample-ml-project


Inicjalizujemy puste repozytorium Git (możemy też pominąć ten krok i działać w istniejącym już repozytorium)

In [17]:
!git init

Initialized empty Git repository in /home/tomek/AITech/repo/aitech-ium-private/IUM_10/sample-ml-project/.git/


Teraz inicjalizujemy repozytorium DVC:

In [18]:
!dvc init

Initialized DVC repository.

You can now commit the changes to git.

[31m+---------------------------------------------------------------------+
[0m[31m|[0m                                                                     [31m|[0m
[31m|[0m        DVC has enabled anonymous aggregate usage analytics.         [31m|[0m
[31m|[0m     Read the analytics documentation (and how to opt-out) here:     [31m|[0m
[31m|[0m             <[36mhttps://dvc.org/doc/user-guide/analytics[39m>              [31m|[0m
[31m|[0m                                                                     [31m|[0m
[31m+---------------------------------------------------------------------+
[0m
[33mWhat's next?[39m
[33m------------[39m
- Check out the documentation: <[36mhttps://dvc.org/doc[39m>
- Get help and share ideas: <[36mhttps://dvc.org/chat[39m>
- Star us on GitHub: <[36mhttps://github.com/iterative/dvc[39m>
[0m

Zobaczmy jakie pliki dodał (również do repozytorium git) DVC.
Ich opis znajdziemy tutaj: https://dvc.org/doc/user-guide/project-structure/internal-files

In [19]:
!git status

On branch master

No commits yet

Changes to be committed:
  (use "git rm --cached <file>..." to unstage)
	[32mnew file:   .dvc/.gitignore[m
	[32mnew file:   .dvc/config[m
	[32mnew file:   .dvc/plots/confusion.json[m
	[32mnew file:   .dvc/plots/confusion_normalized.json[m
	[32mnew file:   .dvc/plots/default.json[m
	[32mnew file:   .dvc/plots/linear.json[m
	[32mnew file:   .dvc/plots/scatter.json[m
	[32mnew file:   .dvc/plots/smooth.json[m
	[32mnew file:   .dvcignore[m



Możemy teraz zacommitować zmiany w git:

In [5]:
!git commit -m "Initial commit"

On branch master
nothing to commit, working tree clean


## Śledzenie plików za pomocą DVC
 - dużymi plikami, takimi jak plikami z danymi wejściowymi czy plikami modeli, trudno zarządza się za pomocą gita, ze względu na problemy z:
   - wydajnością
   - przestrzenią w repozytorium
 - Git posiada rozszerzenie [lfs(Large File Storage)](https://git-lfs.github.com/), które stanowi pewne rozwiązanie tego problemu. Same pliki przechowywane są na specjalnym zdalnym serwerze, w repozytorium przechowywane są jedynie odnośniki do tych plików i pewne metadane
 - DVC proponuje podobne podejście, ale:
   - pliki mogą być przechowywane na niemal dowolnym serwerze, również lokalnie
   - brak limitu wielkości plików (w Git-LFS najczęściej limit 2GB)
   - DVC zapewnia dodatkowe narzędzie umożliwiające śledzenie plików i ich powiązań z  wynikami eksperymentów
   - więcej, patrz [tutaj](https://dvc.org/doc/user-guide/related-technologies)

Przygotujmy przykładowe dane, pobierając je z Kaggle:

In [19]:
!kaggle datasets download -d uciml/iris
!unzip -o iris.zip
!rm database.sqlite iris.zip
!mkdir -p data
!mv Iris.csv data/

Downloading iris.zip to /home/tomek/AITech/repo/aitech-ium-private/IUM_10/sample-ml-project
  0%|                                               | 0.00/3.60k [00:00<?, ?B/s]
100%|██████████████████████████████████████| 3.60k/3.60k [00:00<00:00, 2.63MB/s]
Archive:  iris.zip
  inflating: Iris.csv                
  inflating: database.sqlite         


Teraz dodamy plik(i) z danymi do DVC:

In [14]:
!dvc add data/Iris.csv

Adding...                                                                       
![A
  0%|          |.E8dZEGBYoRayYsJLdesNS4.tmp    0.00/5.11k [00:00<?,       ?it/s][A
100% Add|██████████████████████████████████████████████|1/1 [00:04,  4.71s/file][A

To track the changes with git, run:

	git add data/Iris.csv.dvc data/.gitignore
[0m

 - DVC utworzył plik `data/Iris.csv.dvc` i dadał oryginalny plik do `.gitignore`
 - W repozytorium będzie obecny tylko plik `*.dvc`, zawierający odnośnik do prawdziwego pliku

In [16]:
!git status -u

On branch master
Untracked files:
  (use "git add <file>..." to include in what will be committed)
	[31mdata/.gitignore[m
	[31mdata/Iris.csv.dvc[m
	[31miris.zip[m

nothing added to commit but untracked files present (use "git add" to track)


Dodajmy pliki `data/Iris.csv.dvc data/.gitignore` do repozytorium git, zgodnie z sugestią DVC:

In [21]:
!git add data/Iris.csv.dvc data/.gitignore

In [22]:
!git commit -m "Dodano dane IRIS (DVC)"

[master cc0821a] Dodano dane IRIS (DVC)
 2 files changed, 5 insertions(+)
 create mode 100644 data/.gitignore
 create mode 100644 data/Iris.csv.dvc


Plik `*.dvc` zawiera m.in. hash pliku. Więcej o plikach `*.dvc`: [link](https://dvc.org/doc/user-guide/project-structure/dvc-files)

In [None]:
# %load data/Iris.csv.dvc
outs:
- md5: 717820ef0af287ff346c5cabfb4c612c
  size: 5107
  path: Iris.csv


Oryginalny plik `Iris.csv` został przeniesiony do katalogu ./dvc/cache/{wartość hash pliku) i podlinkowany z powrotem do oryginalnej lokalizacji. Sposób tworzenia linków może być [różny w zależności od systemu plików](https://dvc.org/doc/user-guide/large-dataset-optimization).

In [27]:
!ls -l .dvc/cache/71

total 8
-r--r--r-- 1 tomek tomek 5107 wrz 19  2019 7820ef0af287ff346c5cabfb4c612c


## dvc remote
 - żeby wysłać właściwe pliki śledzone przez DVC do zdalnej lokalizacji (z której będą mogłby być pobrane np. przez system CI albo innych użytkowników) musimy mieć skonfigurowaną taką lokazliację
 - służy do tego polecenie [`dvc remote add`](https://dvc.org/doc/command-reference/remote/add)
 - użyjemy lokalnego "remote". Tutaj będzie to po prostu utworzony wcześniej katalog `/dvcstore`. Taki katalog istnieje też na naszym Jenkinsie, oczywiście należy go podmontować w Dockerze
 - w realnych zastosowaniach podalibyśmy tutaj ścieżkę do jakiegoś zasobu dostępnego przez inernet jak np. serwer SFTP, ścieżka do AWS S3 itp.

In [28]:
!dvc remote add -d my_local_remote /dvcstore

Setting 'my_local_remote' as a default remote.
[0m

In [39]:
!git status

On branch master
Changes not staged for commit:
  (use "git add <file>..." to update what will be committed)
  (use "git restore <file>..." to discard changes in working directory)
	[31mmodified:   .dvc/config[m

no changes added to commit (use "git add" and/or "git commit -a")


In [41]:
!git add .dvc/config
!git commit -m "Added DVC remote"

[master 3ff62b6] Added DVC remote
 1 file changed, 4 insertions(+)


## dvc push
Kiedy mamy już skonfigurowany "remote" możemy wypchnąć do niego pliki korzystając z polecenia `dvc push`:

In [None]:
!dvc push

In [33]:
!tree /dvcstore

[34;42m/dvcstore[00m
└── [01;34m71[00m
    └── 7820ef0af287ff346c5cabfb4c612c

1 directory, 1 file


## dvc pull
Żeby pobrać dane z DVC (np. w innej lokalizacji, przez innego użytkownika), musimy:
 - sklonować repozytorium git (żeby m.in. pobrać pliki `*.dvc`
 - wykonać `dvc pull`

Dodawanie nowych plików i modyfikacja istniejących wygląda tak podobnie jak przy zwykłych plikach śledzonych przez  git, tylko zamiast `git` używamy polecenia `dvc` a dodatkowo pamiętamy o zarządzaniu plikami `*.dvc` za pomocą gita:

In [37]:
!head -n -1 data/Iris.csv | sponge data/Iris.csv

In [42]:
!git status

On branch master
nothing to commit, working tree clean


In [43]:
!dvc status

data/Iris.csv.dvc:                                                    core[39m>
	changed outs:
		modified:           data/Iris.csv
[0m

In [44]:
!dvc add data/Iris.csv

Adding...                                                                       
![A
  0%|          |.TatTHknArFHCT9iDCtxHzh.tmp    0.00/5.07k [00:00<?,       ?it/s][A
100% Add|██████████████████████████████████████████████|1/1 [00:00,  2.68file/s][A

To track the changes with git, run:

	git add data/Iris.csv.dvc
[0m

In [46]:
!git add data/Iris.csv.dvc
!git commit -m "Removed last line from Iris dataset"


[master e38c244] Removed last line from Iris dataset
 1 file changed, 2 insertions(+), 2 deletions(-)


### dvc checkout
  - Polecenia `dvc checkout` używamy razem z `git checkout`, żeby zmienić branch, na którym pracujemy.
  - DVC podmieni wersje plików śledzonych przez siebie na pochodzące z innego brancha (o ile pliki te się różnią i różnią się pliki `*.dvc` w odpowiednich branchach
  - zmiana brancha przez git powoduje (ewentualną) zmianę plików `*.dvc` a `dvc checkout` kopiuje/linkuje pliki z katalogu `.dvc/cache` o wartościach hash odpowiadających tym z plików `*.dvc`

## Wymiana danych między projektami
 - za pomocą poleceń `dvc import` i `dvc update` możemy dodać i później aktualizować pliki śledzone przez DVC w innym repozytorium

In [48]:
!dvc import https://github.com/iterative/dataset-registry \
             get-started/data.xml -o data/data.xml

Importing 'get-started/data.xml (https://github.com/iterative/dataset-registry)' -> 'data/data.xml'
  0% Downloading|                                    |0/1 [00:00<?,     ?file/s]
![A
  0%|          |get-started/data.xml           0.00/37.9M [00:00<?,       ?it/s][A
  0%|          |get-started/data.xml      64.0k/36.1M [00:00<02:12,     286kB/s][A
  0%|          |get-started/data.xml       128k/36.1M [00:00<01:33,     403kB/s][A
  1%|          |get-started/data.xml       256k/36.1M [00:00<00:57,     658kB/s][A
  1%|          |get-started/data.xml       384k/36.1M [00:00<00:45,     818kB/s][A
  1%|▏         |get-started/data.xml       512k/36.1M [00:00<00:53,     693kB/s][A
  2%|▏         |get-started/data.xml       640k/36.1M [00:01<00:57,     644kB/s][A
  2%|▏         |get-started/data.xml       768k/36.1M [00:01<00:59,     619kB/s][A
  2%|▏         |get-started/data.xml       896k/36.1M [00:01<00:51,     718kB/s][A
  3%|▎         |get-started/data.xml      1.00M/36.1M [00:

In [49]:
!dvc status

Data and pipelines are up to date.                                              
[0m

In [50]:
ls -l data

total 37020
-rw-rw-r-- 1 tomek tomek 37891850 maj 31 11:10 data.xml
-rw-rw-r-- 1 tomek tomek      284 maj 31 11:10 data.xml.dvc
-rw-rw-r-- 1 tomek tomek     5072 maj 31 11:01 Iris.csv
-rw-rw-r-- 1 tomek tomek       76 maj 31 11:01 Iris.csv.dvc


In [None]:
# %load data/data.xml.dvc
md5: a7cd139231cc35ed63541ce3829b96db
frozen: true
deps:
- path: get-started/data.xml
  repo:
    url: https://github.com/iterative/dataset-registry
    rev_lock: ba014f40e29670421a67cb1c47543f402348aa13
outs:
- md5: a304afb96060aad90176268345e10355
  size: 37891850
  path: data.xml


## DVC pipelines
 - wprowadzenie: https://youtu.be/71IGzyH95UY
 - Getting started: https://dvc.org/doc/start/data-pipelines
 - dvc pipelines pozwala nam zbudować (za pomocą polecenie `dvc run`) lub zdefiniować (edytując plik `dvc.yaml`) graf zależności między krokami wykonywanymi w naszym projekcie (takimi jak "przygotowanie danych", "trenowanie", "ewaluacja")
  - tak zdefiniowany pipeline można potem uruchomić za pomocą polecenia `dvc reproduce`

## Zadania [15pkt]
1. Zainicjalizuj repozytorium DVC wewnątrz Twojego repozytorium z projektem [1pkt]
2. Dodaj plik(i) z danymi w Twoim projekcie do DVC [1pkt]
3. Skonfiguruj remote (dane do konfiguracji będą podane niebawem) [1pkt]
4. Stwórz/zdefiniuj i dodaj do repozytorium plik `dvc.yaml` opisujący kroki wykonywane w Twoim projekcie. Wydziel przynajmniej 2 kroki (np. przygotowanie danych/trenowanie) powiązane ze sobą za pomocą zależności (skorzystaj z materiałów "Getting started", link powyżej) [6pkt]
5. Stwórz projekt na Jenkinsie (`s1233456-dvc`), w którym sklonujesz repozytorium, ściągniesz pliki dvc (za pomocą `dvc pull`) i uruchomisz pipeline (za pomocą `dvc reproduce`) [6pkt]

## SSH remote

### Lokalnie:

Będziemy potrzebować zależności :
  
  `conda install dvc-ssh` 

albo

`pip install dvc[ssh] paramiko`

In [15]:
conda install -c conda-forge dvc-ssh

Collecting package metadata (current_repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: /home/tomek/miniconda3

  added / updated specs:
    - dvc-ssh


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    bcrypt-3.2.0               |   py39h3811e60_1          44 KB  conda-forge
    ca-certificates-2021.5.30  |       ha878542_0         136 KB  conda-forge
    certifi-2021.5.30          |   py39hf3d152e_0         141 KB  conda-forge
    dvc-2.3.0                  |   py39hf3d152e_0         542 KB  conda-forge
    dvc-ssh-2.3.0              |   py39hf3d152e_0           9 KB  conda-forge
    fsspec-2021.5.0            |     pyhd8ed1ab_0          77 KB  conda-forge
    invoke-1.5.0               |     pyhd3deb0d_0         137 KB  conda-forge
    paramiko-2.7.2             |     pyh9f0ad1d_0         135 KB  conda-forge
    pynacl-1.4.0               |   py3

In [27]:
!dvc remote add -f -d ium_ssh_remote ssh://ium-sftp@tzietkiewicz.vm.wmi.amu.edu.pl/ium-sftp

Setting 'ium_ssh_remote' as a default remote.
[0m

In [28]:
!dvc remote list

my_local_remote	/dvcstore
ium_ssh_remote	ssh://ium-sftp@tzietkiewicz.vm.wmi.amu.edu.pl/ium-sftp
[0m

In [32]:
!dvc remote modify --local ium_ssh_remote password [hasło takie jak do serwera MLflow (patrz MSTeams)]

[0m

In [30]:
!dvc push

  0% Uploading|                                      |0/1 [00:00<?,     ?file/s]
![A
  0%|          |data/Iris.csv                  0.00/4.95k [00:00<?,        ?B/s][A
1 file pushed                                                                   [A
[0m

### Jenkins

W Jenkins można użyć mechanizmu "Credentials", żeby w bezpieczny sposób przekazać hasło albo klucz prywatny.

Takie dane dla użytkownika ium-sftp zostały stworzone na Jenkinsie:

 - typu ssh key: https://tzietkiewicz.vm.wmi.amu.edu.pl:8080/credentials/store/system/domain/_/credential/48ac7004-216e-4260-abba-1fe5db753e18/
 - typu "secret text" - zawierający hasło użytkownika ium-shftp: https://tzietkiewicz.vm.wmi.amu.edu.pl:8080/credentials/store/system/domain/_/credential/ium-sftp-password/

Opis używania "Credentials" w Jenkinsfile: https://www.jenkins.io/doc/book/pipeline/jenkinsfile/#for-other-credential-types

Klucza ssh można użyć tak: 

```Jenkinsfile
withCredentials(
    [sshUserPrivateKey(credentialsId: '48ac7004-216e-4260-abba-1fe5db753e18', keyFileVariable: 'IUM_SFTP_KEY', passphraseVariable: '', usernameVariable: '')]) {
                sh "dvc init -f"
                sh "dvc remote add -d ium_ssh_remote ssh://ium-sftp@tzietkiewicz.vm.wmi.amu.edu.pl/ium-sftp"
                sh "dvc remote modify --local ium_ssh_remote keyfile $IUM_SFTP_KEY"
                sh "dvc pull"}
```

Secret text tak:

```Jenkinsfile
    withCredentials([string(credentialsId: 'ium-sftp-password', variable: 'IUM_SFTP_PASS')]) {
                sh "dvc init -f"
                sh "dvc remote add -d ium_ssh_remote ssh://ium-sftp@tzietkiewicz.vm.wmi.amu.edu.pl/ium-sftp"
                sh "dvc remote modify --local ium_ssh_remote password $IUM_SFTP_KEY"
                sh "dvc pull"
    }
```