# Uczenie maszynowe i jego wyzwania

Uwaga: my skupiamy się na uczeniu maszynowym na tekstach (i ostatecznie zmierzamy do ekstrakcji z dokumentów tekstowych).

## Oznaczenia

* $x$ — wejście (często interpretowane jako wektor $\vec{x}$) 
* $y$ — oczekiwane wyjście
* $\hat{y}$ — przewidywane wyjście
* $(X, Y)$, zbiór wejść $X$ traktujemy jako listę $X = (x_1, \dots, x_N)$ albo jako macierz, a $Y$ jest na ogół ciągiem liczb albo wektorem
* $V$ — słownik (zbiór słów/symboli)
  * $V^*$ — zbiór wszystkich tekstów (ciągów na $V$)
* $C = \{c_1, c_2, \dots, c_n\}$ — zbiór klas
  * $\bar{c}$ - dopełnienie klasy $c$
* $L = \{l_1, l_2, \dots, l_n\}$ — zbiór etykiet/tagów (_labels_/_tags_)
  * czasami wymiennie używać będziemy terminów klasa oraz etykieta/tag
  * $L^*$ — zbiór wszystkich ciągów etykiet
* $q$ — zapytanie



## Rekomendacje książkowe

(Bez aparatu matematycznego! Na przykład do polecenia laikowi.)

* Stanisław Lem, _Summa technologiae_, Wydawnictwo Literackie, 1964
  * może zacząć od spojrzenia, jak kiedyś sobie to wyobrażano?
* Pedro Domingos, _Naczelny Algorytm. Jak jego odkrycie zmieni nasz świat_, Helion, 2016
  * książka się trochę zestarzała, czas pokazał, że autor nie do końca trafnie przewidział, jak się dalej potoczą losy uczenia maszynowego (sieci neuronowe zdecydowanie wygrały)
  * ... ale bardzo ciekawe spostrzeżenia, dobrze się czyta
* Kai-Fu Lee, _Inteligencja sztuczna, rewolucja prawdziwa_, Media Rodzina, 2019.
  * ciekawe w kontekście ekonomicznym, szczególnie Chin
  
  

## Podstawowa idea

**Uczenie maszynowe to odwrotność programowania** (trochę tak jak $\sqrt{...}$ jest odwrotnością $^2$).

![Uczenie maszynowe a programowanie](./uczenie-a-programowanie.png)

(Na razie trochę upraszczamy - odnosimy się tylko do uczenia nienadzorowanego.)

## 5 epok uczenia maszynowego

### I. Systemy regułowe

Systemy regułowe, wyrażenia regularne, systemy eksperckie, programowanie logiczne (Prolog)

Praca człowieka: tworzenie reguł (czasochłonne!)

### II. Proste algorytmy uczenia maszynowego (lata 90.)

Naiwny klasyfikator bayesowskie, regresja logistyczna, SVM, XGBoost

Praca człowieka: inżynieria cech, optymalizacja hiperparametrów, unikanie przeuczenia

### III. Sieci neuronowe 1 - ucz na _big data_ (2012-2016)

Sieci feed-forward, splotowe, LSTM; wymagane duże zbiory uczące (w trybie nadzorowanym).

Praca człowieka: specyficzna architektura, przygotowanie dużego zbioru danych

### IV. Sieci neuronowe 2 - pretrenuj i dostrajaj (2017-2020)

Sieci konwolucyjne, LSTM (ELMo), Transformer (BERT). Zbiory uczące do uczenia nadzorowanego nie muszą być obszerne.

Praca człowieka: dostrajanie modelu.

### V. Sieci neuronowe 3 - pretrenuj i... po po prostu korzystaj (2019-)

Duże wielowarstwowe generatywne modele Transformer (GPT-2/3, T5), uczenie few-, one- i zero-shot.

Praca człowieka: jak sformułować zadanie w języku naturalnym?








## Rodzaje uczenia maszynowego

* uczenie nienadzorowane (_unsupervised learning_)
* uczenie nadzorowane (_supervised learning_)
  * predykcja prostej wartości
    * klasyfikacja
      * klasyfikacja binarna
      * klasyfikacja wieloklasowa
    * regresja
  * ekstrakcja informacji  
  * zadania _seq2seq_
    * etykietowanie sekwencji (_sequence labeling_)
    * tłumaczenie maszynowe (szeroko rozumiane)
      * automatyczne streszczanie (sumaryzacja) 
    
    
      
    
    

## Uczenie maszynowe - widok z góry

![Uczenie maszynowe - schemat](./uczenie-schemat.png)

## Wyzwania uczenia maszynowego

Zbiór danych (_data set_) - w uczeniu nadzorowanym po prostu zestaw danych wejściowych i oczekiwanych danych wyjściowych $(X, Y)$.
Wyzwanie uczenia maszynowego (_ML challenge_) - ustandaryzowany zbiór danych, podzielony na zbiór uczący i zbiory testowe, z określoną metryką ewaluacji.


Zob. listę na stronie https://gonito.net/list-challenges

### Uczenie nadzorowane

#### Klasyfikacja binarna

$$V^* \mapsto \{c,\bar{c}\}$$

Przykłady:
    
* klasyfikacja spam/nie-spam  
* https://gonito.net/challenge/petite-difference-challenge2
* https://gonito.net/challenge/sentiment-by-emoticons
* https://gonito.net/challenge/sane-words

In [None]:
Na platformie Gonito wyzwania (i zgłoszenia) są dostępne jako repozytoria git.

In [19]:
%cd wyk
! git clone --single-branch  git://gonito.net/sentiment-by-emoticons

/home/filipg/ext/amu/aitech-eks/wyk
Klonowanie do „sentiment-by-emoticons”...
remote: Wymienianie obiektów: 29, gotowe.[K
remote: Zliczanie obiektów: 100% (29/29), gotowe.[K
remote: Kompresowanie obiektów: 100% (25/25), gotowe.[K
remote: Razem 29 (delty 5), użyte ponownie 0 (delty 0), paczki użyte ponownie 0
Pobieranie obiektów: 100% (29/29), 155.07 MiB | 2.39 MiB/s, gotowe.
Rozwiązywanie delt: 100% (5/5), gotowe.


In [20]:
%cd sentiment-by-emoticons
! ls

/home/filipg/ext/amu/aitech-eks/wyk/sentiment-by-emoticons
config.txt  dev-0  README.md  test-A  train


In [21]:
# plik konfiguracyjny
! cat config.txt

--metric LogLoss --metric Accuracy --precision 5 -%


In [22]:
# zbiór uczący, oczywiście z oczekiwanym wyjściem
! ls train

expected.tsv  in.tsv.xz  meta.tsv.xz


In [23]:
# zbiór deweloperski też ma
! ls dev-0

expected.tsv  in.tsv  meta.tsv


In [24]:
# a ostateczny zbiór testowy - nie ma (plik jest dostępny tylko dla ewaluatora)
! ls test-A

in.tsv


In [26]:
# W każdym wierszu jest osobny dokument
! xzcat train/in.tsv.xz | paste train/expected.tsv - | head -n 5

1	1) Amor omnia vincit!!!!- miłość wszystko zwycięży!!!! 2) każdy człowiek jest jak kwiat...Więdnieje bez miłości *) 3) Szukaj mnie cierpliwie dzień po dniu... 4) BĄDű DLA INNYCH SŁONECZNYM ZEGAREM, ODMIERZAJ TYLKO SŁONECZNE GODZINY 5) \"... Momenty ze ze snu wyrwana; zas nie wyspana...\" 6) ULEWA JEST MA SIOSTRA , STRUMIEN BRATEM 7) KażdaMiłośMusiPrzejścPrzezPróbęWtedyOkażeSięJejPrawdziwaWartość... 8) Zaplątana w pajęczynę snów.. Lepkie nici marzeń.. Utkane przez noc.. 9) Podobno ludzi lubimy za ich zalety, a kochamy za ich wady.... 10) Pozwól mi pozostać... 11) KIEDYŚ-to juz przeszeszłosc...Trzeba przyzwyczajic sie do-DZISIAJ;/ 12) To MoJa JeSt..NiEdOrOsLa MiLoSć..UpArcIe WiEc...BeDe BrOnIć JeJ... 13) Jeszcze jeden krok , a zgine.. 14) *CoRazBl!ŻejŚw!ęTa* NapisałamListDoŚw.Mikołaja ProszącOTwojąMiłość! 15) JeStEm W TeScO Na UrOdZiNaCh <EMOTICON> <EMOTICON> <EMOTICON> 16) Facet jest jak plemnik,tylko jeden na milion staje się człowiekiem! 17) Jeżeli ktoś komuś coś, ewentualnie nikt ni

#### Klasyfikacja wieloklasowa

$$V^* \mapsto \{c_1,\dots,c_n\}$$

#### Regresja

$$V^* \mapsto \mathbb{R}$$

#### Zadania seq2seq

$$V^* \mapsto Y^*$$

##### Zadania tłumaczenia maszynowego

$$V^* \mapsto V^*$$

##### Zadania sequence labeling

$$V^* \mapsto L^*$$





