02
This commit is contained in:
parent
42f5d311d9
commit
d5bdb60c56
@ -242,6 +242,94 @@ Tę własność tekstów nazywamy **prawem Zipfa**.
|
|||||||
#+RESULTS:
|
#+RESULTS:
|
||||||
[[file:pt-words-log-log.png]]
|
[[file:pt-words-log-log.png]]
|
||||||
|
|
||||||
|
*** Związek między frekwencją a długością
|
||||||
|
|
||||||
|
Powiązane z prawem Zipfa prawo językowe opisuje zależność między
|
||||||
|
częstością użycia słowa a jego długością. Generalnie im krótsze słowo, tym częstsze.
|
||||||
|
|
||||||
|
#+BEGIN_SRC python :session mysession :results file
|
||||||
|
def freq_vs_length(name, g, top=None):
|
||||||
|
freq = freq_list(g)
|
||||||
|
|
||||||
|
plt.figure().clear()
|
||||||
|
plt.scatter([len(x) for x in freq.keys()], [log(y) for y in freq.values()],
|
||||||
|
facecolors='none', edgecolors='r')
|
||||||
|
|
||||||
|
fname = f'{name}.png'
|
||||||
|
|
||||||
|
plt.savefig(fname)
|
||||||
|
|
||||||
|
return fname
|
||||||
|
|
||||||
|
freq_vs_length('pt-lengths', get_words(pan_tadeusz))
|
||||||
|
#+END_SRC
|
||||||
|
|
||||||
|
#+RESULTS:
|
||||||
|
[[file:pt-lengths.png]]
|
||||||
|
|
||||||
|
** N-gramy
|
||||||
|
|
||||||
|
W modelowaniu języka często rozpatruje się n-gramy, czyli podciągi o
|
||||||
|
rozmiarze $n$.
|
||||||
|
|
||||||
|
Na przykład /digramy/ (/bigramy/) to zbitki dwóch jednostek, np. liter albo wyrazów.
|
||||||
|
|
||||||
|
|$n$| | nazwa |
|
||||||
|
|---+---------+---------------+
|
||||||
|
| 1 | 1-gram | unigram |
|
||||||
|
| 2 | 2-gram | digram/bigram |
|
||||||
|
| 3 | 3-gram | trigram |
|
||||||
|
| 4 | 4-gram | tetragram |
|
||||||
|
| 5 | 5-gram | pentagram |
|
||||||
|
|
||||||
|
**Pytanie** Jak nazywa się 6-gram?
|
||||||
|
|
||||||
|
Jak widać, dla symetrii mówimy czasami o unigramach, jeśli operujemy
|
||||||
|
po prostu na jednostkach, nie na ich podciągach.
|
||||||
|
|
||||||
|
*** N-gramy z Pana Tadeusza
|
||||||
|
|
||||||
|
Statystyki, które policzyliśmy dla pojedynczych liter czy wyrazów możemy powtórzyć dla n-gramów.
|
||||||
|
|
||||||
|
#+BEGIN_SRC python :session mysession :exports both :results raw drawer
|
||||||
|
def ngrams(iter, size):
|
||||||
|
ngram = []
|
||||||
|
for item in iter:
|
||||||
|
ngram.append(item)
|
||||||
|
if len(ngram) == size:
|
||||||
|
yield tuple(ngram)
|
||||||
|
ngram = ngram[1:]
|
||||||
|
|
||||||
|
list(ngrams("kotek", 3))
|
||||||
|
#+END_SRC
|
||||||
|
|
||||||
|
#+RESULTS:
|
||||||
|
:results:
|
||||||
|
[('k', 'o', 't'), ('o', 't', 'e'), ('t', 'e', 'k')]
|
||||||
|
:end:
|
||||||
|
|
||||||
|
Zauważmy, że policzyliśmy wszystkie n-gramy, również częściowo pokrywające się.
|
||||||
|
|
||||||
|
Zawsze powinniśmy się upewnić, że jest jasne, czy chodzi o n-gramy znakowe czy wyrazowe
|
||||||
|
|
||||||
|
*** 3-gramy znakowe
|
||||||
|
|
||||||
|
#+BEGIN_SRC python :session mysession :results file
|
||||||
|
log_rang_log_freq('pt-3-char-ngrams-log-log', ngrams(get_characters(pan_tadeusz), 3))
|
||||||
|
#+END_SRC
|
||||||
|
|
||||||
|
#+RESULTS:
|
||||||
|
[[file:pt-3-char-ngrams-log-log.png]]
|
||||||
|
|
||||||
|
*** 2-gramy wyrazowe
|
||||||
|
|
||||||
|
#+BEGIN_SRC python :session mysession :results file
|
||||||
|
log_rang_log_freq('pt-2-word-ngrams-log-log', ngrams(get_words(pan_tadeusz), 3))
|
||||||
|
#+END_SRC
|
||||||
|
|
||||||
|
#+RESULTS:
|
||||||
|
[[file:pt-2-word-ngrams-log-log.png]]
|
||||||
|
|
||||||
** Tajemniczy język Manuskryptu Wojnicza
|
** Tajemniczy język Manuskryptu Wojnicza
|
||||||
|
|
||||||
[[https://pl.wikipedia.org/wiki/Manuskrypt_Wojnicza][Manuskrypt Wojnicza]] to powstały w XV w. manuskrypt spisany w
|
[[https://pl.wikipedia.org/wiki/Manuskrypt_Wojnicza][Manuskrypt Wojnicza]] to powstały w XV w. manuskrypt spisany w
|
||||||
@ -306,3 +394,100 @@ dramatycznie na analizę statystyczną.
|
|||||||
|
|
||||||
#+RESULTS:
|
#+RESULTS:
|
||||||
[[file:voy-words-log-log.png]]
|
[[file:voy-words-log-log.png]]
|
||||||
|
|
||||||
|
** Język DNA
|
||||||
|
|
||||||
|
Kod genetyczny przejawia własności zaskakująco podobne do języków naturalnych.
|
||||||
|
Przede wszystkim ma charakter dyskretny, genotyp to ciąg symboli ze skończonego alfabetu.
|
||||||
|
Podstawowe litery są tylko cztery, reprezentują one nukleotydy, z których zbudowana jest nić DNA:
|
||||||
|
a, g, c, t.
|
||||||
|
|
||||||
|
|
||||||
|
#+BEGIN_SRC python :session mysession :exports both :results raw drawer
|
||||||
|
import requests
|
||||||
|
|
||||||
|
dna_url = 'https://raw.githubusercontent.com/egreen18/NanO_GEM/master/rawGenome.txt'
|
||||||
|
dna = requests.get(dna_url).content.decode('utf-8')
|
||||||
|
|
||||||
|
dna = ''.join(dna.split('\n')[1:])
|
||||||
|
dna = dna.replace('N', 'A')
|
||||||
|
|
||||||
|
dna[0:100]
|
||||||
|
#+END_SRC
|
||||||
|
|
||||||
|
#+RESULTS:
|
||||||
|
:results:
|
||||||
|
TATAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTA
|
||||||
|
:end:
|
||||||
|
|
||||||
|
#+BEGIN_SRC python :session mysession :results file
|
||||||
|
rang_freq_with_labels('dna-chars', get_characters(dna))
|
||||||
|
#+END_SRC
|
||||||
|
|
||||||
|
#+RESULTS:
|
||||||
|
[[file:dna-chars.png]]
|
||||||
|
|
||||||
|
*** Tryplety — znaczące cząstki genotypu
|
||||||
|
|
||||||
|
Nukleotydy rzeczywiście są jak litery, same w sobie nie niosą
|
||||||
|
znaczenia. Dopiero ciągi trzech nukleotydów, /tryplety/, kodują jeden
|
||||||
|
z dwudziestu aminokwasów.
|
||||||
|
|
||||||
|
#+BEGIN_SRC python :session mysession :results file
|
||||||
|
genetic_code = {
|
||||||
|
'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
|
||||||
|
'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
|
||||||
|
'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
|
||||||
|
'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
|
||||||
|
'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
|
||||||
|
'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
|
||||||
|
'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
|
||||||
|
'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
|
||||||
|
'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
|
||||||
|
'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
|
||||||
|
'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
|
||||||
|
'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
|
||||||
|
'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
|
||||||
|
'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
|
||||||
|
'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
|
||||||
|
'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W',
|
||||||
|
}
|
||||||
|
|
||||||
|
def get_triplets(t):
|
||||||
|
for triplet in re.finditer(r'.{3}', t):
|
||||||
|
yield genetic_code[triplet.group(0)]
|
||||||
|
|
||||||
|
rang_freq_with_labels('dna-aminos', get_triplets(dna))
|
||||||
|
#+END_SRC
|
||||||
|
|
||||||
|
#+RESULTS:
|
||||||
|
[[file:dna-aminos.png]]
|
||||||
|
|
||||||
|
*** „Zdania” w języku DNA
|
||||||
|
|
||||||
|
Z aminokwasów zakodowanych przez tryplet budowane są białka.
|
||||||
|
Maszyneria budująca białka czyta sekwencję aż do napotkania
|
||||||
|
trypletu STOP (_ powyżej). Taka sekwencja to /gen/.
|
||||||
|
|
||||||
|
#+BEGIN_SRC python :session mysession :results file
|
||||||
|
def get_genes(triplets):
|
||||||
|
gene = []
|
||||||
|
for ammino in triplets:
|
||||||
|
if ammino == '_':
|
||||||
|
yield gene
|
||||||
|
gene = []
|
||||||
|
else:
|
||||||
|
gene.append(ammino)
|
||||||
|
|
||||||
|
plt.figure().clear()
|
||||||
|
plt.hist([len(g) for g in get_genes(get_triplets(dna))], bins=100)
|
||||||
|
|
||||||
|
fname = 'dna_length.png'
|
||||||
|
|
||||||
|
plt.savefig(fname)
|
||||||
|
|
||||||
|
fname
|
||||||
|
#+END_SRC
|
||||||
|
|
||||||
|
#+RESULTS:
|
||||||
|
[[file:dna_length.png]]
|
||||||
|
Loading…
Reference in New Issue
Block a user