utt/nawszelkiwypadek/tools/gue_dic/stat_pre.pl

#! /usr/bin/perl

use locale;

######################################################
# na wej<65>ciu znajduje si<73> plik zawieraj<61>cy linie     #
# postaci:                                           #
# slowo;opis                                         #
#                                                    #
# na wyj<79>ciu ma si<73> znale<6C><65> plik zawieraj<61>cy linie:  #
# ko<6B>c<EFBFBD>wka(rev);prawdopodobie<69>stwo;opis              #
# gdzie:                                             #
# - ko<6B>c<EFBFBD>wka(rev) jest ko<6B>c<EFBFBD>wk<77> wyrazu zapisan<61>      #
#   w odwrotnej kolejno<6E>ci, dla ka<6B>dego wyrazu       #
#   w s<>owniku wypisujemy ko<6B>c<EFBFBD>wki o d<>ugo<67>ciach     #
#   od 1 do d<>ugo<67>ci wyrazu,                         #
# - prawdopodobie<69>stwo jest prawdopodobie<69>stwem      #
#   wyst<73>pienia danego opisu dla danej ko<6B>c<EFBFBD>wki      #
#   (obliczonym na podstwie statystycznej analizy    #
#   s<>ownika), np: 250 oznacza, ze opis popjawia sie #
#   1 raz na 4 wyst<73>pienia ko<6B>c<EFBFBD>wki.                 #
#   Zapisana zostaje odwrotno<6E><6F> prawdopodobie<69>stwa   #
#   aby scie<69>ka najbardziej prawdopodobna mia<69>a      #
#   najmniejszy koszt.                               #
######################################################

######
#STALE
#
# Jak bardzo prawdopodobna musi by<62> dana <20>cie<69>ka, aby
# bra<72> j<> pod uwag<61>? (w promilach)
$MIN_PROB = 0;
#
# Maksymalna ilo<6C><6F> powt<77>rze<7A> danej ko<6B>c<EFBFBD>wki (brane od
# najbardziej prawdopodbnej w d<><64>
$MAX_PATH = 10;
#
######

@input = <>;

#$max = 0;

#for $m (@input) {
#    $m =~ /(\w+);.*$/;
#    if (length($1) > $max) {
#	$max = length($1);
#    }
#}

$n = 1; #$max; 

$go = 1;

while ($n<7) {

    my %prefiksy;
    my $sumy;
 
    $go = 0;
    for $m (@input) {
	if ($m =~ /^(\w{$n})\w*;(.*)$/) {
	    $go = 1;
	    $prefiksy{$1.";".$2}++;
	    $sumy{$1}++;
	}
    }

    print "\n";
 
    for $prefiks (keys %prefiksy) {
	$prefiks =~ /^(.*);(.*)$/;
	$p = $prefiksy{$prefiks} / $sumy{$1};
        $p *= 1000;                     #wartosc w promilach

	if ($p <= $MIN_PROB) {
	    next;
	}

	#if ($p == 1000) {
	#    $p--;
	#}

        $p = 1000 - $p;                 #odwrotnosc
#	$rev = reverse($1);
	# opakowujemy znak '-' znakami [] ;)
	$opis = $2;
	$opis =~ s/-/\[-\]/;

	printf "%s~%.0f;%s\n", $1, $p, $opis;
    }

  $n++;

}