Schnoede ist jede Theorie.
Was ist denn dran an der Buchstaben Zipf, Zeta Verteilung ?
Wiki schreibt dazu :
Zitat:
Auch die Verteilung der Buchstabenhäufigkeiten ähnelt einer Zipfschen Verteilung. Die Statistik mit 20–30 Buchstaben ist aber zu schlecht, um den Verlauf mit einer Potenzfunktion anzupassen.
|
Das will ich mir selber anschauen :
Hier die Buchstabenhaufigkeit der deutschen Sprache aus WIKI fuer Maple aufbereitet :
restart;
buch[1]:=17.40;
buch[2]:=9.78;
buch[3]:=7.55;
buch[4]:=7.27;
buch[5]:=7.00;
buch[6]:=6.51;
buch[7]:=6.15;
buch[8]:=5.08;
buch[9]:=4.76;
buch[10]:=4.35;
buch[11]:=3.44;
buch[12]:=3.06;
buch[13]:=3.01;
buch[14]:=2.53;
buch[15]:=2.51;
buch[16]:=1.89;
buch[17]:=1.89;
buch[18]:=1.66;
buch[19]:=1.21;
buch[20]:=1.13;
buch[21]:=0.79;
buch[22]:=0.67;
buch[23]:=0.31;
buch[24]:=0.27;
buch[25]:=0.04;
buch[26]:=0.03;
buch[27]:=0.02;
Diese Werte muessen wir normieren.
nor:=0;
for i from 1 to 27 do nor:=nor+buch[i]; od:
for i from 1 to 27 do buch[i]:=buch[i]/nor;od:
Erstellen die normierte Zipf Verteilung :
czipf:=1/evalf(sum(1/kk,kk=1..27));
for i from 1 to 27 do zipf[i]:=czipf*1/i; od:
Und stellen beides dar :
druck:=seq([i,buch[i]],i=1..27);
plot([druck]);
druckz:=seq([i,zipf[i]],i=1..27);
plot([[druck],[druckz]]);
Wobei die doppellogarithmische Darstellung weitaus aussagekraeftiger ist, denn darin wird die Zipf Verteilung zu einer Geraden :
druck:=seq([log(i),log(buch[i])],i=1..27):
druckz:=seq([log(i),log(zipf[i])],i=1..27):
plot([[druck],[druckz]]);
Naja, also so schlecht ist das gar nicht.
Die letzen 7 Buchstaben stoeren die Zipf Verteilung am meisten.
Das waeren :
21. P 00,79 %
22. V 00,67 %
23. ß 00,31 %
24. J 00,27 %
25. Y 00,04 %
26. X 00,03 %
27. Q 00,02 %
Die koennte man sich auch sparen und mach einer schreibt schon ss statt beta :-)
Zitat:
Die Umlaute ä, ö und ü wurden wie ae, oe und ue gezählt, die Ligatur ſz als eigenständiges Zeichen ß[2].
|