Quanten.de Diskussionsforum - Einzelnen Beitrag anzeigen - Math

richy · #8 31.08.10, 01:13

Schnoede ist jede Theorie.
Was ist denn dran an der Buchstaben Zipf, Zeta Verteilung ?
Wiki schreibt dazu :

Zitat:

Auch die Verteilung der Buchstabenhäufigkeiten ähnelt einer Zipfschen Verteilung. Die Statistik mit 20–30 Buchstaben ist aber zu schlecht, um den Verlauf mit einer Potenzfunktion anzupassen.

Das will ich mir selber anschauen :
Hier die Buchstabenhaufigkeit der deutschen Sprache aus WIKI fuer Maple aufbereitet :

restart;
buch[1]:=17.40;
buch[2]:=9.78;
buch[3]:=7.55;
buch[4]:=7.27;
buch[5]:=7.00;
buch[6]:=6.51;
buch[7]:=6.15;
buch[8]:=5.08;
buch[9]:=4.76;
buch[10]:=4.35;
buch[11]:=3.44;
buch[12]:=3.06;
buch[13]:=3.01;
buch[14]:=2.53;
buch[15]:=2.51;
buch[16]:=1.89;
buch[17]:=1.89;
buch[18]:=1.66;
buch[19]:=1.21;
buch[20]:=1.13;
buch[21]:=0.79;
buch[22]:=0.67;
buch[23]:=0.31;
buch[24]:=0.27;
buch[25]:=0.04;
buch[26]:=0.03;
buch[27]:=0.02;

Diese Werte muessen wir normieren.
nor:=0;
for i from 1 to 27 do nor:=nor+buch[i]; od:
for i from 1 to 27 do buch[i]:=buch[i]/nor;od:

Erstellen die normierte Zipf Verteilung :
czipf:=1/evalf(sum(1/kk,kk=1..27));
for i from 1 to 27 do zipf[i]:=czipf*1/i; od:

Und stellen beides dar :

druck:=seq([i,buch[i]],i=1..27);
plot([druck]);
druckz:=seq([i,zipf[i]],i=1..27);
plot([[druck],[druckz]]);

Wobei die doppellogarithmische Darstellung weitaus aussagekraeftiger ist, denn darin wird die Zipf Verteilung zu einer Geraden :

druck:=seq([log(i),log(buch[i])],i=1..27):
druckz:=seq([log(i),log(zipf[i])],i=1..27):
plot([[druck],[druckz]]);

Naja, also so schlecht ist das gar nicht.
Die letzen 7 Buchstaben stoeren die Zipf Verteilung am meisten.
Das waeren :

21. P 00,79 %
22. V 00,67 %
23. ß 00,31 %
24. J 00,27 %
25. Y 00,04 %
26. X 00,03 %
27. Q 00,02 %

Die koennte man sich auch sparen und mach einer schreibt schon ss statt beta :-)

Zitat:

Die Umlaute ä, ö und ü wurden wie ae, oe und ue gezählt, die Ligatur ſz als eigenständiges Zeichen ß[2].