histograms

Histogramme für klassierte Daten

Histogramme bei unterschiedlichen Klassenbreiten

Online-Tool zur Erstellung von Histogrammen aus klassierten Daten einer Stichprobe. $x^u$, $x^o$ bezeichnen die Klassengrenzen, eine Klasse erstreckt sich über das Intervall $]x^u, x^o]\;$. In der Tabelle unten ist für die erste Zeile die absolute Häufigkeit $h$ die Zahl der Merkmalswerte zwischen $x^u$ und $x^o$ - im Beispiel befinden sich also 3 Merkmalswerte im Intervall zwischen 1 und 2.

Für ein Histogramm eigener Daten können die Zahlen in den ersten drei Spalten (die Definition der Klassen und die absolute Häufigkeit) der Tabelle ersetzt werden - Daten aus Tabellenkalkulationen können einfach kopiert werden. Natürlich funktioniert auch die Angabe relativer Häufigkeiten oder prozentuale Werte. Titel und die Beschriftungen der beiden Achsen können ebenfalls geändert werden.

Bedienung: Werte für die Klassengrenzen und die Häufigkeiten in die ersten drei Spalten der Tabelle eintragen und Go! drücken - die hinteren Spalten werden automatisch berechnet, bei einem Stichprobenumfang von $n $ werden die Klassenbreiten $\Delta_i = |x^o - x^u|\;\;$ und die relativen Häufigkeiten $f_i = h_i/n\;\;$ berechnet und als $F_i = \sum_{i=1}^n f_i\;\; $ kumuliert. Aus den Werten der ergänzten Tabelle kann dann das Histogramm durch Auftragen der Häufigkeitsdichte gegen die Grenzen der Klasse erstellt werden.

csv- und Latex-Daten

Als universelles Datenformat bietet sich csv an - die Daten können relativ einfach in praktisch jede Tabellenkalkulation importiert werden.

Statistische Kennzahlen bei klassierten Daten

Bei klassierten fehlt im Allgemeinen die Information über die Einzelwerte der Stichprobe $\lbrace x_i \rbrace \; $, es ist lediglich bekannt, wieviele der Merkmalswerte in bestimmten Intervallen liegen. Falls die Merkmalswerte gleichmäßig in den einzelnen Klassen verteilt sind, kann das arithmetische Mittel über die Klassenmitten berechnet werden. Falls die Daten nicht gleihcmäßig in den Klassen verteilt sind, kann die Berechnung als Näherung herangezogen werden: \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{k} h_i \frac{x_i^u + x_i^o}{2} \;\;\;\text{ mit der Zahl der Klassen } k \] In der Tabelle oben ergibt sich ein arithmetisches Mittel von $\bar{x} = $ 0.

Aus den Daten in der Tabelle oben kann natürlich auch der Median - der Wert, der die geordnete Stichprobe genau in der Mitte teilt - abgeschätzt werden. Trägt man die kumulierten relativen Häufigkeiten $F$ aus der Tabelle oben gegen die Merkmalswerte $x$ auf, erhält man ein Verteilungspolygon. Es liefert bei klassierten Datensätzen die angenäherte Information, wie sich die Merkmalswerter einer Stichprobe auf die einzelnen Klassen verteilen.

Nimmt man an, dass sich die Merkmalswerte in jeder Klasse gleichmäß verteilen, so können die Punkte des Verteilungspolygons näherungsweise durch Geraden verbunden werden und dadurch der Median abgeschätzt werden - er ist die Stelle, an der das Verteilungspolygon den Wert 0,5 erreicht (dort wird die Stichprobe in Hälften geteilt). Der Median der Werte aus der obigen Tabelle ist $\bar{x}_Z =\;\; $.

Die Varianz und damit auch die Standardabweichung können ebenfalls genähert werden, indem die einzelnen Merkmalswerte durch die Klassenmitten geschätzt werden. Mit dem oben bereits näherungsweise bestimmten arithmetischen Mittel $\bar{x} $ wird die unkorrigierte empirische Stichprobenvarianz zu \[ s^2 = \frac{1}{n} \sum_{i=1}^{k} h_i \left( \frac{x_i^u + x_i^o}{2} - \bar{x} \right)^2 \;\;\; \text{ mit der Zahl der Klassen } k ,\] für die Werte oben ergibt sich eine Varianz von $s^2 = $ 0 und die Standardabweichung $s = $ 0.