Konfidenzintervall (Confidence interval)

Dieser Anhang beschreibt die Methode zur Berechnung des Konfidenzintervalls für eine eindimensionale Normalverteilung (normal distribution).

Kumulative Wahrscheinlichkeit (cumulative probability)

Die kumulative Wahrscheinlichkeit (cumulative probability) ist die Wahrscheinlichkeit, dass der Wert einer Zufallsvariable (random variable) innerhalb eines bestimmten Bereichs liegt.

\[ P\left( a \leq X \leq b \right) \]

Kehren wir zum Beispiel der Pizzaliefer-Verteilung zurück (siehe Abschnitt Wesentliche Grundlagen I). Wir möchten die Wahrscheinlichkeit bestimmen, dass die Pizza in Stadt 'A' innerhalb von 33 Minuten geliefert wird:

\[ P\left( 0 \leq X \leq 33 \right) \]

Zur Erinnerung: Die Pizzalieferzeit in Stadt 'A' ist normalverteilt mit einem Mittelwert (mean) von 30 Minuten und einer Standardabweichung (standard deviation) von 5 Minuten \( \left( \mu=30, \sigma=5 \right) \).

Wir müssen die Fläche unter der PDF-Kurve der Wahrscheinlichkeitsdichtefunktion (PDF) zwischen 0 und 33 Minuten bestimmen:

Kalman-Filter-Buch
Beispielorientierter Leitfaden zum Kalman-Filter
Kumulative Wahrscheinlichkeit

Die ausgefüllte Fläche unter der Gauß-Verteilung (Gaussian) ist gegeben durch:

\[ F \left( x;\mu,\sigma^{2} \right) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \int_{0}^{r}exp \left(\frac{-(x-\mu)^2}{2\sigma^{2}} \right)dx \]

In unserem Fall:

\[ F \left( x;\mu,\sigma^{2} \right) = \frac{1}{\sqrt{2\pi \cdot 5^{2}}} \int_{0}^{33}exp \left(\frac{-(x-30)^2}{2\cdot 5^{2}} \right)dx \]

Keine Sorge. Wir müssen dieses Integral nicht berechnen.

Zur Vereinfachung definieren wir einen standardisierten Score (standardized score), auch z-Score (z-score) genannt.

Ein z-Score ist eine standardisierte Zufallsvariable mit einem Mittelwert von 0 und einer Standardabweichung von 1 \( \left( \mu=0, \sigma=1 \right) \).

\[ z = \frac{x-\mu}{\sigma} \]

Ein z-Score gibt die Entfernung von \( x \) zum Mittelwert in Einheiten von Standardabweichungen an. Zum Beispiel:

  • Wenn \(z-Score=1\), liegt der Wert von \( z \) eine Standardabweichung über dem Mittelwert.
  • Wenn \(z-Score=-2.5\), liegt der Wert von \( z \) 2,5 Standardabweichungen unter dem Mittelwert.
  • Wenn \(z-Score=0\), entspricht der Wert von \( z \) dem Mittelwert.

Die Pizzalieferzeit in Stadt 'A' ist eine Zufallsvariable mit einem Mittelwert von 30 und einer Standardabweichung von 5 \( \left( \mu=30, \sigma=5 \right) \).

z-Score für 33 Minuten ist:

\[ z = \frac{33-30}{5}=0.6 \]

z-Score für 0 Minuten ist:

\[ z = \frac{0-30}{5}=-6 \]

Die Wahrscheinlichkeitsdichtefunktion (PDF) von \( z \) ist eine Standardnormalverteilung (standard normal distribution):

\[ F \left( z \right) = \frac{1}{\sqrt{2\pi}}exp \left(-0.5z^{2} \right) \]

Die kumulative Wahrscheinlichkeit ist die Fläche unter der PDF zwischen \( -\infty \) und \( z \).

Standardnormalverteilung

Die kumulative Wahrscheinlichkeit von \( z \) ergibt sich zu:

\[ CP \left( z \right) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{z}exp \left( -0.5z^{2} \right)dz \]

Für unser Beispiel müssen wir Folgendes bestimmen:

\[ P(-6 \leq z \leq 0.6)= CP(z=0.6)- CP(z=-6) \]

Die Berechnung des PDF-Integrals ist nicht einfach und erfordert viel Aufwand. Der schnellere Weg ist die Verwendung statistischer z-Score-Tabellen (z-score tables) oder von Computersoftwarepaketen.

z-Score-Tabellen enthalten kumulative Wahrscheinlichkeiten für verschiedene z-Scores. Die folgende Abbildung zeigt die Position der kumulativen Wahrscheinlichkeit für den z-Score (z=0.6).

z-Score-Tabelle

\[ CP \left( z = 0.6 \right) = 0.7257 \]

Für die Berechnung des z-Score-Integrals können Sie wissenschaftliche Computersoftwarepakete verwenden.

Die folgenden Befehle berechnen das z-Score-Integral in verschiedenen Computersoftwarepaketen:

Computersoftwarepaket Befehl
Python from scipy.stats import norm
norm.cdf(z)
MATLAB normcdf(z)
Excel NORM.DIST(z, 0, 1, TRUE)

from scipy.stats import norm

norm.cdf(0.6)
0.7257468822499265

norm.cdf(-6)
9.865876450376946e-10
                    

normcdf(0.6)
0.7257

normcdf(-6)
9.8659e-10
                    

\[ P(-6 \leq z \leq 0.6) = 0.7257 - 9.8659\times10^{-10} = 0.7257 \]

Die Wahrscheinlichkeit, dass eine Pizza in Stadt 'A' innerhalb von 33 Minuten geliefert wird, beträgt 72,57 %.

Anders ausgedrückt: Die Pizzalieferzeit entspricht dem 72,57-Perzentil (percentile) in Stadt 'A' und beträgt 33 Minuten.

Hinweis: Bei der Verwendung von Computersoftwarepaketen müssen Sie den z-Score nicht berechnen. Sie können Mittelwert und Standardabweichung als Argumente der Softwarefunktion angeben.

Die folgenden Befehle berechnen die kumulative Verteilung (cumulative distribution) in verschiedenen Computersoftwarepaketen:

Computersoftwarepaket Befehl
Python from scipy.stats import norm
norm.cdf(x, mu, sigma)
MATLAB norm.cdf(x, mu, sigma)
Excel NORM.DIST(x, mu, sigma, TRUE)

from scipy.stats import norm

norm.cdf(33, 30, 5)
0.7257468822499265
                    

normcdf(33, 30, 5)

0.7257
                    

Inverse kumulative Normalverteilung (normal inverse cumulative distribution)

In diesem Abschnitt möchten wir eine umgekehrte Frage beantworten. Wie lautet die kumulative Verteilung (cumulative distribution) für ein gegebenes Perzentil (percentile)?

Zum Beispiel: Was ist das 80te Perzentil für die Pizzalieferzeit in Stadt 'A'?

Inverse kumulative Normalverteilung

Eine Methode ist die Verwendung der z-Score-Tabelle:

  • Suchen Sie in der Tabelle unten den kumulativen Verteilungswert, der 0,8 am nächsten liegt.
  • Der \( z-Score \) ist die Kombination aus dem \( z-Wert \) der Zeile und dem \( z-Wert \) der Spalte: \( z=0,84 \).
z-Score-Tabelle

Nun müssen wir \( z \) in \( x \) umrechnen:

\[ z = \frac{x-\mu}{\sigma} \]

\[ x =z\sigma + \mu = 0.84 \times 5+30=34.2 \]

Das 80te Perzentil für die Pizzalieferzeit in Stadt 'A' beträgt 34,2 Minuten.

Wenn Sie Computersoftware verwenden, können Sie die folgenden Befehle nutzen:

Computersoftwarepaket Befehl
Python from scipy.stats import norm
norm.ppf(x, mu, sigma)
MATLAB norminv(p, mu, sigma)
Excel NORMINV(x, mu, sigma)

from scipy.stats import norm

norm.ppf(0.8, 30, 5)
34.20810616786457
                    

norminv(0.8, 30, 5)

34.2081
                    

Konfidenzintervall

Eine normalverteilte Zufallsvariable wird durch Mittelwert \( (\mu) \) und Standardabweichung \( (\sigma) \) beschrieben. Ein Konfidenzintervall ist die Wahrscheinlichkeit, dass ein Parameter mit einem bestimmten Anteil der Fälle zwischen zwei Werten liegt.

Angenommen, wir messen ein Gewicht von 80 kg mit einer Standardabweichung der Messung \( (\sigma) \) von 2 kg. Die Wahrscheinlichkeit, dass das wahre Gewicht zwischen 78 kg und 82 kg liegt, beträgt 68,25 %.

Üblicherweise interessieren uns höhere Konfidenzniveaus (confidence levels), etwa 90 % oder 95 %. Sehen wir uns an, wie man sie bestimmt.

Die folgende Grafik zeigt die Standardnormalverteilung \( (\mu=0, \sigma=1) \). Wir möchten ein 90%-Konfidenzintervall bestimmen.

Konfidenzintervall

Die Fläche der ausgefüllten Region unter der Kurve beträgt 90 % der Gesamtfläche. Die Fläche der nicht ausgefüllten Region beträgt 10 % der Gesamtfläche. Die Fläche der nicht ausgefüllten Region links beträgt 5 % der Gesamtfläche. Wir können einen z-Score für das 5. oder das 95. Perzentil bestimmen.


from scipy.stats import norm

norm.ppf(0.05)
-1.6448536269514729

norm.ppf(0.95)
1.6448536269514722
                    

norminv(0.05)
-1.6449

norminv(0.95)
1.6449
                    

Das 90%-Konfidenzintervall ist \( (\pm 1{,}645 \sigma) \).

Im Beispiel der Gewichtsmessung beträgt das 90%-Konfidenzintervall ±3,29 kg. Die Wahrscheinlichkeit, dass das wahre Gewicht zwischen 76,71 kg und 83,29 kg liegt, beträgt 90 %.