TU Wien:Statistik und Wahrscheinlichkeitstheorie VO (Dutter)/Ausarbeitung mündlicher Prüfungsfragen

Aus VoWi
Zur Navigation springen Zur Suche springen

Diese Ausarbeitung von Prüfungsfragen, die häufig zur mündlichen Prüfung kommen, wurde ursprünglich von michi204 ausgearbeitet (hier gepostet). Die Version, die dieser Version zugrunde liegt, wurde von dodlhuat weiter verbessert und hier gepostet.

Hinweis zur Notation: Da MediaWiki zwar Latex kann, aber dabei die altdeutschen Buschstaben (siehe z.B. hier), die das Latex-Packet "oldgerm" zur Verfügung stellt, nicht darstellen kann, wird das altdeutsche A und B (verwendet für \sigma-Algebren) als kalligraphisches A bzw. B dargestellt. Aus dem altdeutschen A (ähnlich einem klein geschriebenen A nur viel grösser) wird daher in dieser Ausarbeitung \mathfrak{A}, aus einem altdeutschen B (ähnlich einem in Lateinschrift geschriebenen L) wird ein \mathfrak{B}.

Inhaltsverzeichnis

Wahrscheinlichkeitstheorie

(Elementar-)Ereignisse, Ereignisalgebra, Ereignisraum, Operationen, Borel-Mengen

Führt man einen Versuch (z.B. Würfeln mit 2 Würfeln) durch, kann dieser verschiedene Versuchsausgänge haben ((1,1), (1,2), … , (6,6)). Die Menge aller möglichen Versuchsausgänge heißt Ω, und jede Teilmenge (z.B. 2 gleiche = {(1,1),(2,2), …, (6,6)} heißt Ereignis, einpunktige Teilmengen (z.B. (1,1)) heißen Elementarereignisse.


Auf Ereignisse kann man folgende Operationen anwenden:

  • Durchschnittsbildung ("A und B": A \cap B)
  • Vereinigung ("A oder B": A \cup B)
  • Komplementbildung ("nicht A": A^c)

Das unmögliche Ereignis Ø und das sichere Ereignis Ω sind Sonderfälle.


Ereignisse können disjunkt sein (ihr Durchschnitt ist leer). Ein Ereignis A kann ein anderes B implizieren (A \subset B), dh A ist in B enthalten. Eine Reihe von Ereignissen ist genau dann Zerlegung eines anderen Ereignisses, wenn ihre Vereinigung das andere Ereignis ergibt und sie alle disjunkt sind. Die Regeln von De Morgan gelten, daher gilt:

A \cap B = (A^c \cup B^c)^c

und

A \cup B = (A^c \cap B^c)^c.

Die Menge aller betrachteten Ereignisse daher die Menge aller Teilmengen von Ω heißt Ereignisraum A (z.B. \{\{(1,1)\}, \{1,1\} \cup \{1,2\}, \dots\}). Zusammen mit den Operationen und Ø heißt der Ereignisraum Ereignisalgebra. Ist diese bezüglich Vereinigung und Komplementbildung abgeschlossen, heißt sie Ereignis-σ-Algebra.

Ist die Menge aller möglichen Versuchsausgänge R, so betrachtet man nicht einfach P(R), sondern nimmt die Menge aller links halboffenen Intervalle sowie Vereinigungen und Komplemente dieser. Die kleinste σ-Algebra, die all diese Mengen enthält, heißt borelsche σ-Algebra B, Teilmengen davon Borel-Mengen.

Welche Arten von Wahrscheinlichkeiten gibt es?

Während die a-priori-Wahrscheinlichkeit theoretischer Natur ist und im Vorhinein angegeben wird (Münze hat 2 gleich wahrscheinliche Seiten, daher P(W) = \tfrac{1}{2}), bestimmt man die a-posteriori-Wahrscheinlichkeit empirisch (57 von 100 Münzwürfen haben Wappen gezeigt, daraus folgt: P(W) = \tfrac{57}{100}).

Was ist ein Wahrscheinlichkeitsmaß?

Siehe auch Kapitel 4.2 (S. 39).

Ein Maß μ weist jedem Elementarereignis aus Ω und damit jedem Ereignis aus A ein Gewicht zu, ist also eine Funktion vom Ereignisraum A in Ω. Für Maße gilt natürlich σ- Additivität, dh die Summe aller Maße einer Zerlegung eines Ereignisses ergibt das Maß dieses Ereignisses. Gilt auch μ(Ω) = 1, hat man ein Wahrscheinlichkeitsmaß, und man schreibt fortan P statt μ. Die Wahrscheinlichkeit eines Ereignisses ist dann die Summe der Wahrscheinlichkeiten seiner Elementarereignisse. Sind alle Gewichte gleich, ist die Wahrscheinlichkeit eines Ereignisses gleich der Anzahl der günstigen dividiert durch die Anzahl der möglichen Elementarereignisse.

Rechenregeln:

P(A) = 1 - P(A^c)


P(A - B) = P (A) - P (A \cap B)


P(A\cup B) = P(A) + P(B) - P(A\cap B)

Was ist ein Wahrscheinlichkeitsraum?

Die Menge aller möglichen Versuchsausgänge zusammen mit der darauf definierten σ-Algebra \mathfrak{A} und einem Wahrscheinlichkeitsmaß P auf \mathfrak{A} bilden zusammen einen Wahrscheinlichkeitsraum (Ω, \mathfrak{A}, P).

Was ist eine bedingte Wahrscheinlichkeit? Was bedeutet Unabhängigkeit von Ereignissen?

Durch das Vorwissen wird der Ereignisraum eingeschränkt, sodass die Wahrscheinlichkeiten sich ändern (z.B. 1 Würfel mit den Ereignissen A: "Zahl≤3" und B: "Zahl=1". Dann ist P(B) = \tfrac{1}{6}, aber es gilt P(B|A) = \tfrac{1}{3}).

Es gilt:  P(A|B) = \tfrac{P(A \cap B)}{P(B)}, also einfach die Wahrscheinlichkeit für A und B, normiert auf den durch den Eintritt von B bereits eingeschränkten Ereignisraum. Wenn der Eintritt von B keinen Einfluss mehr hat, daher P(A|B) = P(A), nennt man die Ereignisse A und B unabhängig. Aus obiger Formel erhält man ganz einfach: P(A \cap B) = P(A|B) \cdot P(B). Für unabhängige Ereignisse gilt dann wegen P(A|B) = P(A) ganz einfach: P(A \cap B) = P(A) \cdot P(B).

Was ist eine Zufallsvariable? Wann ist sie diskret/kontinuierlich? Was ist eine Dichtefunktion? Was ist eine Verteilungsfunktion? Transformationen von Zufallsvariablen?

Eine Zufallsvariable ist formal eine Abbildung von einem Wahrscheinlichkeitsraum (\Omega,\mathfrak{B}, P_1) in einen einfacheren (\Omega,\mathfrak{B}, P_1). Jede Menge B aus \mathfrak{B} muss ein Urbild A = X^{-1}(B) besitzen. Eine diskrete Zufallsvariable kann höchstens abzählbar viele verschiedene Werte annehmen.

p_i = P(X=x_i) gibt eine Punktwahrscheinlichkeit an und heißt Wahrscheinlichkeitsfunktion, und es gilt \sum_{i-1}^{n}p_i = 1. F(x) = P(X \le x) ist gleich der Summe über p_i bis x und heißt Verteilungsfunktion.

Eine Zufallsvariable ist stetig, wenn ihre Verteilungsfunktion absolut stetig ist, dh sie ist für alle x aus R als Integral über f darstellbar. Die Verteilungsfunktion F(x) = P(X \le x) ist gleich dem Integral über f bis x. f heißt Dichtefunktion und ist die Ableitung der Verteilungsfunktion.

Transformationen von Zufallsvariablen: Addition wirkt sich nur auf den Mittelwert aus (verschiebt sich um addierten Betrag), Multiplikation wirkt sich auf die Varianz aus (diese wird dividiert). Zieht man den Mittelwert einer normalverteilten Zufallsvariablen ab und dividiert durch die Standardabweichung, erhält man eine N(0,1), also standard-normalverteilte Zufallsvariable.

Was sind die mathematische Erwartung und die Varianz einer Zufallsvariablen?

Die Erwartung (oder der Mittelwert) einer Zufallsvariablen X ist im stetigen Fall:

E(X) = \int\limits_{-\infty}^{\infty}x \cdot f(x)dx

und im diskreten Fall:

E(X) = \sum_{i=1}^{n}x_i \cdot p_i

Die Varianz einer Zufallsvariablen X ist:

Fehler beim Parsen (Lexikalischer Fehler): Var(X) = E(X)^2 − (EX)^2

Die Standardabweichung einer Zufallsvariablen ist \sigma = \sqrt{Var(X)}.

Was ist eine mehrdimensionale (multivariate) Zufallsvariable? Was ist eine Randverteilung? Wann sind zwei Zufallsvariablen voneinander unabhängig?

Siehe auch Kapitel 4.5, S. 60 ff..

In der Praxis wird selten eine Größe alleine untersucht, da die Zusammenhänge zwischen verschiedenen Merkmalen wichtig sind. Man kann nun einen p-dimensionalen Zufallsvektor (X_1, ..., X_p) definieren. Verteilungsfunktion und Wahrscheinlichkeitsdichte können ähnlich wie im eindimensionalen Fall definiert werden.

Die Verteilung der einen Zufallsvariablen für einen bestimmten Wert der anderen heißt Randverteilung (Kapitel 4.5.1, S. 64).

Zwei Zufallsvariablen X und Y sind genau dann voneinander unabhängig, wenn die Verteilungsfunktion des Zufallsvektors (X, Y) gleich dem Produkt der beiden Randverteilungsfunktionen ist, daher:

F(x,y) = F_X(x)*F_Y(y) \quad \forall x, y \in \R.

Die Randverteilung sieht folgendermaßen aus:

im diskreten Fall 
X: p_i = P_{X,i} = P(X=x_i) = \sum_{j=1}^\infty p_{ij}
bzw.
Y: p_j = P_{Y,i} = P(Y=y_j) = \sum_{i=1}^\infty p_{ij}
im stetigen Fall 
f_X(x) = \int\limits_{-\infty}^\infty f(x,y)dy
bzw.
f_Y(y) = \int\limits_{-\infty}^\infty f(x,y)dx
  • TODO: Randverteilungstabelle (S. 65):

Y/X i P(Y=j) = Pj j ∑ Pi = P(X=i) ∑ ∑

Beschreibende Statistik

Welche Momente einer Verteilung gibt es?

Siehe auch Kapitel 3.3, S. 25 ff..

1. Momente (Lageparameter)

  • Der Mittelwert oder Erwartungswert ("arithmetische Mittel"): \bar{x} = \frac{1}{n-1}\cdot\sum_{i=1}^n x_i
  • Der Median ist der mittlere Wert einer geordneten Stichprobe bzw. das arithmetische Mittel der beiden mittleren Werte bzw. er ist das 50%-Quantil ( siehe Quantil).
  • Der Modus oder Modalwert ist der häufigste Wert einer Verteilung. Sind mehrere Werte gleich häufig, wird die Mitte dieser Werte angenommen, falls die Werte nebeneinander liegen, ansonsten ist der Modalwert undefiniert.
  • Bei einem \alpha-Quantil Q_\alpha ist ein \alpha-Anteil der Verteilung kleiner oder gleich und ein (1-\alpha)-Anteil grösser oder gleich Q_\alpha. Der Wert der Verteilungsfunktion F(x) ergibt also für das \alpha-Quantil genau F(Q_\alpha) = \alpha.
  • Ein Perzentil P_\alpha ist analog, nur mit Prozentangaben, definiert.
  • Quartile sind die .25- bzw. .75-Quantile (identisch mit den 25%- und 75%-Perzentilen).

2. Momente (Streuungsparameter)

  • Die Varianz ist das mittlere Abstandsquadrat vom Mittelwert: s^2 = \frac{1}{n-1} \cdot \sum(x_i - \bar{x})^2.
  • Die Standardabweichung oder Streuung ist die Wurzel der Varianz, also s = \sqrt{s^2}. Eine "grobe Faustformel" für die Streuung ist (max - min)/3.

3. Moment (Schiefe)

Die Schiefe ist grösser als Null wenn es mehr positive als negative Abweichungen vom Mittelwert gibt:

\frac{\frac{1}{n} \cdot \sum(x_i-\bar{x})^3}{s^3}

4. Moment (Kurtosis)

Die Kurtosis (auch Wölbung oder Exzess) wird auch "heavy tails" genannt, sie ist ein Maß für die "Flachheit einer Verteilung".

\frac{\frac{1}{n} \cdot \sum(x_i - \bar{x})^4}{s^4} - 3
  • TODO: Graphik. Das hier ist die Unterschrift: "links: flache Wölbung – negative Kurtosis, rechts: spitze Wölbung – positive Kurtosis"

Bei Schiefe und Kurtosis hat es sich eingebürgert, einfach durch n zu dividieren. Durch das Subtrahieren von 3 hat die N(0,1)-Verteilung eine Kurtosis von 0.

Was ist das Messniveau? Welche Skalen gibt es, was charakterisiert sie, welche Momente sind dort verwendbar?

Das Messniveau gibt eine Unterteilung in verschiedene Datentypen / Skalen vor:

Nominalskala 
z.B. Geschlecht: keine Ordnung, Modalwert
Ordinalskala 
z.B. Schulnoten: Ordnung, aber keine Abstände: Modalwert, Median, Quantile
Intervallskala 
z.B. Temparatur °C: Ordnung, Abstände, kein abs. Nullpunkt: Modalwert, Median, Quantile, Mittel
Verhältnisskala 
z.B. Temparatur in Kelvin: Ordnung, Abstände, absoluter Nullpunkt: Modalwert, Median, Quantile, Mittel

Was ist ein MedMed?

Die Verteilung wird am Median nach rechts „umgeklappt“ (dadurch zB bei Normalverteilung doppelt so hoch). Von der Resultierenden Verteilung wird der Median berechnet.

Was ist die Varianz? Warum n-1 Freiheitsgrade?

Die Varianz berechnet sich folgendermaßen:

s^2 = \frac{1}{n-1} \cdot \sum (x_i - \bar{x})^2

Man geht von n unabhängigen Stichprobenwerten aus, also n Freiheitsgrade. Da man jedoch die Differenz vom bereits bekannten Mittelwert bildet und die Summe aller Abweichungen 0 ist, kennt man bei n-1 Abweichungen bereits auch die letzte Abweichung, daher n-1 Freiheitsgrade. Ein nicht unerwünschter Nebeneffekt ist, das die Varianz nun für n=1 nicht definiert ist statt 0.

Was ist die Standardabweichung?

Die Standardabweichung (oder Streuung) ist die mittlere Abweichung vom arithmetischen Mittel einer Verteilung. Sie berechnet sich aus der Quadratwurzel der Varianz und ist ein Streuungsmaß, gibt also die Breite der Verteilung an. Eine sehr grobe Schätzung für die Standardabweichung lautet: (Maximalwert – Minimalwert) / 3.

Was ist ein Wahrscheinlichkeitsnetz?

Im Wahrscheinlichkeitsnetz trägt man die Werte einer geordneten Stichprobe sowie (i-0.5)/n auf. Bei Normalverteilung ergibt sich durch die übliche Anordnung der y-Achse annähernd eine Gerade. Aus der Ausgleichsgeraden lassen sich die Parameter der Verteilung grafisch schätzen.

Verteilungen

Normalverteilung

Normalverteilungen mit unterschiedlichen Parametern

N(\mu,\sigma^2): kontinuierlich, symmetrisch.

Die Normalverteilung gilt zumindest annähernd für viele natürliche Prozesse. Aus dem Zentralen Grenzwertsatz folgt, dass aus vielen einzelnen unabhängigen Einflüssen entstehende Größen normalverteilt sind. Die Normalverteilung ist bei großem n eine gute Näherung für die Binomialverteilung.

Dichtefunktion: Gaußsche Glockenkurve mit arithmetischem Mittel der Verteilung als Höhepunkt, Mittel ± Standardabweichung als Wendepunkte.

Verteilungsfunktion: Anfang und Ende sehr flach und um den Median sehr steil.


N(0,1) wird auch die Standardnormalverteilung genannt.

Chi-Quadrat-Verteilung

\chi^2-Verteilungen mit unterschiedlichen Freiheitsgraden

\chi^2(n): kontinuierlich, asymmetrisch. n ist der Freiheitsgrad.

Der Erwartungswert ist n, die Varianz 2n. Meist verwendet man die zentrale \chi^2-Verteilung mit nur einem Parameter n. Die Summe quadrierter Zufallsvariablen (normalverteilt) ist \chi^2-verteilt. Man verwendet diese Verteilung z.B. zur Schätzung der Varianz. Die \chi^2-Verteilung ist sozusagen die quadrierte Normalverteilung.


Siehe auch die Chi-Quadrat-Verteilung auf der deutschen Wikipedia.

Binomialverteilung

B (n, p): diskret, asymmetrisch.

Für p=0,5 symmetrisch. Erwartungswert np, Varianz np(1-p).

Die Binomialverteilung kann zur Beschreibung von n Versuchen, die mit der Wahrscheinlichkeit p erfolgreich sind, verwendet werden. Für große n kann die Binomialverteilung gut durch die Normalverteilung angenähert werden.

B(1,p) (daher mit nur einem Versuch) heißt auch Bernoulli-Verteilung.

Poissonverteilung

Poissonverteilung mit \lambda = 6

P(\lambda): diskret, asymmetrisch.

λ ist zugleich Erwartungswert, Varianz und Schiefe. Für große λ lässt sich die Poissonverteilung durch die Normalverteilung annähern. Sie ist die Grenzverteilung der Binomialverteilung (für p → 0, n → ∞). Sie wird typischerweise für die Zahl von Phänomenen innerhalb einer Zeiteinheit verwendet.


Siehe auch die Poisson-Verteilung auf der deutschen Wikipedia.

F-Verteilung

Dichtefunktion der F-Verteilung mit ausgewählten Freiheitsgraden m und n

F(m,n): kontinuierlich, asymmetrisch. m und n sind Freiheitsgrade.

Die F-Verteilung wird verwendet, um festzustellen, ob die Populationen zweier Stichproben die gleiche Varianz haben.


Einige Bonusinformationen aus der Wikipedia:

Der Erwartungswert ist nur für n > 2 definiert und lautet dann

\operatorname{E}(X) = \frac{n}{n-2}.

Die Varianz ist nur für n > 4 definiert und lautet dann

\operatorname{Var}(X) = \frac{2 n^2 (m+n-2)}{m (n-2)^2 (n-4)}.


Siehe auch die F-Verteilung auf der deutschen Wikipedia.

t-Verteilung

T-Verteilung mit ausgewählten Freiheitsgraden

t(m): kontinuierlich, symmetrisch. m sind Freiheitsgrade.

Erwartungswert: 0. Die t-Verteilung wird zur Schätzung des Erwartungswertes bei unbekannter Varianz verwendet (statt der Normalverteilung bei bekannter Varianz). Für große m (>30) kann die t-Verteilung durch die N(0,1)-Verteilung angenähert werden.


Siehe auch die Studentsche t-Verteilung auf der deutschen Wikipedia.

Rechtecksverteilung

R (a, b): diskret, symmetrisch.

Erwartungswert: \tfrac{1}{2}(a+b), Varianz: \tfrac{1}{2}(b-a)^2

Exponentialverteilung

Dichte der Exponentialverteilung für ausgewählte \lambda

Ex(\tau), \tau > 0, \tau ist der Erwartungswert. Manchmal wird die Exponentialverteilung auch durch die konstante Ausfallsrate \lambda beschrieben. Im folgenden sind daher immer zwei Formen für die Exponentialverteilung angebeben. Die Dichtefunktion ist gegeben als:

f(t) = 
\begin{cases} 
  \tfrac{1}{\tau}e^{-\frac{t}{\tau}}  & \mbox{fuer }t > 0 \\
  0 & \mbox{sonst}
\end{cases}\qquad f(t) =
\begin{cases} 
  \lambda e^{-\lambda\tau}  & \mbox{fuer }t > 0 \\
  0 & \mbox{sonst}
\end{cases}

Die Verteilungsfunktion ist gegeben als

F(t) = 
\begin{cases} 
  1 - e^{-\frac{t}{\tau}}  & \mbox{fuer }t > 0 \\
  0 & \mbox{sonst}
\end{cases}\qquad F(t) =
\begin{cases} 
  1 - e^{-\lambda t}  & \mbox{fuer }t > 0 \\
  0 & \mbox{sonst}
\end{cases}

Der Erwartungswert ist dann

E(T) = \tau\qquad E(T) = \frac{1}{\lambda}

und die Varianz ist

Var(T) = \tau^2\qquad Var(T) = \frac{1}{\lambda}

Die Exponentialverteilung ist ein Modell fuer die zufaellige Dauer von Zeitintervallen. Eine wichtige Anwendung der Exponentialverteilung ist die Errechnung der "Mean Time Between Failure", also der durschnittlichen Lebenserwartung, von Bauteilen die keiner Alterung unterliegen.


Siehe auch die Exponentialverteilung auf der deutschen Wikipedia. Im Skriptum wird die Exponentialverteilung auch in Kapitel 9.3.1, S. 125 ff. behandelt.

Lognormalverteilung

X \approx N(\sigma, \sigma^2), Y = e^X. Y folgt Lognormalverteilung

Wie lässt sich die Binomialverteilung durch die Normalverteilung annähern?

Für große Werte von n lässt sich die Binomialverteilung durch die Normalverteilung mit dem Mittelwert μ = np und der Varianz \sigma^2 = np(1-p) gut annähern. Für Werte von p nahe 0 oder 1 ist die Verteilung allerdings recht schief, für p nahe 0.5 ist die Annäherung recht gut.

Analytische Statistik

Was ist eine Stichprobe?

Eine Untermenge einer Population heißt Stichprobe. Mathematisch gesehen stellt sie einen n-dimensionalen Zufallsvektor (X_1, \dots, X_n) mit unabhängig und identisch verteilten Elementen X_i dar. Die Stichprobenwerte (x_1, \dots, x_n) sind eine Realisation dieses Zufallsvektors. Damit mit einfachen Mitteln Aussagen über die Verteilung oder ihre Parameter gemacht werden können, müssen die Stichprobenwerte zufällig aus der Population gewählt werden.

Was ist ein Schätzer? Wann ist er erwartungstreu, konsistent, oder effizient?

Ein Schätzer (auch eine Schätzfunktion genannt, siehe auch Skriptum Kap. 5.2, S. 76) t berechnet einen Parameter q einer Verteilung näherungsweise aus Stichprobenwerten:

\hat{\theta} = t(x_1, \dots, x_n)

Eine Funktion der Stichprobe wird allgemein als Statistik bezeichnet (und ist auch eine Zufallsvariable). Eine Realisation eines Schätzers heißt Schätzwert oder Schätzung.

Eine Schätzfunktion heißt erwartungstreu, wenn der Erwartungswert der Schätzfunktion den geschätzten Parameter ergibt.

Eine Schätzfunktion heißt konsistent, wenn sie sich mit wachsendem n (größerer Stichprobe) immer mehr dem geschätzten Parameter nähert, d. h. ihre Varianz kleiner wird.

Ein Schätzer ist dann effizient, wenn er die kleinstmögliche Varianz aufweist.

Was ist ein Konfidenzintervall?

Ein (1-\alpha)-Konfidenzintervall für einen Parameter ist ein Intervall um den geschätzten Parameter, in dem der tatsächliche Parameter mit der Überdeckungswahrscheinlichkeit 1-\alpha liegt. \alpha heißt dabei Konfidenzzahl.

Konfidenzintervall für \mu (siehe auch Kapitel 5.3, S. 79)
\bigg(\bar{x} - z_{1-\tfrac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{1-\tfrac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\bigg)
Konfidenzintervall für \sigma^2 (siehe auch Kapitel 5.8.1, S. 97)
\Bigg( \frac{(n-1) \cdot S^2}{\chi^2_{n-1;1-\tfrac{\alpha}{2}}}, \frac{(n-1) \cdot S^2}{\chi^2_{n-1;\tfrac{\alpha}{2}}}\Bigg)

Was ist eine Hypothese? Was ist die Nullhypothese, was die Alternative? Fehler 1./2. Art?

Hypothesen

Unter Hypothese versteht man in der Statistik eine anhand empirischer Daten zu prüfende Annahme.

Eine Nullhypothese (H_0) ist eine Annahme (z.B. über die Verteilung einer Zufallsvariablen oder den Wert eines Parameters), die getestet werden soll.

Die Alternativhypothese (H_1) steht für eine Menge von alternativen Annahmen bezüglich der Nullhypothese. Falls die Nullhypothese nicht verworfen werden kann, besteht aus statistischer Sicht allerdings kein Grund, von ihrer Gültigkeit auszugehen (vgl. Fehler 2. Art).

Die Teststatistik ist eine nach einer bestimmten Vorschrift berechnete Zufallsvariable. Fällt der Wert der Teststatistik in den so genannten kritischen Bereich, wird die Nullhypothese verworfen und H_1 angenommen.

Fehlerwahrscheinlichkeiten

Die Fehlerwahrscheinlichkeit 1. Art ("\alpha-Fehler") gibt die Wahrscheinlichkeit an, dass die richtige Hypothese abgelehnt wird ("false positive"). Er passiert mit der Wahrscheinlichkeit \alpha (=Signifikanzniveau). Die Fehlerwahrscheinlichkeit 2. Art ("\beta-Fehler") gibt die Wahrscheinlichkeit an, dass eine falsche Hypothese als richtig angenommen wird ("false negative"). Die Fehlerwahrscheinlichkeiten können durch Vergrößern des Stichprobenumfangs verkleinert werden. Die Wahrscheinlichkeit, mit der eine falsch Nullhypothese entlarvt wird, heißt Macht oder Schärfe eines Tests und kann mit 1-\beta angegeben werden.

Siehe auch Kapitel 5.5, S. 87 und Hypothese@Wikipedia

Was ist Regression? Was ist das Regressionsproblem? Regressionsgerade? Residuen? Wie testet man auf Abhängigkeit einer Variablen x?

Das Regressionsproblem behandelt die Verteilung einer Variablen Y, wenn (mindestens) eine andere Variable x bestimmte, nicht zufällige Werte annimmt. x heißt unabhängig und ist keine Zufallsvariable. Y ist Zufallsvariable und abhängig von x, sofern Regression vorliegt. Für jeden gewählten Wert von x gibt es eine Verteilung von Y mit einem Mittelwert \mu_{y.x} und einer Varianz \sigma^2_{y.x}. Liegt einfache, lineare Regression vor, so kann die Abhängigkeit der Mittelwerte \mu_{y.x} von Y durch die Regressionsgerade angegeben werden:

\hat{y}_x = \hat{a} + \hat{b}(x-\bar{x})

Die Parameter der Regressionsgeraden \hat{a} und \hat{b} werden aus den Stichprobenwerten geschätzt, wobei man für \hat{a} den Wert \bar{y} und für \hat{b} den Quotienten \tfrac{s_{xy}}{s_x^2} verwendet. s_x^2 ist dabei die empirische Varianz der unabhängigen Variable und errechnet sich daher aus:

s_x^2 = \frac{1}{n-1} \cdot \sum_{i=1}^n(x_i - \bar{x})

Die empirische Kovarianz s_{xy} ergibt sich aus der Summe aller Produkte von Mittelabweichungen beider Variablen dividiert durch n-1 Freiheitsgrade:

s_{xy} = \frac{1}{n-1} \cdot \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) = \frac{1}{n-1}\Big(\sum(x_iy_i) - n\bar{x}\bar{y}\Big)

Auch die Varianz der Beobachtungen s^2 kann geschätzt werden durch:

s^2 = \frac{1}{n-2}\cdot \sum_{i=1}^n(y_i-\hat{y}_i)^2 = \frac{n-1}{n-2}(s_y^2 - \hat{b}^2s_x^2)

Die Differenzen zwischen gemessenen und geschätzten Werten y_i - \bar{y} nennt man auch Residuen. Die Gerade wird so gewählt, dass die Summe der quadrierten Residuen minimal wird.

Nimmt man die Verteilung von Y für jedes x als normal an, kann man Konfidenzintervalle für die Parameter a, b, \sigma^2 und \mu_{y.x} angeben (mit Hilfe der Parameterschätzungen und der t-Verteilung, siehe Kapitel 7.3.1, S. 114).

Test auf Regression (Test auf Abhängigkeit)

Die Nullhypothese H_0: b = 0 besagt, dass alle Mittelwerte von Y gleich sind (Alternative H_1: b \ne 0) und daher keine Regression vorliegt. Als Teststatistik verwendet man:

T = \frac{\hat{b} \cdot s_x \cdot \sqrt{n-1}}{S} = \hat{b}\cdot\sqrt{\frac{s_x^2 \cdot (n-1)}{s^2}}

und der kritische Bereich ist:

|T| > t_{n-2;1-\tfrac{\alpha}{2}},

Da der hier der Betrag |T| angegeben ist, handelt es sich eigentlich um einen zweiseitig begrenzten Bereich, daher ist 1-\tfrac{\alpha}{2} zu nehmen.

Was ist Korrelation? Was ist das Korrelationsproblem? Was sind Kovarianz, empirische Kovarianz und Korrelationskoeffizient? Wie testet man auf Unkorreliertheit?

Das Korrelationsproblem behandelt die Frage, ob Korrelation vorliegt. Dies ist der Fall, wenn es einen Zusammenhang zwischen den Verteilungen zweier Zufallsvariablen X und Y gibt. Es wird also die gemeinsame Verteilung von X und Y betrachtet, ohne eine Variable zu fixieren. Oft geht man in solchen Problemen von einer bivariaten Normalverteilung aus. Für jedes X gibt es eine Verteilung von Y und umgekehrt.

Die Korrelation ρ zwischen X und Y ergibt sich aus der Kovarianz \sigma_{XY} dividiert durch das Produkt der beiden Standardabweichungen \sigma_X und \sigma_Y und ist eine dimensionslose Größe im Intervall (–1,1); bei ρ = 0 sind X und Y unabhängig.

Als Schätzung verwendet man den empirischen Korrelationskoeffizienten, welcher sich wiederum aus der empirischen Kovarianz s_{XY}, dividiert durch das Produkt der empirischen Standardabweichungen s_X und s_Y berechnet:

\rho_{XY} = \frac{\sigma_{XY}}{\sigma_X\cdot\sigma_Y} \qquad r_{XY} = \frac{s_{XY}}{s_X\cdot s_Y}

Test auf Unkorreliertheit

Für den Test auf Unkorreliertheit (Test auf Unabhängigkeit) sind H_0:\rho = 0 und H_1: \rho \ne 0. Der kritische Bereich ist:

|T| > t_{n-2;1-\frac{\alpha}{2}}

und als Teststatistik verwendet man:

T = R \cdot \sqrt{\frac{n-1}{1-R^2}}

wobei R die Zufallsvariable bezeichnet, die die Werte des empirischen Korrelationskoeffizienten r_{XY} annimmt.

Wozu dienen 1-Stichproben-t-Test und 2-Stichproben-t-Test?

Man vergleicht damit die Mittel zweier Populationen untereinander (2-Stichproben-t-Test) oder man vergleicht das Mittel einer Population mit einem vorgegebenen Wert (1-Stichproben-t-Test, nur bei unbekannter Standardabweichung).


1-Stichproben-t-Test

Hypothesen:

H_0: \mu = \mu_0, \qquad H_1: \mu > \mu_0

Teststatistik:

T = \mu_0 + \frac{S}{\sqrt{n}}\cdot t_{n-1;1-\alpha}

Kritischer Bereich:

\bar{X} > T


2-Stichproben-t-Test

Hypothesen:

H_0: \mu_x = \mu_y, \qquad H_1: \mu_x \ne \mu_y

Teststatistik:

T = \frac{\bar{X}-\bar{Y}}{\sqrt{ \frac{(n_1-1)s_x^2 + (n_2+1)s_y^2}{n_1+n_2-2} \cdot (\frac{1}{n_1} + \frac{1}{n_2})}} = \sqrt{\frac{n_1n_2(n_1+n_2-2)}{n_1+n_2}} \cdot \frac{\bar{X}-\bar{Y}}{\sqrt{(n_1-1)s_x^2 + (n_2-1)s_y^2}}

Kritischer Bereich:

-t_{n-1;1-\tfrac{\alpha}{2}} < T < t_{n-1;1-\tfrac{\alpha}{2}}

Wozu dient der \chi^2-Anpassungstest?

Mit Hilfe dieses Tests kann man eine Hypothese über die Form einer Verteilung prüfen. Dazu teilt man die Stichprobe in k Klassen ein und berechnet die Teststatistik:

T = \sum_{i=1}^k\frac{(h_i-e_i)^2}{e_i}

wobei h_i die Häufigkeiten und e_i die theoretischen Wahrscheinlichkeiten (aufgrund der mit H_0 angenommenen Verteilung) p_i multipliziert mit n sind.

Als kritischen Bereich nimmt man:

 T > \chi_{k-1;1-\alpha}^2

Wozu dient der Kolgorov-Smirnov-Test?

Man testet damit, ob eine hypothetische Verteilung F_0 zugrunde liegt, indem man die absolute Differenz zwischen empirischer und hypothetischer Verteilungsfunktion betrachtet.

Was geschieht bei der Varianzanalyse? Was steht in der Varianzanalyse-Tafel?

Eine betrachtete Größe weist oft eine Variation auf, die sich aus zufälliger Variation sowie Variation durch einen bestimmten Einfluss zusammensetzt. In der Varianzanalyse trennt man diese beiden Variationen (Varianzzerlegung). Dazu wird die Quadratsumme (Summe der Abweichungen vom Stichprobenmittel) zerlegt.

Mit Hilfe der Varianzanalyse kann man die Mittelwerte von k Normalverteilungen vergleichen. Man nimmt H_0: \mu_1 = \mu_2 = \dots = \mu_k gegen H_1: \mu_r \ne \mu_s für mindestens ein r \ne s. Danach berechnet man die Quadratsumme innerhalb jeder Stichprobe q_I und die Quadratsumme zwischen den Stichproben q_Z:

q_I = \sum_{j=1}^{k}\sum_{i=1}^{n_j}(\bar{x}_{ij} - \bar{x}_j)^2 = \sum_{j=1}^{k}(n-1) \cdot s_{x_j}^2
q_Z = \sum_{j=1}^{k}\sum_{i=1}^{n_j}(\bar{x}_j - \bar{x})^2

Die Varianzanalyse-Tabelle sieht so aus:

Variation Freiheitsgrade
FG
Quadratsumme
q
mittlere Quadratsumme
s^2

F
Zwischen den Graden k-1 q_Z s_Z^2 = \frac{q_Z}{k-1} \frac{(n-k)\cdot q_Z}{(k-1)\cdot q_I}
Innerhalb der Grade n-k q_I s_I^2 = \frac{q_I}{n-k}
Total n-1 q


Der Wert der Teststatistik F wird nun gegen den kritischen Bereich getestet:

H_0: \mu_1 = \mu_2 = \dots = \mu_k, \qquad H_1: \mu_r \ne \mu_s für mindestens ein r\ne s

Teststatistik:

F = \frac{s_z^2}{s_I^2}

Kritischer Bereich:

F > F_{k-1;n-k;1-\alpha}

Was ist das Klassifizierungsproblem? Was ist eine Kontingenztafel?

Oft möchte man Dinge zählen, die in bestimmte Kategorien fallen. Es gibt das einfache Klassifizierungsproblem (z.B. 4 Klassen für Aussehen von Erbsen nach Kreuzungsversuch) und das zweifache Klassifizierungsproblem (z.B. Haarfarbe und Augenfarbe). Man hat jeweils vorgegebene theoretische Häufigkeiten und untersucht, ob die Abweichungen der tatsächlichen Häufigkeiten von ersteren nur zufälliger Natur sind. Eine Tabelle, die die absoluten Häufigkeiten der Merkmale gemeinsam darstellt, heißt Kontingenztafel. Teststatistik: T = \sum\frac{(h_i - e_i)^2}{e_i}

Die Kontingenztafel sieht im einfachen Fall so aus (siehe auch Kapitel 8.1, S. 119):

Klassen beobachtet theoretisch h_j - e_j \tfrac{(h_j - e_j)^2}{e_j}
Klasse 1 h_1 e_1 ... ...
Klasse 2 h_2 e_2 ... ...
Klasse ... ... ... ... ...
Klasse k h_k e_k ... ...
Total h_1 + \dots + h_k e_1 + \dots + e_k ... ...


Und beim Problem der zweifachen Klassifizierung ist das ganze naturgemäß umfangreicher. In der nachfolgenden Tabelle gibt es r Klassen für Merkmal A und c Klassen fuer Merkmal B. Die Einzelnen Zellen geben jeweils die tatsächlich auftretende Häufigkeit (h_{..}) und in Klammer die erwartete Häufigkeit (e_{..}) an:

Merkmal B
Merkmal A B_1 B_2 \ldots B_c \sum
A_1 h_{11}(\hat{e}_{11}) h_{12}(\hat{e}_{12}) \ldots h_{1c}(\hat{e}_{1c}) h_{1.}
A_2 h_{21}(\hat{e}_{21}) h_{22}(\hat{e}_{22}) \ldots h_{2c}(\hat{e}_{2c}) h_{2.}
\vdots \vdots \vdots \vdots \vdots \vdots
A_r h_{r1}(\hat{e}_{r1}) h_{r2}(\hat{e}_{r2}) \ldots h_{rc}(\hat{e}_{rc}) h_{r.}
\sum h_{.1} h_{.2} \ldots h_{.c} h_{..} = n

Ein praktisches Beispiel kann in Kapitel 8.2, S. 120 bewundert werden.

Was macht die likelihood-Funktion? Was ist die Maximum-Likelihood-Methode?

Die Maximum-Likelihood-Methode soll einen brauchbaren Schätzer für Parameter einer Verteilung finden, indem sie jenen Wert des Parameters wählt, der die Stichprobe als wahrscheinlichstes Resultat erscheinen lässt. Dazu der Parameter θ so gewählt, dass die Likelihood-Funktion l(\theta; x_1, \dots, x_n) = f_\theta(x_1)\cdot\dots\cdot f_\theta(x_n) ein Maximum annimmt (f ist die Dichtefunktion der Verteilung).

Was besagt der zentrale Grenzwertsatz?

Besitzt die Verteilung der Grundgesamtheit eine endliche Varianz, was meist der Fall ist, so ist die Verteilung der Mittelwerte für genügend große Stichproben annähernd normal.

Wie testet man auf Gleichheit zweier Varianzen?

Mit Hilfe des F-Tests:

H_0: \sigma_x^2 = \sigma_y^2 \qquad H_1: \sigma_x^2 > \sigma_y^2

Teststatistik:

T = \frac{s_x^2}{s_y^2}

Kritischer Bereich:

T > F_{n_1 - 1, n_2 - 1, 1-\alpha}