TU Wien:Statistik und Wahrscheinlichkeitstheorie VO (Dutter)/Ausarbeitung mündlicher Prüfungsfragen: Unterschied zwischen den Versionen

Aus VoWi
Zur Navigation springen Zur Suche springen
 
(239 dazwischenliegende Versionen von 54 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
 +
= Vorwort =
 +
Diese Ausarbeitung dient dem einfacheren und übersichtlicheren Lernen. Es sei aber gesagt, dass es wahrscheinlich nicht ausreicht nur die Fragen hier zu lernen, da nicht alles vorkommt, was auch tatsächlich gefragt wird (obwohl die Überdeckungswahrscheinlichkeit schon eher so 90% ist schätze ich) und teilweise die Ausführungen an manchen Stellen zu kurz sind. Vor allem die späteren Kapitel (die fast immer gefragt werden): Analytische Statistik, varianzanalyse, Regression/Korrelation sollte auf jeden Fall in kooperation mit dem Skriptum oder anderen Resourcen gelernt werden.
 +
 +
Anmerkung: Dutter möchte meistens auch die grafische Darstellung von Parametern wissen. Konkretes Beispiel: Wo sieht man das <math>z_{1-\frac{\alpha}{2}}</math> in der Normalverteilung?
 +
 +
Weiters sollten auch die wichtigsten Formeln auswendiggelernt werden (Teststatistiken, wie man die Parameter ausrechnet). Herleitungen werden nicht immer verlangt, geben aber sicher Bonsupunkte.
 +
 +
== Versionen ==
 +
Diese Ausarbeitung von Prüfungsfragen, die häufig zur mündlichen Prüfung kommen, wurde ursprünglich von [[f.user:768|michi204]] ausgearbeitet ([[f.post:339798|hier]] gepostet). Die Version, die dieser Version zugrunde liegt, wurde von [[f.user:7053|dodlhuat]] weiter verbessert und [[f.post:528038|hier]] gepostet. Neu strukturiert und Detail-erweitert von [[f.user:7845|For3st]] (2009/08).
 +
 +
= Beschreibende Statistik =
 +
 +
== Welche Momente einer Verteilung gibt es? ==
 +
Siehe auch {{DutterSkriptum|20|Kapitel 3.3, S. 25 ff.}}.
 +
=== 1. Momente (Lageparameter) ===
 +
* Der '''Mittelwert''' oder Erwartungswert ("arithmetische Mittel"): <math>\bar{x} = \frac{1}{n}\cdot\sum_{i=1}^n x_i</math>
 +
* Der '''Median''' ist der mittlere Wert einer geordneten Stichprobe bzw. das arithmetische Mittel der beiden mittleren Werte bzw. er ist das 50%-Quantil ( siehe Quantil).
 +
* Der '''Modus''' oder Modalwert ist der häufigste Wert einer Verteilung. Sind mehrere Werte gleich häufig, wird die Mitte dieser Werte angenommen, falls die Werte nebeneinander liegen, ansonsten ist der Modalwert undefiniert.
 +
* Bei einem '''<math>\alpha</math>-Quantil''' <math>Q_\alpha</math> ist ein <math>\alpha</math>-Anteil der Verteilung kleiner oder gleich ''und'' ein (<math>1-\alpha</math>)-Anteil grösser oder gleich <math>Q_\alpha</math>. Der Wert der Verteilungsfunktion <math>F(x)</math> ergibt also für das <math>\alpha</math>-Quantil genau <math>F(Q_\alpha) = \alpha</math>.
 +
* Ein '''Perzentil''' <math>P_\alpha</math> ist analog, nur mit Prozentangaben, definiert.
 +
* '''Quartile''' sind die .25- bzw. .75-Quantile (identisch mit den 25%- und 75%-Perzentilen).
 +
 +
=== 2. Momente (Streuungsparameter) ===
 +
* Die '''Varianz''' ist das mittlere Abstandsquadrat vom Mittelwert: <math>s^2 = \frac{1}{n-1} \cdot \sum(x_i - \bar{x})^2</math>.
 +
* Die '''Standardabweichung''' oder Streuung ist die Wurzel der Varianz, also <math>s = \sqrt{s^2}</math>. Eine "grobe Faustformel" für die Streuung ist <math>\frac{Maximalwert - Minimalwert}{3}</math>
 +
* Der '''Interquartilabstand IQR''' <math>IQR = Q_{0,75} - Q_{0,25}</math> ACHTUNG: <math>s_{IQR} = \frac{Q_{0,75} - Q_{0,25}}{1,349}</math> ist die approximierte Standardabweichung durch den IQR. Das ist nicht der IQR selber.
 +
* Der Median der absoluten Abweichung vom Median '''Medmed''' <math>s_{Medmed} = \frac{1}{0,6745} \cdot med(|x_i - median|)</math>
 +
 +
=== 3. Moment (Schiefe) ===
 +
Die [[de.wikipedia:Schiefe (Statistik)|Schiefe]] ist grösser als Null wenn es mehr positive als negative Abweichungen vom
 +
Mittelwert gibt:
 +
<center><math>\frac{\frac{1}{n} \cdot \sum(x_i-\bar{x})^3}{s^3}</math></center>
 +
 +
=== 4. Moment (Kurtosis) ===
 +
[[Bild:kurtosis.png|thumb|Kurtosis mit unterschiedlichen Parametern. flache Wölbung: negative Kurtosis, spitze Wölbung: positive Kurtosis]]
 +
Die [[de.wikipedia:Kurtosis|Kurtosis]] (auch Wölbung oder Exzess) wird auch "heavy tails" genannt, sie ist ein Maß für die "Flachheit einer Verteilung".
 +
<center><math>\frac{\frac{1}{n} \cdot \sum(x_i - \bar{x})^4}{s^4} - 3</math></center>
 +
 +
Bei Schiefe und Kurtosis hat es sich eingebürgert, einfach durch n zu dividieren. Durch das Subtrahieren von 3 hat die N(0,1)-Verteilung eine Kurtosis von 0.
 +
 +
== Was ist das Messniveau? Welche Skalen gibt es, was charakterisiert sie, welche Momente sind dort verwendbar? ==
 +
Das Messniveau gibt eine Unterteilung in verschiedene Datentypen / Skalen vor:
 +
 +
; Nominalskala : z.B. Geschlecht: keine Ordnung, Modalwert
 +
; Ordinalskala : z.B. Schulnoten: Ordnung, aber keine Abstände: Modalwert, Median, Quantile
 +
; Intervallskala : z.B. Temperatur [[de.wikipedia:Grad Celsius|°C]]: Ordnung, Abstände, kein abs. Nullpunkt: Modalwert, Median, Quantile, Mittel
 +
; Verhältnisskala : z.B. Temperatur in [[de.wikipedia:Kelvin|Kelvin]]: Ordnung, Abstände, absoluter Nullpunkt: Modalwert, Median, Quantile, Mittel
 +
 +
== Was ist der MedMed? ==
 +
Der MedMed, oder kurz MAD (Median Absolute Deviation) ist ein robustes Streuungsmaß. Es wird berechnet, indem man den Median berechnet und dann alle Abweichungen der Datenwerte von Median berechnet. Diese Abweichungen sortiert man nun der Größe nach und wählt wieder den Median (daher auch der Name MedMed).
 +
 +
Achtung: Bei der Verwendung des MedMed gibt es einen Faktor zu berücksichtigen, damit der Wert des MAD mit der Standardabweichung vergleichbar ist! Ähnliches gilt beim durch den IQR (Inter-Quartil-Range) approximierte Standardabweichung <math>s_{IQR}</math>
 +
 +
== Was ist die Varianz? Warum n-1 Freiheitsgrade? ==
 +
Die [[de.wikipedia:Varianz|Varianz]] ist ein Maß, das beschreibt, wie stark eine Messgröße (genauer eine Zufallsgröße) „streut“. Sie wird berechnet, indem man die Abstände der Messwerte vom Mittelwert quadriert, addiert und durch die Anzahl der Messwerte teilt.
 +
 +
Die Formel:
 +
<center><math>s^2 = \frac{1}{n-1} \cdot \sum (x_i - \bar{x})^2</math></center>
 +
(manchmal "korrigierte Stichprobenvarianz" oder "empirische Varianz" genannt, meist mit s² statt σ² dargestellt)
 +
 +
Man geht von n unabhängigen Stichprobenwerten aus, also n [http://de.wikipedia.org/wiki/Freiheitsgrad_%28Statistik%29 Freiheitsgraden]. Da man jedoch die Differenz vom bereits bekannten Mittelwert bildet und die Summe aller Abweichungen 0 ist, kennt man bei n-1 Abweichungen bereits auch die letzte Abweichung, daher n-1 Freiheitsgrade. Ein nicht unerwünschter Nebeneffekt ist, das die Varianz nun für n=1 nicht definiert ist statt 0.
 +
 +
Video wo rechnerisch skizziert wird warum die Formel mit dem n-1 eine bessere Erwartungstreue hat: [http://www.youtube.com/watch?v=PEPn0rTr9Tc]
 +
 +
[https://de.wikipedia.org/wiki/Korrigierte_Stichprobenvarianz#Erwartungstreue_Sch.C3.A4tzung_der_Varianz_der_Grundgesamtheit Wikipedia] rechnet die Erwartungstreue auch vor.
 +
 +
== Was ist die Standardabweichung? ==
 +
Die Standardabweichung (oder Streuung) ist die mittlere Abweichung vom arithmetischen Mittel einer Verteilung. Sie berechnet sich aus der Quadratwurzel der Varianz und ist ein Streuungsmaß, gibt also die Breite der Verteilung an. Eine sehr grobe Schätzung für die Standardabweichung lautet: <math>\frac{Maximalwert - Minimalwert}{3}</math>
 +
 
= Wahrscheinlichkeitstheorie =
 
= Wahrscheinlichkeitstheorie =
  
 
== (Elementar-)Ereignisse, Ereignisalgebra, Ereignisraum, Operationen, Borel-Mengen ==
 
== (Elementar-)Ereignisse, Ereignisalgebra, Ereignisraum, Operationen, Borel-Mengen ==
Führt man einen Versuch (z.B. Würfeln mit 2 Würfeln) durch, kann dieser  
+
Siehe auch Kapitel 4.1
verschiedene Versuchsausgänge haben ((1,1), (1,2), … , (6,6)). Die Menge  
+
 
aller möglichen Versuchsausgänge heißt , und jede Teilmenge (z.B. 2 gleiche =  
+
Führt man einen Versuch (z.B. Würfeln mit 2 Würfeln) durch, kann dieser verschiedene Versuchsausgänge haben ((1,1), (1,2), … , (6,6)). Die Menge aller möglichen Versuchsausgänge heißt Ω (Stichprobenraum), und jede Teilmenge (z.B. 2 gleiche = {(1,1),(2,2), …, (6,6)} heißt Ereignis, einpunktige Teilmengen (z.B. (1,1)) heißen '''Elementarereignisse'''.  
{(1,1),(2,2), …, (6,6)} heißt Ereignis, einpunktige Teilmengen (z.B. (1,1))  
 
heißen '''Elementarereignisse'''.  
 
  
  
Zeile 13: Zeile 80:
 
* Vereinigung ("A oder B": <math>A \cup B</math>)
 
* Vereinigung ("A oder B": <math>A \cup B</math>)
 
* Komplementbildung ("nicht A": <math>A^c</math>)
 
* Komplementbildung ("nicht A": <math>A^c</math>)
Das unmögliche Ereignis Ø und das sichere Ereignis Ω sind Sonderfälle.
 
  
 +
Besondere Ergeinisse:
 +
* Das unmögliche Ereignis Ø zb: <math>A \cap A^c</math>
 +
* Das sichere Ereignis Ω zb: <math>A \cup A^c</math>
  
Ereignisse können disjunkt sein (ihr Durchschnitt ist leer). Ein Ereignis A kann ein anderes B implizieren (<math>A \subset B</math>), dh A ist in B enthalten. Eine Reihe von Ereignissen ist genau dann Zerlegung eines anderen Ereignisses, wenn ihre Vereinigung das andere Ereignis ergibt und sie alle disjunkt sind. Die deMorgan- Regeln gelten:  
+
 
 +
Ereignisse können disjunkt sein (ihr Durchschnitt ist leer). Ein Ereignis A kann ein anderes B implizieren (<math>A \subset B</math>), dh A ist in B enthalten. Eine Reihe von Ereignissen ist genau dann Zerlegung eines anderen Ereignisses, wenn ihre Vereinigung das andere Ereignis ergibt und sie alle disjunkt sind. Die Regeln von De Morgan gilt daher:  
 
<center><math>A \cap B = (A^c \cup B^c)^c</math></center>
 
<center><math>A \cap B = (A^c \cup B^c)^c</math></center>
 
und  
 
und  
<center><math>A \cup B = (A^c \cap B^c)^c</math></center>
+
<center><math>A \cup B = (A^c \cap B^c)^c</math>.</center>
Die Menge aller betrachteten Ereignisse dh die Menge aller Teilmengen von Ω heißt Ereignisraum A (z.B. <math>{{(1,1)},{1,1} \cup {1,2}, }</math>). Zusammen mit den Operationen und Ø heißt der Ereignisraum '''Ereignisalgebra'''. Ist diese bezüglich Vereinigung und Komplementbildung abgeschlossen, heißt sie '''Ereignis-σ-Algebra'''.  
+
Die Menge aller betrachteten Ereignisse daher die Menge aller Teilmengen von Ω heißt '''Ereignisraum''' A (z.B. <math>\{\{(1,1)\}, \{1,1\} \cup \{1,2\}, \dots\}</math>). Zusammen mit den Operationen (Durchschnitt, Vereinigung, Komplementbildung), dem sicheren Ereignis Ω und Ø (unmögliches Ereignis) heißt der Ereignisraum '''Ereignisalgebra'''. Ist diese bezüglich Vereinigung und Komplementbildung abgeschlossen, heißt sie '''Ereignis-σ-Algebra'''.  
  
Ist die Menge aller möglichen Versuchsausgänge R, so betrachtet man nicht einfach P(R), sondern nimmt die Menge aller links halboffenen Intervalle sowie Vereinigungen und Komplemente dieser. Die kleinste σ-Algebra, die all diese Mengen enthält, heißt '''borelsche σ-Algebra''' B, Teilmengen davon '''Borel-Mengen'''.
+
Ist die Menge aller möglichen Versuchsausgänge <math>\mathbb{R}</math>, und nimmt man als Ereignisalgebra die Menge aller links halboffenen Intervalle sowie Vereinigungen und Komplemente dieser, dann ist die kleinste σ-Algebra, die all diese Mengen enthält, die '''[[de.Wikipedia:Borelsche σ-Algebra|borelsche σ-Algebra]]''' B, Teilmengen davon '''Borel-Mengen'''.
  
 
== Welche Arten von Wahrscheinlichkeiten gibt es? ==
 
== Welche Arten von Wahrscheinlichkeiten gibt es? ==
Zeile 28: Zeile 98:
  
 
== Was ist ein Wahrscheinlichkeitsmaß? ==
 
== Was ist ein Wahrscheinlichkeitsmaß? ==
Ein Maß μ weist jedem Elementarereignis aus Ω und damit jedem Ereignis aus A ein Gewicht zu, ist also eine Funktion vom Ereignisraum A in Ω. Für Maße gilt natürlich σ- Additivität, dh die Summe aller Maße einer Zerlegung eines Ereignisses ergibt das Maß dieses Ereignisses. Gilt auch μ() = 1, hat man ein '''Wahrscheinlichkeitsmaß''', und man schreibt fortan P statt μ. Die Wahrscheinlichkeit eines Ereignisses ist dann die Summe der Wahrscheinlichkeiten seiner Elementarereignisse. Sind alle Gewichte gleich, ist die Wahrscheinlichkeit eines Ereignisses gleich der Anzahl der günstigen dividiert durch die Anzahl der möglichen Elementarereignisse.  
+
Siehe auch {{DutterSkriptum|30|Kapitel 4.2 (S. 39)}}.
 +
 
 +
Ein Maß μ weist jedem Elementarereignis aus Ω und damit jedem Ereignis aus A ein Gewicht zu, ist also eine Funktion vom Ereignisraum A in <math>[0,\infty]</math>. Für Maße gilt natürlich σ- Additivität, dh die Summe aller Maße einer Zerlegung eines Ereignisses ergibt das Maß dieses Ereignisses. Gilt auch μ(Ω) = 1, hat man ein '''Wahrscheinlichkeitsmaß''', und man schreibt fortan P statt μ. Die Wahrscheinlichkeit eines Ereignisses ist dann die Summe der Wahrscheinlichkeiten seiner Elementarereignisse. Sind alle Gewichte gleich, ist die Wahrscheinlichkeit eines Ereignisses gleich der Anzahl der günstigen dividiert durch die Anzahl der möglichen Elementarereignisse.  
  
 
Rechenregeln:  
 
Rechenregeln:  
<center><math>P(A) = 1 - P(A^c)</math></center>
+
<center><math>P(A) = 1 - P(A^c)</math></center><br />
und
+
<center><math>P(A - B) = P (A) - P (A \cap B)</math></center><br />
<center><math>P (A - B) = P (A) - P (A \cap B)</math></center>
+
<center><math>P(A\cup B) = P(A) + P(B) - P(A\cap B)</math></center>
und
 
 
 
* TODO: Da fehlt offensichtlich was.
 
* TODO: Ich glaube das sollte oben "μ('''Ω''') = 1" heissen. Nachpruefen!
 
  
 
== Was ist ein Wahrscheinlichkeitsraum? ==
 
== Was ist ein Wahrscheinlichkeitsraum? ==
Die Menge aller möglichen Versuchsausgänge zusammen mit der darauf definierten σ-Algebra A und einem Wahrscheinlichkeitsmaß P (A[0,∞]) bilden zusammen einen '''Wahrscheinlichkeitsraum (Ω, A, P)'''.
+
Die Menge aller möglichen Versuchsausgänge Ω zusammen mit der darauf definierten σ-Algebra <math>\mathfrak{A}</math>
 +
<ref name="Altdeutsch"> und einem Wahrscheinlichkeitsmaß P auf <math>\mathfrak{A}</math><ref name="Altdeutsch" /> bilden zusammen einen '''Wahrscheinlichkeitsraum (Ω, <math>\mathfrak{A}</math><ref name="Altdeutsch" />, P)'''.
  
* TODO: Wird das Wahrscheinlichkeitsmass tatsaechlich so dargestellt?
+
'''Hinweis zur Notation:''' Da MediaWiki zwar Latex kann, aber nur einen Teil der LaTeX Syntax und insbesondere keine [http://de.wikipedia.org/wiki/S%C3%BCtterlinschrift Sütterlinschrift] darstellen kann, wird das Sütterlin-A und B (verwendet für <math>\sigma</math>-Algebren) als kalligraphisches A bzw. B dargestellt. Aus dem A (ähnlich einem klein geschriebenen A nur viel grösser) wird daher in dieser Ausarbeitung <math>\mathfrak{A}</math>, aus einem altdeutschen B (ähnlich einem in Lateinschrift geschriebenen L) wird ein <math>\mathfrak{B}</math>.</ref>
  
 
== Was ist eine bedingte Wahrscheinlichkeit? Was bedeutet Unabhängigkeit von Ereignissen? ==
 
== Was ist eine bedingte Wahrscheinlichkeit? Was bedeutet Unabhängigkeit von Ereignissen? ==
 
Durch das Vorwissen wird der Ereignisraum eingeschränkt, sodass die Wahrscheinlichkeiten sich ändern (z.B. 1 Würfel mit den Ereignissen A: "Zahl≤3" und B: "Zahl=1". Dann ist <math>P(B) = \tfrac{1}{6}</math>, aber es gilt <math>P(B|A) = \tfrac{1}{3}</math>).  
 
Durch das Vorwissen wird der Ereignisraum eingeschränkt, sodass die Wahrscheinlichkeiten sich ändern (z.B. 1 Würfel mit den Ereignissen A: "Zahl≤3" und B: "Zahl=1". Dann ist <math>P(B) = \tfrac{1}{6}</math>, aber es gilt <math>P(B|A) = \tfrac{1}{3}</math>).  
  
Es gilt: <math> P(A|B) = \tfrac{P(A \cap B)}{P(B)}</math>, also einfach die Wahrscheinlichkeit für A und B, normiert auf den durch den Eintritt von B bereits eingeschränkten Ereignisraum. Wenn der Eintritt von B keinen Einfluss mehr hat, daher P(A|B) = P(A), nennt man die Ereignisse A und B unabhängig. Aus obiger Formel erhält man ganz einfach: <math>P(A \cap B) = P(A|B) \cdot P(B)</math>. Für unabhängige Ereignisse gilt dann wegen <math>P(A|B) = P(A)</math> ganz einfach: <math>P(A \cap B) = P(A) \cdot P(B)</math>.
+
Es gilt: <math> P(B|A) = \tfrac{P(B \cap A)}{P(A)}</math>, also die Wahrscheinlichkeit für A und B, normiert auf den durch den Eintritt von A bereits eingeschränkten Ereignisraum. Wenn der Eintritt von A keinen Einfluss mehr hat, daher P(B|A) = P(B), nennt man die Ereignisse A und B unabhängig. Aus obiger Formel erhält man: <math>P(B \cap A) = P(B|A) \cdot P(A)</math>. Für unabhängige Ereignisse gilt dann wegen <math>P(B|A) = P(B)</math> -> <math>P(B \cap A) = P(B) \cdot P(A)</math>.
  
 
== Was ist eine Zufallsvariable? Wann ist sie diskret/kontinuierlich? Was ist eine Dichtefunktion? Was ist eine Verteilungsfunktion? Transformationen von Zufallsvariablen? ==
 
== Was ist eine Zufallsvariable? Wann ist sie diskret/kontinuierlich? Was ist eine Dichtefunktion? Was ist eine Verteilungsfunktion? Transformationen von Zufallsvariablen? ==
Eine Zufallsvariable ist formal eine Abbildung von einem Wahrscheinlichkeitsraum (Ω, A, P) in einen einfacheren (Ω, B, P1). Jede Menge B aus B muss ein Urbild <math>X^{-1}(B)</math> als Element aus A besitzen. Eine diskrete Zufallsvariable kann höchstens abzählbar viele verschiedene Werte annehmen.  
+
Eine Zufallsvariable ist formal eine Abbildung von einem Wahrscheinlichkeitsraum <math>(\Omega,\mathfrak{A}, P)</math><ref name="Altdeutsch" /> in einen einfacheren <math>(\Omega,\mathfrak{B}, P_1)</math><ref name="Altdeutsch" />. Jede Menge B aus <math>\mathfrak{B}</math><ref name="Altdeutsch" /> muss ein Urbild <math>A = X^{-1}(B)</math> besitzen.  
  
* TODO: "Jede Menge B aus B"... Die Formulierung ist ''komisch''.
+
Eine diskrete Zufallsvariable kann höchstens abzählbar viele verschiedene Werte annehmen.  
 +
<math>p_i = P(X=x_i)</math> gibt eine Punktwahrscheinlichkeit an und heißt Wahrscheinlichkeitsfunktion, und es gilt <math>\sum_{i=1}^{n}p_i = 1</math>.
  
<math>p_i = P(X=x_i)</math> gibt eine Punktwahrscheinlichkeit an und heißt Wahrscheinlichkeitsfunktion, und es gilt <math>\sum_{i-1}^{n}p_i = 1</math>. <math>F(x) = P(X \le x)</math> ist gleich der Summe über <math>p_i</math> bis x und heißt Verteilungsfunktion.  
+
<math>F(x) = P(X \le x)</math> ist gleich der Summe über <math>p_i</math> bis x und heißt Verteilungsfunktion.  
  
Eine Zufallsvariable ist stetig, wenn ihre Verteilungsfunktion absolut stetig ist, dh sie ist für alle x aus R als Integral über f darstellbar. Die Verteilungsfunktion <math>F(x) = P(X \le x)</math> ist gleich dem Integral über f bis x. f heißt Dichtefunktion und ist die Ableitung der Verteilungsfunktion.  
+
Eine Zufallsvariable ist stetig, wenn es eine nicht negative Funktion f(x) gibt ,sodass sich die Verteilungsfunktion F(x) für alle       <math>x\ \epsilon\ \mathbb{R}</math> als Integral über f darstellen lässt.
 +
 
 +
Die Verteilungsfunktion <math>F(x) = P(X \le x)</math> ist gleich dem Integral über f von <math>-\infty\  bisx</math>.
 +
f heißt Dichtefunktion und ist die Ableitung der Verteilungsfunktion.  
  
 
Transformationen von Zufallsvariablen: Addition wirkt sich nur auf den Mittelwert aus (verschiebt sich um addierten Betrag), Multiplikation wirkt sich auf die Varianz aus (diese wird dividiert). Zieht man den Mittelwert einer normalverteilten Zufallsvariablen ab und dividiert durch die Standardabweichung, erhält man eine N(0,1), also standard-normalverteilte  
 
Transformationen von Zufallsvariablen: Addition wirkt sich nur auf den Mittelwert aus (verschiebt sich um addierten Betrag), Multiplikation wirkt sich auf die Varianz aus (diese wird dividiert). Zieht man den Mittelwert einer normalverteilten Zufallsvariablen ab und dividiert durch die Standardabweichung, erhält man eine N(0,1), also standard-normalverteilte  
 
Zufallsvariable.
 
Zufallsvariable.
  
== Was sind die mathematische Erwartung und die Varianz einer Zufallsvariablen? ==
+
== Was ist ein Wahrscheinlichkeitsnetz? ==
Die Erwartung (oder der Mittelwert) einer Zufallsvariablen X ist im stetigen Fall:
+
Im Wahrscheinlichkeitsnetz trägt man die Werte einer geordneten Stichprobe sowie die empirische Verteilungsfunktion auf. Bei Normalverteilung ergibt sich durch die Anordnung der y-Achse annähernd eine Gerade. Aus der Ausgleichsgeraden lassen sich die Parameter der Verteilung grafisch schätzen.
<center><math>E(X) = \int_{-\infty}^{\infty}x \cdot f(x)dx</math></center>
+
bei 50%<math>\mu</math> und
 +
bei 84,13% s
 +
 
 +
http://de.wikipedia.org/wiki/Empirische_Verteilungsfunktion
 +
 
 +
== Was ist die mathematische Erwartung und die Varianz einer Zufallsvariablen? ==
 +
Die Erwartung (oder der Mittelwert) einer Zufallsvariablen X ist im stetigen Fall das Integral der Dichtefunktion mal h(x)=x:
 +
<center><math>E(X) = \int\limits_{-\infty}^{\infty}x \cdot f(x)dx</math></center>
 
und im diskreten Fall:
 
und im diskreten Fall:
 
<center><math>E(X) = \sum_{i=1}^{n}x_i \cdot p_i</math></center>
 
<center><math>E(X) = \sum_{i=1}^{n}x_i \cdot p_i</math></center>
 
   
 
   
 
Die Varianz einer Zufallsvariablen X ist:
 
Die Varianz einer Zufallsvariablen X ist:
<center><math>Var(X) = E(X)^2 (EX)^2</math></center>
+
<center><math>Var(X) = E(X^2)-(E(X))^2</math></center>
 +
 
 +
Dutter ist hier lieber die nicht ausmultiplizierte Form zu verwenden:
 +
<math>Var(X) = E[X - E(X)]^2</math>
  
 
Die Standardabweichung einer Zufallsvariablen ist <math>\sigma = \sqrt{Var(X)}</math>.
 
Die Standardabweichung einer Zufallsvariablen ist <math>\sigma = \sqrt{Var(X)}</math>.
  
 
== Was ist eine mehrdimensionale (multivariate) Zufallsvariable? Was ist eine Randverteilung? Wann sind zwei Zufallsvariablen voneinander unabhängig? ==
 
== Was ist eine mehrdimensionale (multivariate) Zufallsvariable? Was ist eine Randverteilung? Wann sind zwei Zufallsvariablen voneinander unabhängig? ==
 +
Siehe auch {{DutterSkriptum|39|Kapitel 4.5, S. 60 ff.}}.
 +
 
In der Praxis wird selten eine Größe alleine untersucht, da die Zusammenhänge zwischen verschiedenen Merkmalen wichtig sind. Man kann nun einen p-dimensionalen Zufallsvektor <math>(X_1, ..., X_p)</math> definieren. Verteilungsfunktion und Wahrscheinlichkeitsdichte können ähnlich wie im eindimensionalen Fall definiert werden.  
 
In der Praxis wird selten eine Größe alleine untersucht, da die Zusammenhänge zwischen verschiedenen Merkmalen wichtig sind. Man kann nun einen p-dimensionalen Zufallsvektor <math>(X_1, ..., X_p)</math> definieren. Verteilungsfunktion und Wahrscheinlichkeitsdichte können ähnlich wie im eindimensionalen Fall definiert werden.  
  
Die Verteilung der einen Zufallsvariablen für einen bestimmten Wert der anderen heißt Randverteilung.  
+
Die Verteilung einer Zufallsvariablen unabhängig vom Wert der anderen (d.h. für alle Werte der anderen) heißt Randverteilung
 +
({{DutterSkriptum|40|Kapitel 4.5.1, S. 64}}).
 +
 
 +
Zwei Zufallsvariablen X und Y sind genau dann voneinander unabhängig, wenn die Verteilungsfunktion des Zufallsvektors <math>(X, Y)</math> gleich dem Produkt der beiden Randverteilungsfunktionen ist, daher:
 +
<center><math>F(x,y) = F_X(x)*F_Y(y) \quad \forall x, y \in \R</math>.</center>
 +
 
 +
Die Randverteilung sieht folgendermaßen aus:
 +
; im diskreten [https://de.wikipedia.org/wiki/Diskrete_Teilmenge] Fall : <math>X: p_{i.} = P_{X,i} = P(X=x_i) = \sum_{j=1}^\infty p_{ij}</math><br />bzw.<br /><math>Y: p_{.j} = P_{Y,i} = P(Y=y_j) = \sum_{i=1}^\infty p_{ij}</math>
 +
; im stetigen Fall : <math>f_X(x) = \int\limits_{-\infty}^\infty f(x,y)dy</math><br />bzw.<br /><math>f_Y(y) = \int\limits_{-\infty}^\infty f(x,y)dx</math>
 +
 
 +
 
 +
{| border=1 bordercolor=black cellpadding=8 cellspacing=0
 +
|-
 +
! Y/X !! 0 !! 1 !! 2 !! 3 !!  <math>P(Y = j) = p_{.j}</math>
 +
|-
 +
| '''1''' || <math>0</math> || <math>\tfrac{3}{8}</math> || <math>\tfrac{3}{8}</math> || <math>0</math> || <math>\tfrac{6}{8}</math>
 +
|-
 +
| '''3''' || <math>\tfrac{1}{8}</math> || <math>0</math> || <math>0</math> || <math>\tfrac{1}{8}</math> || <math>\tfrac{2}{8}</math>
 +
|-
 +
| '''<math>p_{i.} = P(X = i)</math>''' || <math>\tfrac{1}{8}</math> || <math>\tfrac{3}{8}</math> || <math>\tfrac{3}{8}</math> || <math>\tfrac{1}{8}</math> || <math>1</math>
 +
|}
 +
 
 +
== Was besagt der zentrale Grenzwertsatz? ==
 +
Besitzt die Verteilung der Grundgesamtheit eine endliche Varianz, was meist der Fall ist, so ist die Verteilung der arithmetischen Mittel von Zufallsstichproben für einen genügend großen Stichprobenumfang annähernd normalverteilt.
 +
 
 +
= Analytische Statistik =
 +
 
 +
== Was ist eine Stichprobe? ==
 +
Eine Untermenge einer Population heißt Stichprobe. Mathematisch gesehen stellt sie einen n-dimensionalen Zufallsvektor <math>(X_1, \dots, X_n)</math> mit unabhängig und identisch verteilten Elementen <math>X_i</math> dar. Die Stichprobenwerte <math>(x_1, \dots, x_n)</math> sind eine Realisation dieses Zufallsvektors. Damit mit einfachen Mitteln Aussagen über die Verteilung oder ihre Parameter gemacht werden können, müssen die Stichprobenwerte zufällig aus der Population gewählt werden.
 +
 
 +
== Was ist ein Schätzer? Wann ist er erwartungstreu, konsistent, oder effizient? ==
 +
Ein '''Schätzer 't'''' (auch eine [[de.wikipedia:Schätzfunktion|Schätzfunktion]] genannt, siehe auch {{DutterSkriptum|46|Skriptum Kap. 5.2, S. 76}}) berechnet einen Parameter q einer Verteilung näherungsweise aus Stichprobenwerten:
 +
<center><math>\hat{\theta} = t(x_1, \dots, x_n)</math></center>
 +
Eine Funktion der Stichprobe wird allgemein als Statistik bezeichnet (und ist auch eine Zufallsvariable). Im Falle der Verwendung zur näherungsweisen Bestimmung (Schätzung) gewisser Kenngrößen spricht man von einem Schätzer. Eine Realisation eines Schätzers heißt Schätzwert oder Schätzung.
 +
 
 +
Eine Schätzfunktion heißt '''erwartungstreu''', wenn der Erwartungswert der Schätzfunktion den geschätzten Parameter ergibt.
 +
 
 +
Eine Schätzfunktion heißt '''konsistent''', wenn sie sich mit wachsendem n (größerer Stichprobe) immer mehr dem geschätzten Parameter nähert, d. h. ihre Varianz kleiner wird.
 +
 
 +
Ein Schätzer ist dann '''effizient''', wenn er die kleinstmögliche Varianz aufweist.
 +
 
 +
Wenn die Verteilung symetrisch ist, stellt der Median <math>\tilde{X}</math> ebenfalls einen konsistenten und erwartungstreuen Schätzer der Erwartung dar. Die Güte des  Schätzers hängt von seiner Variabilität ab, d.h. je kleiner die Varianz desto besser.
 +
(1/3 mehr Beobachtungen für <math>\tilde{X}</math> um die gleiche Genauigkeit wie bei <math>\bar{X}</math>  zu erhalten)
 +
 
 +
 
 +
siehe http://www.statistik.tuwien.ac.at/public/dutt/vorles/inf_bak/node46.html
 +
 
 +
=== Was macht die likelihood-Funktion? Was ist die Maximum-Likelihood-Methode? ===
 +
Die Maximum-Likelihood-Methode soll einen brauchbaren Schätzer für Parameter einer Verteilung finden, indem sie jenen Wert des Parameters wählt, der die Stichprobe als wahrscheinlichstes Resultat erscheinen lässt. Dazu wird der Parameter θ so gewählt, dass die Likelihood-Funktion <math>l(\theta; x_1, \dots, x_n) = f_\theta(x_1)\cdot\dots\cdot f_\theta(x_n)</math> ein Maximum annimmt (<math>f</math> ist die Dichtefunktion der Verteilung).
 +
 
 +
== Was ist ein Konfidenzintervall? ==
 +
Ein <math>(1-\alpha)</math>-Konfidenzintervall für einen Parameter ist ein Intervall um den geschätzten Parameter, in dem der tatsächliche Parameter mit der Überdeckungswahrscheinlichkeit <math>1-\alpha</math>  liegt. <math>\alpha</math> heißt dabei Konfidenzzahl.
 +
 
 +
=== Konfidenzintervall für den Mittelwert ===
 +
Das Konfidenzintervall (siehe auch {{DutterSkriptum|47|Kapitel 5.3, S. 79}}). Zugrunde liegt die Tatsache, dass der Mittelwert <math>\bar{X}</math> einer Normalverteilung <math>N(\mu, \sigma^2)</math> selbst einer Normalverteilung <math>N(\mu, \tfrac{\sigma^2}{n})</math> unterliegt. Nun wird diese Verteilung so transformiert, dass daraus eine <math>N(0,1)</math>- Verteilung, also eine Standardnormalverteilung, wird. Die Transformation ist nun <math>\tfrac{\bar{X} - \mu}{\sigma/\sqrt{n}}</math>. Wichtig ist zu erkennen, dass durch diese Transformation tatsächlich aus der <math>N(\mu, \tfrac{\sigma^2}{n})</math>-Verteilung für <math>\bar{X}</math> eine <math>N(0,1)</math>-Verteilung wird. Gemäß den Transformationsregeln ({{DutterSkriptum|23|S. 29}}) ergibt die Transformation <math>\tfrac{\bar{X} - \mu}{\sigma/\sqrt{n}} = \tfrac{1}{\sigma/\sqrt{n}} \cdot \bar{X} - \tfrac{\mu}{\sigma/\sqrt{n}}</math> den Mittelwert
 +
<center><math>y_\mu = ax_\mu + b = \tfrac{1}{\sigma/\sqrt{n}} \cdot \mu - \tfrac{\mu}{\sigma/\sqrt{n}} = 0</math></center>
 +
und die Varianz (wobei <math>s_x^2 = \tfrac{\sigma^2}{n}</math>)
 +
<center><math>s_y^2 = a^2s_x^2 = \left(\tfrac{1}{\sigma/\sqrt{n}}\right)^2 \cdot s_x^2 = \tfrac{1}{\sigma^2/n} \cdot s_x^2 = \tfrac{n}{\sigma^2} \cdot \tfrac{\sigma^2}{n} = 1</math></center>
 +
 
 +
 
 +
Die Wahrscheinlichkeit, dass der transformierte Mittelwert (der nun standard-normalverteilt ist) nun in den entsprechenden Bereich fällt, entspricht dem <math>\alpha</math>-Quantil der Standard-normalverteilung. Es gilt daher:
 +
<center><math>\bigg(z_{\tfrac{\alpha}{2}} < \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} < z_{1-\tfrac{\alpha}{2}}\bigg)</math>.</center>
 +
Wenn die beiden Ungleichungen ausgerechnet werden, ergibt sich die Formel fuer das Konfidenzintervall:
 +
<center><math>\bigg(\bar{x} - z_{1-\tfrac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{1-\tfrac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\bigg)</math></center>
 +
 
 +
 
 +
Ist die Standardabweichung unbekannt, wird das Konfidenzintervall länger, da es aus der Stichprobe geschätzt werden muss. Aus der Standard-Normalverteilung wird dann magisch eine Student-t-Verteilung mit n-1 Freiheitsgraden (Warum?). Das Konfidenzintervall sieht dann so aus:
 +
<center><math>\bigg(\bar{x} - t_{n-1;1-\tfrac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}, \bar{x} + t_{n-1;1-\tfrac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\bigg)</math></center>
 +
 
 +
Die t-Verteilung entspricht im Prinzip einer Normalverteilung bei kleinem n, d.h. mit weniger Stichproben. Ab n>30 ist die t-Verteilung durch die N-Verteilung annäherbar. Da ich in der N-Verteilung die Stichprobenanzahl nirgends unterbringen kann, sattel ich in diesem Fall auf die t-Verteilung um und kann statt der Varianz (die ich ja gar nicht weiß) die Stichprobenzahl in Form der Freiheitsgrade hinein bringen. Wenn die Stichprobenzahl groß genug ist, nähert sich die t-Verteilung eh der N-Verteilung an, wenn sie aber eigentlich zu klein ist, dann hab ich mit der t-Verteilung ein viel seriöseres Intervall, das breiter ist, weil ich weniger Informationen habe.
 +
 
 +
=== Intervallsschätzung mit <math>\mu</math> bei unbekannten <math>\sigma</math> (1-Stichproben-t-Test) ===
 +
TODO: Herleitung laut Skriptum ([http://www.statistik.tuwien.ac.at/public/dutt/vorles/inf_bak/node47.html Kapitel Intervallsschätzungen] -> mit <math>\mu</math> bei unbekannten <math>\sigma</math>)
 +
 
 +
Hypothesen:
 +
<center><math>H_0: \mu = \mu_0, \qquad H_1: \mu > \mu_0</math></center>
 +
Teststatistik:
 +
<center><math>T = \mu_0 + \frac{S}{\sqrt{n}}\cdot t_{n-1;1-\alpha}</math></center>
 +
Kritischer Bereich:
 +
<center><math>\bar{X} > T</math></center>
 +
 
 +
=== Konfidenzintervall für die Varianz ===
 +
;  Konfidenzintervall für <math>\sigma^2</math> (siehe auch {{DutterSkriptum|65|Kapitel 5.8.1, S. 97}}): <center><math>\Bigg( \frac{(n-1) \cdot S^2}{\chi^2_{n-1;1-\tfrac{\alpha}{2}}}, \frac{(n-1) \cdot S^2}{\chi^2_{n-1;\tfrac{\alpha}{2}}}\Bigg)</math></center>
 +
 
 +
== Was ist eine Hypothese? Was ist die Nullhypothese, was die Alternative? Fehler 1./2. Art? ==
 +
 
 +
Zusatzinfo: [http://statistik.wu-wien.ac.at/lv/PI_statistik/handouts/8-ein_stichproben_test-handout.pdf]
 +
 
 +
=== Hypothesen ===
 +
Unter [[de.wikipedia:Hypothese (Statistik)|Hypothese]] versteht man in der Statistik eine anhand empirischer Daten zu prüfende Annahme.
 +
 
 +
Eine Nullhypothese (<math>H_0</math>) ist eine Annahme (z.B. über die Verteilung einer Zufallsvariablen oder den Wert eines Parameters), die getestet werden soll.
 +
 
 +
Die Alternativhypothese (<math>H_1</math>) steht für eine Menge von alternativen Annahmen bezüglich der Nullhypothese. Falls die Nullhypothese nicht verworfen werden kann, besteht aus statistischer Sicht allerdings kein Grund, von ihrer Gültigkeit auszugehen (vgl. Fehler 2. Art).
 +
 
 +
Die Teststatistik ist eine nach einer bestimmten Vorschrift berechnete Zufallsvariable. Fällt der Wert der Teststatistik in den so genannten kritischen Bereich, wird die Nullhypothese verworfen und <math>H_1</math> angenommen.
 +
 
 +
=== Fehlerwahrscheinlichkeiten ===
 +
Die [[de.wikipedia:Beurteilung eines Klassifikators|Fehlerwahrscheinlichkeit]] 1. Art ("<math>\alpha</math>-Fehler") gibt die Wahrscheinlichkeit an, dass die richtige Hypothese abgelehnt wird ("false positive"). Er passiert mit der Wahrscheinlichkeit <math>\alpha</math> (=Signifikanzniveau). Die Fehlerwahrscheinlichkeit 2. Art ("<math>\beta</math>-Fehler") gibt die Wahrscheinlichkeit an, dass eine falsche Hypothese als richtig angenommen wird ("false negative"). Die Fehlerwahrscheinlichkeiten können durch Vergrößern des Stichprobenumfangs verkleinert werden.
 +
Die Wahrscheinlichkeit, mit der eine falsche Nullhypothese entlarvt wird, heißt Macht oder Schärfe eines Tests und kann mit <math>1-\beta</math> angegeben werden. Anders gesagt: Wenn man in einer Verteilung sich jeweils das <math>\beta</math> ausrechnet und die 1- <math>\beta</math> Werte in einer Kurve aufträgt, kann man in der Kurve die Macht ablesen.
 +
 
 +
Siehe auch {{DutterSkriptum|55|Kapitel 5.5, S. 87}} und [[de.wikipedia:Hypothese_(Statistik)|Hypothese@Wikipedia]]
 +
 
 +
== 2 Populationen ==
 +
 
 +
=== Vergleich der Mittel (2-Stichproben-t-Test)  (Spezialfall der Varianzenanalyse)===
 +
Man vergleicht damit die Mittel zweier Populationen untereinander (2-Stichproben-t-Test) oder man vergleicht das Mittel einer Population mit einem vorgegebenen Wert (1-Stichproben-t-Test, nur bei unbekannter Standardabweichung).
 +
 
 +
Hypothesen:
 +
<center><math>H_0: \mu_x = \mu_y, \qquad H_1: \mu_x \ne \mu_y</math></center>
 +
Teststatistik:
 +
<center><math>T = \frac{\bar{X}-\bar{Y}}{\sqrt{ \frac{(n_1-1)s_x^2 + (n_2-1)s_y^2}{n_1+n_2-2} \cdot (\frac{1}{n_1} + \frac{1}{n_2})}} = \sqrt{\frac{n_1n_2(n_1+n_2-2)}{n_1+n_2}} \cdot \frac{\bar{X}-\bar{Y}}{\sqrt{(n_1-1)s_x^2 + (n_2-1)s_y^2}} </math></center>
 +
Kritischer Bereich:
 +
<center><math>-t_{n_1 + n_2 -2;1-\tfrac{\alpha}{2}} < T < t_{n_1 + n_2 -2;1-\tfrac{\alpha}{2}}</math></center>
 +
 
 +
=== Vergleich der Varianzen===
 +
Mit Hilfe des F-Tests:
 +
<center><math>H_0: \sigma_x^2 = \sigma_y^2 \qquad H_1: \sigma_x^2 > \sigma_y^2</math></center>
 +
Teststatistik:
 +
<center><math>T = \frac{s_x^2}{s_y^2}</math></center>
 +
Kritischer Bereich:
 +
<center><math>T > F_{n_1 - 1, n_2 - 1, 1-\alpha}</math></center>
 +
 
 +
== Anpassungstests ==
 +
 
 +
=== Wozu dient der <math>\chi^2</math>-Anpassungstest? ===
 +
Mit Hilfe dieses Tests kann man eine Hypothese über die Form einer Verteilung prüfen. Dazu teilt man die Stichprobe in k Klassen ein und berechnet die Teststatistik:
 +
<center><math>T = \sum_{i=1}^k\frac{(h_i-e_i)^2}{e_i}</math></center>
 +
 
 +
 
 +
<center><math>e_i = p_i \cdot n</math></center>
 +
wobei <math>h_i</math> die Häufigkeiten und <math>e_i</math> die theoretischen Wahrscheinlichkeiten (aufgrund der mit <math>H_0</math> angenommenen Verteilung) <math>p_i</math> multipliziert mit <math>n</math> sind.
 +
 
 +
Als kritischen Bereich nimmt man:
 +
<center><math> T > \chi_{k-1;1-\alpha}^2</math></center>
 +
 
 +
=== Wozu dient der Kolmogorov-Smirnov-Test? ===
 +
Man testet damit ob zwei Zufallsvariablen die selbe Verteilung haben oder ob einer Zufallsvariable eine hypothetische Verteilung <math>F_0</math> zugrunde liegt, indem man die absolute Differenz zwischen empirischer und hypothetischer Verteilungsfunktion betrachtet.
 +
 
 +
= Varianzanalyse =
 +
== Was geschieht bei der Varianzanalyse? Was steht in der Varianzanalyse-Tafel? ==
 +
Eine betrachtete Größe weist oft eine Variation auf, die sich aus zufälliger Variation sowie Variation durch einen bestimmten Einfluss zusammensetzt. In der Varianzanalyse trennt man diese beiden Variationen (Varianzzerlegung). Dazu wird die Quadratsumme (Summe der Abweichungen vom Stichprobenmittel) zerlegt.
 +
 
 +
Mit Hilfe der Varianzanalyse kann man die Mittelwerte von k Normalverteilungen vergleichen. Man nimmt <math>H_0: \mu_1 = \mu_2 = \dots = \mu_k</math> gegen <math>H_1: \mu_r \ne \mu_s</math> für mindestens ein <math>r \ne s</math>. Danach berechnet man die Quadratsumme innerhalb jeder Stichprobe <math>q_I</math> und die Quadratsumme zwischen den Stichproben <math>q_Z</math>:
 +
<center><math>q_I = \sum_{j=1}^{k}\sum_{i=1}^{n_j}(x_{ij} - \bar{x}_j)^2 = \sum_{j=1}^{k}(n-1) \cdot s_{x_j}^2</math></center>
 +
<center><math>q_Z = \sum_{j=1}^{k}n_j(\bar{x}_j - \bar{x})^2</math></center>
 +
Die Varianzanalyse-Tabelle sieht so aus:
 +
{| align="center" cellpadding="5" cellspacing="0" style="border: 0px solid #000000;"
 +
! style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | Variation
 +
! style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | Freiheitsgrade<br />FG
 +
! style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | Quadratsumme<br />q
 +
! style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | mittlere Quadratsumme<br /><math>s^2</math>
 +
! style="border-bottom: 1px solid #000000;" | <br />F
 +
|-
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | Zwischen den Gruppen
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | k-1
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | <math>q_Z</math>
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | <math>s_Z^2 = \frac{q_Z}{k-1}</math>
 +
| rowspan=2 style="border-bottom: 1px solid #000000;" | <math>\frac{(n-k)\cdot q_Z}{(k-1)\cdot q_I}</math>
 +
|-
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | Innerhalb der Gruppe
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | n-k
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | <math>q_I</math>
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000" | <math>s_I^2 = \frac{q_I}{n-k}</math>
 +
|-
 +
| style="border-right: 1px solid #000000" | Total
 +
| style="border-right: 1px solid #000000" | n-1
 +
| style="border-right: 1px solid #000000" | q
 +
| style="border-right: 1px solid #000000" |
 +
||
 +
|}
 +
 
 +
 
 +
Der Wert der Teststatistik F wird nun gegen den kritischen Bereich getestet:
 +
<center><math>H_0: \mu_1 = \mu_2 = \dots = \mu_k, \qquad H_1: \mu_r \ne \mu_s</math> für mindestens ein <math>r\ne s</math></center>
 +
Teststatistik:
 +
<center><math>F = \frac{q_Z/(k-1)}{q_I/(n-k)} = \frac{(n-k)\cdot q_Z}{(k-1) \cdot q_I}</math></center>
 +
Kritischer Bereich:
 +
<center><math>F > F_{k-1;n-k;1-\alpha}</math></center>
 +
 
 +
= Regression und Korrelation =
 +
== Was ist Regression? Was ist das Regressionsproblem? Regressionsgerade? Residuen? Wie testet man auf Abhängigkeit einer Variablen x? ==
 +
Das [[de.wikipedia:Regressionsanalyse|Regressionsproblem]] behandelt die Verteilung einer Variablen Y, wenn (mindestens) eine andere Variable x nicht zufällige Werte annimmt. x heißt unabhängig und ist keine Zufallsvariable. Y ist eine Zufallsvariable und abhängig von x, sofern eine Regression vorliegt. Für jeden gewählten Wert von x gibt es eine Verteilung von Y mit einem Mittelwert <math>\mu_{y.x}</math> und einer Varianz <math>\sigma^2_{y.x}</math>. Liegt eine einfache, lineare Regression vor, so kann die Abhängigkeit der Mittelwerte <math>\mu_{y.x}</math> von Y durch die Regressionsgerade angegeben werden:
 +
<center><math>\hat{y}_x = \hat{a} + \hat{b}(x-\bar{x})</math></center>
 +
 
 +
Die Parameter der Regressionsgeraden <math>\hat{a}</math> und <math>\hat{b}</math> werden aus den Stichprobenwerten geschätzt, wobei man für <math>\hat{a}</math> den Wert <math>\bar{y}</math> und für <math>\hat{b}</math> den
 +
Quotienten <math>\tfrac{s_{xy}}{s_x^2}</math> verwendet. <math>s_x^2</math> ist dabei die empirische Varianz der unabhängigen Variable und errechnet sich daher aus:
 +
<center><math>s_x^2 = \frac{1}{n-1} \cdot \sum_{i=1}^n(x_i - \bar{x})^2</math></center>
 +
 
 +
Die ''empirische Kovarianz'' <math>s_{xy}</math> ergibt sich aus der Summe aller Produkte von Mittelabweichungen beider Variablen dividiert durch n-1 Freiheitsgrade:
 +
<center><math>s_{xy} = \frac{1}{n-1} \cdot \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) = \frac{1}{n-1}\Big(\sum(x_iy_i) - n\bar{x}\bar{y}\Big)</math></center>
 +
 
 +
Auch die Varianz der Beobachtungen <math>s^2</math> kann geschätzt werden durch:
 +
<center><math>s^2 = \frac{1}{n-2}\cdot \sum_{i=1}^n(y_i-\hat{y}_i)^2 = \frac{n-1}{n-2}(s_y^2 - \hat{b}^2s_x^2)</math></center>
 +
 
 +
Die Differenzen zwischen gemessenen und geschätzten Werten <math>y_i - \hat{y_i}</math> nennt man auch Residuen. Die Gerade wird so gewählt, dass die Summe der quadrierten Residuen minimal wird.
 +
 
 +
Nimmt man die Verteilung von Y für jedes x als normal an, kann man Konfidenzintervalle für die Parameter a, b, <math>\sigma^2</math> und <math>\mu_{y.x}</math> angeben (mit Hilfe der Parameterschätzungen und der t-Verteilung, siehe {{DutterSkriptum|80|Kapitel 7.3.1, S. 114}}).
 +
 
 +
=== Test auf Regression (Test auf Abhängigkeit) ===
 +
Die Nullhypothese <math>H_0: b = 0</math> besagt, dass alle Mittelwerte von Y gleich sind (Alternative <math>H_1: b \ne 0</math>) und daher keine Regression vorliegt. Als Teststatistik verwendet man:
 +
<center><math>T = \frac{\hat{b} \cdot s_x \cdot \sqrt{n-1}}{S} = \hat{b}\cdot\sqrt{\frac{s_x^2 \cdot (n-1)}{s^2}}</math></center>
 +
und der kritische Bereich ist:
 +
<center><math>|T| > t_{n-2;1-\tfrac{\alpha}{2}}</math>,</center>
 +
Da der hier der Betrag <math>|T|</math> angegeben ist, handelt es sich eigentlich um einen zweiseitig begrenzten Bereich, daher ist <math>1-\tfrac{\alpha}{2}</math> zu nehmen.
 +
 
 +
== Was ist Korrelation? Was ist das Korrelationsproblem? Was sind Kovarianz, empirische Kovarianz und Korrelationskoeffizient? Wie testet man auf Unkorreliertheit? ==
 +
Das Korrelationsproblem behandelt die Frage, ob Korrelation vorliegt. Dies ist der Fall, wenn es einen Zusammenhang zwischen den Verteilungen zweier Zufallsvariablen X und Y gibt. Es wird also die gemeinsame Verteilung von X und Y betrachtet, ohne eine Variable zu fixieren. Oft geht man in solchen Problemen von einer bivariaten Normalverteilung aus. Für jedes X gibt es eine Verteilung von Y und umgekehrt.
 +
 
 +
Die Korrelation ρ zwischen X und Y ergibt sich aus der Kovarianz <math>\sigma_{XY}</math> dividiert durch das Produkt der beiden Standardabweichungen <math>\sigma_X</math> und <math>\sigma_Y</math> und ist eine dimensionslose Größe im Intervall (–1,1); bei ρ = 0 sind X und Y unabhängig.  
  
Zwei Zufallsvariablen X und Y sind genau dann voneinander unabhängig, wenn die Verteilungsfunktion des Zufallsvektors <math>(X, Y)</math> gleich dem Produkt der beiden Randverteilungsfunktionen <math>FX*FY ist: F(x,y) = FX(x)*FY(y)</math> für alle x aus (TODO: Haeh?).
+
Als Schätzung verwendet man den empirischen Korrelationskoeffizienten, welcher sich wiederum aus der empirischen Kovarianz <math>s_{XY}</math>, dividiert durch das Produkt der empirischen Standardabweichungen <math>s_X</math> und <math>s_Y</math> berechnet:  
 +
<center><math>\rho_{XY} = \frac{\sigma_{XY}}{\sigma_X\cdot\sigma_Y} \qquad r_{XY} = \frac{s_{XY}}{s_X\cdot s_Y}</math></center>
  
Die Randverteilung im sieht folgendermaßen aus:
+
=== Test auf Unkorreliertheit ===
; im diskreten Fall : <math>X: p_i = P_{X,i} = P(X = x_i) = \sum p_{ij}</math><br /><math>Y: p_j = P_{Y,i} = P(Y=y_j) = \sum p_{ij}</math>
+
Für den Test auf Unkorreliertheit (Test auf Unabhängigkeit, siehe auch {{DutterSkriptum|83|S. 118}}) sind <math>H_0:\rho = 0</math> und <math>H_1: \rho \ne 0</math>. Der kritische Bereich ist:
; im stetigen Fall : <math>f_x(X) = \int f(x,y)dy</math><br /><math>f_y(Y) = \int f(x,y)dx</math>
+
<center><math>|T| > t_{n-2;1-\frac{\alpha}{2}}</math></center>
 +
und als Teststatistik verwendet man:  
 +
<center><math>T = R \cdot \sqrt{\frac{n-2}{1-R^2}}</math></center>
 +
wobei R die Zufallsvariable bezeichnet, die die Werte des empirischen Korrelationskoeffizienten <math>r_{XY}</math> annimmt.
  
* TODO: Randverteilungstabelle:
+
== Was ist die Kovarianz ? ==
Y/X i P(Y=j) = Pj
+
(Folgendes ist aus Wikipedia kopiert:)
j ∑
 
Pi = P(X=i) ∑ ∑
 
* TODO: Kontrollieren: Stimmen die Formeln fuer diskret und stetigen Fall?
 
  
= Beschreibende Statistik =
+
Die [http://de.wikipedia.org/wiki/Kovarianz_%28Stochastik%29 Kovarianz] ist in der Statistik eine (nichtstandardisierte) Maßzahl für den Zusammenhang zweier statistischer Merkmale (im Folgenden X und Y).
  
== Welche Momente einer Verteilung gibt es? ==
+
<center><math>s_{xy} = \frac{1}{n-1} \cdot \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) = \frac{1}{n-1}\Big(\sum(x_iy_i) - n\bar{x}\bar{y}\Big)</math></center>
=== 1. Momente (Lageparameter) ===
 
* Der '''Mittelwert''' oder Erwartungswert ("arithmetische Mittel"): <math>\bar{x} = \frac{1}{n-1}\cdot\sum_{i=1}^n x_i</math>
 
* Der '''Median''' ist der mittlere Wert einer geordneten Stichprobe bzw. das arithmetische Mittel der beiden mittleren Werte bzw. er ist das 50%-Quantil ( siehe Quantil).
 
* Der '''Modus''' oder Modalwert ist der häufigste Wert einer Verteilung. (TODO: Der ist doch irgendwann ned definiert, oder?)
 
* Ein '''p%-Quantil''' wird so gewählt, dass p % der Verteilung kleiner als dieses Quantil sind.
 
* '''Quartile''' sind 25% bzw. 75%-Quantile. Die Verteilungsfunktion F(Qp) ergibt also für das p-Quantil genau F(Qp) = p. (TODO: "Qp"?)
 
  
=== 2. Momente (Streuungsparameter) ===
+
* Die Kovarianz ist positiv, wenn X und Y tendenziell einen gleichsinnigen linearen Zusammenhang besitzen, d. h. hohe Werte von X gehen mit hohen Werten von Y einher und niedrige mit niedrigen.
* Die '''Varianz''' ist das mittlere Abstandsquadrat vom Mittelwert: <math>s^2 = \frac{1}{n-1} \cdot \sum(x_i - \bar{x})^2</math>.
+
* Die Kovarianz ist hingegen negativ, wenn X und Y einen gegensinnigen linearen Zusammenhang aufweisen, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher.
* Die '''Standardabweichung''' oder Streuung ist die Wurzel der Varianz, also <math>s = \sqrt{s^2}</math>. Eine "grobe Faustformel" fuer die Streuung ist (max - min)/3.
+
* Ist das Ergebnis 0, so besteht kein Zusammenhang oder ein nicht linearer Zusammenhang z. B. eine U-förmige Beziehung zwischen den beiden Variablen X und Y.
  
=== 3. Moment (Schiefe) ===
+
Die Kovarianz gibt zwar die Richtung einer Beziehung zwischen zwei Variablen an, über die Stärke des Zusammenhangs wird aber keine Aussage getroffen. Dies liegt an der Abhängigkeit des Ergebnisses von den Maßeinheiten der beteiligten Variablen X und Y. Ist z. B. die Kovarianz zweier Variablen mit der Maßeinheit "Meter" 5,2 so ist die Kovarianz der gleichen Werte in der Maßeinheit "Zentimeter" 520. Die Kovarianz ist deshalb in ihrer "Rohform" als Maßzahl für den stochastischen Zusammenhang nur wenig anschaulich und auch schwer vergleichbar.
Die Schiefe ist grösser als Null wenn es mehr positive als negative Abweichungen vom
 
Mittelwert gibt:
 
<center><math>s^3=\frac{1}{n} \cdot \sum(x_i - \bar{x})</math></center>
 
  
=== 4. Moment (Kurtosis) ===
+
Beispiel des Korrelationskoevizienten bei Scatter-Plot: [http://de.wikipedia.org/w/index.php?title=Datei:Correlation_examples.png&filetimestamp=20100202093335]
>0. Auch genannt "heavy tails": Maß für „Flachheit einer Verteilung.
 
<center><math>s^4=\frac{1}{n} \cdot \sum(x_i - \bar{x}) - 3</math></center>
 
  
TODO: Graphik. Das hier ist die Unterschrift: "links: flache Wölbung – negative Kurtosis, rechts: spitze Wölbung – positive Kurtosis"
+
= Zählstatistik =
 +
== Was ist das Klassifizierungsproblem? Was ist eine Kontingenztafel? Einfache, Zweifache Klassifizierung ?==
 +
Oft möchte man Dinge zählen, die in bestimmte Kategorien fallen. Es gibt das einfache Klassifizierungsproblem (z.B. 4 Klassen für Aussehen von Erbsen nach Kreuzungsversuch) und das zweifache Klassifizierungsproblem (z.B. Haarfarbe und Augenfarbe). Man hat jeweils vorgegebene theoretische Häufigkeiten und untersucht, ob die Abweichungen der tatsächlichen Häufigkeiten von ersteren nur zufälliger Natur sind. Eine Tabelle, die die absoluten Häufigkeiten der Merkmale gemeinsam darstellt, heißt Kontingenztafel.
 +
Teststatistik: <math>T = \sum\frac{(h_i - e_i)^2}{e_i}</math>.
  
Bei Schiefe und Kurtosis hat es sich eingebürgert, einfach durch n zu dividieren. Durch das Subtrahieren von 3 hat die N(0,1)-Verteilung eine Kurtosis von 0.
+
Der kritische Bereich ist eine <math>\chi^2</math>-Statistik mit k-1 Freiheitsgraden im einfachen und (r-1)(c-1) Freiheitsgraden im zweifachen Fall.
  
== Was ist das Messniveau? Welche Skalen gibt es, was charakterisiert sie, welche Momente sind dort verwendbar? ==
+
Die Kontingenztafel sieht im einfachen Fall so aus (siehe auch {{DutterSkriptum|85|Kapitel 8.1, S. 119}}):
Das Messniveau gibt eine Unterteilung in verschiedene Datentypen / Skalen vor:  
+
{| align="center" cellpadding="5" cellspacing="0" style="border: 0px solid #000000;"
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000;" | Klassen
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000;" | beobachtet
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000;" | theoretisch
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000;" | <math>h_j - e_j</math>
 +
| style="border-bottom: 1px solid #000000;" | <math>\tfrac{(h_j - e_j)^2}{e_j}</math>
 +
|-
 +
| style="border-right: 1px solid #000000;" | Klasse 1
 +
| style="border-right: 1px solid #000000;" | <math>h_1</math>
 +
| style="border-right: 1px solid #000000;" | <math>e_1</math>
 +
| align="center" style="border-right: 1px solid #000000;" | <math>\ldots</math>
 +
| align="center" | <math>\ldots</math>
 +
|-
 +
| style="border-right: 1px solid #000000;" | Klasse 2
 +
| style="border-right: 1px solid #000000;" | <math>h_2</math>
 +
| style="border-right: 1px solid #000000;" | <math>e_2</math>
 +
| align="center" style="border-right: 1px solid #000000;" | <math>\ldots</math>
 +
| align="center" | <math>\ldots</math>
 +
|-
 +
| align="center" style="border-right: 1px solid #000000;" | <math>\vdots</math>
 +
| style="border-right: 1px solid #000000;" | <math>\vdots</math>
 +
| style="border-right: 1px solid #000000;" | <math>\vdots</math>
 +
| align="center" style="border-right: 1px solid #000000;" | <math>\vdots</math>
 +
| align="center" | <math>\vdots</math>
  
; Nominalskala : z.B. Geschlecht: keine Ordnung, Modalwert
+
|-
; Ordinalskala : z.B. Schulnoten: Ordnung, aber keine Abstände: Modalwert, Median, Quantile
+
| style="border-right: 1px solid #000000;" | Klasse k
; Intervallskala : z.B. Temparatur [[de.wikipedia:Grad Celsius|°C]]: Ordnung, Abstände, kein abs. Nullpunkt: Modalwert, Median, Quantile, Mittel
+
| style="border-right: 1px solid #000000;" | <math>h_k</math>
; Verhältnisskala : z.B. Temparatur in [[de.wikipedia:Kelvin|Kelvin]]: Ordnung, Abstände, absoluter Nullpunkt: Modalwert, Median, Quantile, Mittel
+
| style="border-right: 1px solid #000000;" | <math>e_k</math>
 +
| align="center" style="border-right: 1px solid #000000;" | <math>\ldots</math>
 +
| align="center" | <math>\ldots</math>
 +
|-
 +
| style="border-right: 1px solid #000000; border-top: 1px solid #000000;" | Total
 +
| style="border-right: 1px solid #000000; border-top: 1px solid #000000;" | <math>h_1 + \dots + h_k</math>
 +
| style="border-right: 1px solid #000000; border-top: 1px solid #000000;" | <math>e_1 + \dots + e_k</math>
 +
| align="center" style="border-right: 1px solid #000000; border-top: 1px solid #000000;" | <math>\ldots</math>
 +
| align="center" style="border-top: 1px solid #000000;"| <math>\ldots</math>
 +
|}
  
== Was ist ein MedMed? ==
+
<math>T > \chi^2_{k-1;1-\alpha}</math>
Die Verteilung wird am Median nach rechts „umgeklappt“ (dadurch zB bei Normalverteilung doppelt so hoch). Von der Resultierenden Verteilung wird der Median berechnet.
 
  
== Was ist die Varianz? Warum n-1 Freiheitsgrade? ==
+
Und beim Problem der zweifachen Klassifizierung ist das ganze naturgemäß umfangreicher. In der nachfolgenden Tabelle gibt es r Klassen für Merkmal A und c Klassen fuer Merkmal B. Die Einzelnen Zellen geben jeweils die tatsächlich auftretende Häufigkeit (<math>h_{..}</math>) und in Klammer die erwartete Häufigkeit (<math>e_{..}</math>) an:
Die Varianz berechnet sich folgendermaßen:  
+
{| align="center" cellpadding="5" cellspacing="0" style="border: 0px solid #000000;"
<center><math>s^2 = \frac{1}{n-1} \cdot \sum (x_i = \bar{x})^2</math></center>
+
| style="border-right: 1px solid #000000" |
 +
| align="center" colspan=4 style="border-right: 1px solid #000000"| Merkmal B
 +
||
 +
|-
 +
| align="center" style="border-bottom: 1px solid #000000; border-right: 1px solid #000000;" | Merkmal A
 +
| align="center" style="border-bottom: 1px solid #000000;" | <math>B_1</math>
 +
| align="center" style="border-bottom: 1px solid #000000;" | <math>B_2</math>
 +
| align="center" style="border-bottom: 1px solid #000000;" | <math>\ldots</math>
 +
| align="center" style="border-bottom: 1px solid #000000; border-right: 1px solid #000000;" | <math>B_c</math>
 +
| align="center" style="border-bottom: 1px solid #000000;" | <math>\sum</math>
 +
|-
 +
| style="border-right: 1px solid #000000;" | <math>A_1</math>
 +
|| <math>h_{11}(\hat{e}_{11})</math>
 +
|| <math>h_{12}(\hat{e}_{12})</math>
 +
|| <math>\ldots</math>
 +
| style="border-right: 1px solid #000000;" | <math>h_{1c}(\hat{e}_{1c})</math>
 +
|| <math>h_{1.}</math>
 +
|-
 +
| style="border-right: 1px solid #000000;" | <math>A_2</math>
 +
|| <math>h_{21}(\hat{e}_{21})</math>
 +
|| <math>h_{22}(\hat{e}_{22})</math>
 +
|| <math>\ldots</math>
 +
| style="border-right: 1px solid #000000;" | <math>h_{2c}(\hat{e}_{2c})</math>
 +
|| <math>h_{2.}</math>
 +
|-
 +
| style="border-right: 1px solid #000000;" | <math>\vdots</math>
 +
| align="center" | <math>\vdots</math>
 +
| align="center" | <math>\vdots</math>
 +
| align="center" | <math>\vdots</math>
 +
| style="border-right: 1px solid #000000;" | <math>\vdots</math>
 +
|| <math>\vdots</math>
 +
|-
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000;" | <math>A_r</math>
 +
| style="border-bottom: 1px solid #000000;" | <math>h_{r1}(\hat{e}_{r1})</math>
 +
| style="border-bottom: 1px solid #000000;" | <math>h_{r2}(\hat{e}_{r2})</math>
 +
| style="border-bottom: 1px solid #000000;" | <math>\ldots</math>
 +
| style="border-bottom: 1px solid #000000; border-right: 1px solid #000000;" | <math>h_{rc}(\hat{e}_{rc})</math>
 +
| style="border-bottom: 1px solid #000000;" | <math>h_{r.}</math>
 +
|-
 +
| style="border-right: 1px solid #000000;" | <math>\sum</math>
 +
| align="center" | <math>h_{.1}</math>
 +
| align="center" | <math>h_{.2}</math>
 +
| align="center" | <math>\ldots</math>
 +
| align="center" style="border-right: 1px solid #000000;" | <math>h_{.c}</math>
 +
|| <math>h_{..} = n</math>
 +
|}
  
Man geht von n unabhängigen Stichprobenwerten aus, also n Freiheitsgrade. Da man jedoch die Differenz vom bereits bekannten Mittelwert bildet und die Summe aller Abweichungen 0 ist, kennt man bei n-1 Abweichungen bereits auch die letzte Abweichung, daher n-1 Freiheitsgrade. Ein nicht unerwünschter Nebeneffekt ist, das die Varianz nun für n=1 nicht definiert ist statt 0.
+
<math>T = \sum\frac{(h_{ij} - e_{ij})^2}{e_{ij}}</math>
  
== Was ist die Standardabweichung? ==
+
<math>T > \chi^2_{(r-1) \cdot (c-1);1-\alpha}</math>
Die Standardabweichung (oder Streuung) ist die mittlere Abweichung vom arithmetischen Mittel einer Verteilung. Sie berechnet sich aus der Quadratwurzel der Varianz und ist ein Streuungsmaß, gibt also die Breite der Verteilung an. Eine sehr grobe Schätzung für die Standardabweichung lautet: (Maximalwert – Minimalwert) / 3.
 
  
== Was ist ein Wahrscheinlichkeitsnetz? ==
+
Ein praktisches Beispiel kann in {{DutterSkriptum|86|Kapitel 8.2, S. 120}} bewundert werden.
Im Wahrscheinlichkeitsnetz trägt man die Werte einer geordneten Stichprobe sowie (i-0.5)/n auf. Bei Normalverteilung ergibt sich durch die übliche Anordnung der y-Achse annähernd eine Gerade. Aus der Ausgleichsgeraden lassen sich die Parameter der Verteilung grafisch schätzen.
 
  
 
= Verteilungen =
 
= Verteilungen =
 +
Im folgenden eine Zusammenfassung der wichtigsten Verteilungen. Vor allem Normalverteilung, Chi-Quadrat-, t- und F- Verteilung sollten gut gelernt werden (Dichtefunktion, etc.). Die Verteilungen sind in ungefährere absteigender Relevanz (für die Dutter Prüfung) geordnet. Nach der Erfahrung kann alles nach Binomialverteilung vernachlässigt werden (keine Gewähr).
 +
  
 
== Normalverteilung ==
 
== Normalverteilung ==
N(μ, σ2), kontinuierlich, symmetrisch.  
+
[[Bild:Normalverteilung.png|thumb|Normalverteilungen mit unterschiedlichen Parametern]]<math>N(\mu,\sigma^2)</math>: kontinuierlich, symmetrisch.  
Die Normalverteilung gilt zumindest  
+
 
annähernd für viele natürliche Prozesse. Aus  
+
Die Normalverteilung gilt zumindest annähernd für viele natürliche Prozesse. Aus dem Zentralen Grenzwertsatz folgt, dass aus vielen einzelnen unabhängigen Einflüssen entstehende Größen normalverteilt sind. Die Normalverteilung ist bei großem n eine gute Näherung für die Binomialverteilung.  
dem Zentralen Grenzwertsatz folgt, dass aus  
+
 
vielen einzelnen unabhängigen Einflüssen  
+
'''Dichtefunktion:''' Gaußsche Glockenkurve mit arithmetischem Mittel der Verteilung als Höhepunkt, Mittel ± Standardabweichung als Wendepunkte.
entstehende Größen normalverteilt sind. Die  
+
 
Normalverteilung ist bei großem n eine gute  
+
'''Verteilungsfunktion:''' Anfang und Ende sehr flach und um den Median sehr steil.
Näherung für die Binomialverteilung.  
+
 
Dichte: Gaußsche Glockenkurve mit  
+
 
arithmetischem Mittel der Verteilung als  
+
<math>N(0,1)</math> wird auch die '''Standardnormalverteilung''' genannt.
Höhepunkt, Mittel ± Standardabweichung als Wendepunkte.  
 
Standardnormalverteilung ist N(0,1).
 
Verteilungsfunktion: Anfang und Ende sehr  
 
flach und um den Median sehr steil.  
 
  
 
== Chi-Quadrat-Verteilung ==
 
== Chi-Quadrat-Verteilung ==
χ2 (n), kontinuierlich, asymmetrisch.  
+
[[Bild:Chi-Squared-pdf.png|thumb|<math>\chi^2</math>-Verteilungen mit unterschiedlichen Freiheitsgraden]]<math>\chi^2(n)</math>: kontinuierlich, asymmetrisch. n ist der Freiheitsgrad.
n nennt man die Freiheitsgrade, der  
+
 
Erwartungswert ist n, die Varianz 2n. Meist  
+
Der Erwartungswert ist n, die Varianz 2n. Meist verwendet man die zentrale <math>\chi^2</math>-Verteilung mit nur einem Parameter n. Die Summe quadrierter Zufallsvariablen (normalverteilt) ist <math>\chi^2</math>-verteilt. Man verwendet diese Verteilung z.B. zur Schätzung der Varianz. Die <math>\chi^2</math>-Verteilung ist sozusagen die quadrierte Normalverteilung.
verwendet man die zentrale χ2-Verteilung mit  
+
 
nur einem Parameter n. Die Summe  
+
Einige Verwendungszwecke:
quadrierter Zufallsvariablen (normalverteilt) ist  
+
* Anpassungstest
χ2-verteilt. Man verwendet diese Verteilung zB
+
* Klassifizierungsproblem
zur Schätzung der Varianz. Die χ2-Verteilung ist sozusagen die quadrierte  
+
 
Normalverteilung.
+
 
 +
Siehe auch [[de.wikipedia:Chi-Quadrat-Verteilung|die Chi-Quadrat-Verteilung]] auf der deutschen Wikipedia.
 +
 
 +
== t-Verteilung ==
 +
[[Bild:T-Verteilung.png|thumb|T-Verteilung mit ausgewählten Freiheitsgraden]]<math>t(m)</math>: kontinuierlich, symmetrisch. m sind Freiheitsgrade.
 +
 
 +
Erwartungswert: 0. Für große m (>30) kann die t-Verteilung durch die <math>N(0,1)</math>-Verteilung angenähert werden.
 +
 
 +
Die Varianz ergibt sich für <math>n>2</math> als
 +
:<math>\operatorname{Var}(X)=\frac{n}{n-2}.</math>
 +
 
 +
Einige Verwendungszwecke:
 +
* [[#Konfidenzintervall für den Mittelwert|Schätzung des Erwartungswertes]] bei unbekannter Varianz verwendet (statt der Standard-Normalverteilung bei bekannter Varianz), mit n-1 Freiheitsgraden
 +
* [[#Test auf Regression (Test auf Abhängigkeit)|Test auf Abhängigkeit]] (Regression), mit n-2 Freiheitsgraden
 +
* [[#Test auf Unkorreliertheit|Test auf Korrelation]], mit n-2 Freiheitsgraden
 +
* [[#Wozu dienen 1-Stichproben-t-Test und 2-Stichproben-t-Test?|1- und 2-Stichproben-t-Test]], mit n-1 Freiheitsgraden
  
== Binomialverteilung ==
 
B (n, p), diskret, asymmetrisch. Für p=0,5 symmetrisch. Erwartungswert np,
 
Varianz np(1-p).
 
Die Binomialverteilung kann zur Beschreibung von n Versuchen, die mit der
 
Wahrscheinlichkeit p erfolgreich sind, verwendet werden. Für große n kann die
 
Binomialverteilung gut durch die Normalverteilung angenähert werden. B (1,p)
 
mit nur 1 Versuch heißt auch Bernoulliverteilung.
 
  
== Poissonverteilung ==
+
Siehe auch [[de.wikipedia:Studentsche t-Verteilung|die Studentsche t-Verteilung]] auf der deutschen Wikipedia.
P (λ), diskret, asymmetrisch. λ ist zugleich
 
Erwartungswert, Varianz und Schiefe.
 
Für große λ lässt sich die Poissonverteilung
 
durch die Normalverteilung annähern. Sie ist
 
die Grenzverteilung der Binomialverteilung
 
(für p → 0, n → ∞). Sie wird typischerweise für
 
die Zahl von Phänomenen innerhalb einer
 
Zeiteinheit verwendet.
 
  
 
== F-Verteilung ==
 
== F-Verteilung ==
F(m,n), kontinuierlich, asymmetrisch. m und n  
+
[[Bild:F-Verteilung.svg|thumb|Dichtefunktion der F-Verteilung mit ausgewählten Freiheitsgraden m und n]]<math>F(m,n)</math>: kontinuierlich, asymmetrisch. m und n sind Freiheitsgrade.
sind Freiheitsgrade.  
+
 
Die F-Verteilung wird in der Varianzanalyse  
+
Diese Verteilung ergibt sich aus dem Quotienten zweier <math>\chi^2</math> Verteilungen mit m bzw. n Freiheitsgraden:
verwendet, um festzustellen, ob die
+
<center><math>F(m,n)=\frac{\frac{\chi_m^2}{m}}{\frac{\chi_n^2}{n}}</math></center>
Populationen zweier Stichproben die gleiche
+
 
Varianz haben.
+
Einige Verwendungszwecke:
== t-Verteilung ==
+
* Test auf geiche Varianzen
t(m), kontinuierlich, symmetrisch. m sind Freiheitsgrade. Erwartungswert: 0.
+
* Varianzanalyse
Die t-Verteilung wird zur Schätzung des Erwartungswertes bei unbekannter
+
 
Varianz verwendet (statt der Normalverteilung bei bekannter Varianz). Für  
+
 
große m (>30) kann die t-Verteilung durch die N(0,1)-Verteilung angenähert
+
Einige Bonusinformationen aus der Wikipedia:
werden.  
+
 
 +
Der Erwartungswert ist nur für <math>n > 2</math> definiert und lautet dann
 +
<center><math>\operatorname{E}(X) = \frac{n}{n-2}</math>.</center>
 +
Die Varianz ist nur für <math>n > 4</math> definiert und lautet dann
 +
<center><math>\operatorname{Var}(X) = \frac{2 n^2 (m+n-2)}{m (n-2)^2 (n-4)}.</math></center>
 +
 
 +
Für manche Tests ist es nützlich zu wissen, dass gilt:
 +
<center><math>F^{-1}(p;m;n) = \frac{1}{F^{-1}(1-p;n;m)}</math></center>
 +
 
 +
Siehe auch [[de.wikipedia:F-Verteilung|die F-Verteilung]] auf der deutschen Wikipedia.
 +
 
 +
== Binomialverteilung ==
 +
<math>B (n, p)</math>: diskret, asymmetrisch.  
  
== Rechtecksverteilung ==
+
Für p=0,5 symmetrisch. <br/>
R (a, b), diskret, symmetrisch. Erwartungswert: ½(a+b), Varianz: ½(b-a)2
+
<math>E(X) = np</math> <br/>
 +
<math>Var(X) = np(1-p)</math>
  
== Exponentialverteilung ==
+
Die Binomialverteilung kann zur Beschreibung von n Versuchen, die mit der Wahrscheinlichkeit p erfolgreich sind, verwendet werden. Für große n kann die Binomialverteilung gut durch die Normalverteilung angenähert werden.
X ~ R (0,1), Y = -ln (X)  Y folgt Exponentialverteilung
 
  
== Lognormalverteilung ==
+
<math>B(1,p)</math> (daher mit nur einem Versuch) heißt auch [[de.wikipedia:Bernoulli-Verteilung|Bernoulli-Verteilung]].
X ~ N (μ, σ2), Y = eX  Y folgt Lognormalverteilung
 
  
== Wie lässt sich die Binomialverteilung durch die Normalverteilung annähern? ==
 
Für große Werte von n lässt sich die Binomialverteilung durch die
 
Normalverteilung mit dem Mittelwert μ = np und der Varianz σ2 = np(1-p) gut
 
annähern. Für Werte von p nahe 0 oder 1 ist die Verteilung allerdings recht
 
schief, für p nahe 0.5 ist die Annäherung recht gut.
 
  
= Analytische Statistik =
+
=== Wie lässt sich die Binomialverteilung durch die Normalverteilung annähern? ===
 +
Für große Werte von n lässt sich die Binomialverteilung durch die Normalverteilung mit dem Mittelwert <math>\mu = np</math> und der Varianz <math>\sigma^2 = np(1-p)</math> gut annähern. Für Werte von p nahe 0 oder 1 ist die Verteilung allerdings recht schief, für p nahe 0.5 ist die Annäherung recht gut.
  
== Was ist eine Stichprobe? ==
+
== Poissonverteilung ==
Eine Untermenge einer Population heißt Stichprobe. Mathematisch gesehen
+
[[Bild:Poissonverteilung.png|thumb|Poissonverteilung mit <math>\lambda = 6</math>]]<math>P(\lambda)</math>: diskret, asymmetrisch.  
stellt sie einen n-dimensionalen Zufallsvektor (X1, …, Xn) mit unabhängig und
 
identisch verteilten Elementen Xi dar. Die Stichprobenwerte (x1, …, xn) sind
 
eine Realisation dieses Zufallsvektors. Damit mit einfachen Mitteln Aussagen
 
über die Verteilung oder ihre Parameter gemacht werden können, müssen die
 
Stichprobenwerte zufällig aus der Population gewählt werden.
 
  
== Was ist ein Schätzer? Wann ist er erwartungstreu, konsistent, oder effizient? ==
+
λ ist zugleich Erwartungswert, Varianz und Schiefe. Für große <math>\lambda</math> kann die Poisson-Verteilung durch die Normalverteilung mit <math>\mu=\lambda</math> und <math>\sigma^2=\lambda</math> angenähert werden. Sie ist die Grenzverteilung der Binomialverteilung (für p → 0, n → ∞). Sie wird typischerweise für
Ein Schätzer (eine Schätzfunktion) t berechnet einen Parameter q einer
+
die Zahl von Phänomenen innerhalb einer Zeiteinheit verwendet.
Verteilung näherungsweise aus Stichprobenwerten: 
 
=tx1,...,xn
 
Eine Funktion der Stichprobe wird allgemein als Statistik bezeichnet (und ist
 
auch eine Zufallsvariable). Eine Realisation eines Schätzers heißt Schätzwert
 
oder Schätzung.
 
Eine Schätzfunktion heißt erwartungstreu, wenn der Erwartungswert der
 
Schätzfunktion den geschätzten Parameter ergibt.
 
Eine Schätzfunktion heißt konsistent, wenn sie sich mit wachsendem n  
 
(größerer Stichprobe) immer mehr dem geschätzten Parameter nähert, d. h.  
 
ihre Varianz kleiner wird.
 
Ein Schätzer ist dann effizient, wenn er die kleinstmögliche Varianz aufweist.  
 
  
== Was ist ein Konfidenzintervall? ==
 
Ein (1-  )-Konfidenzintervall für einen Parameter ist ein Intervall um den
 
geschätzten Parameter, in dem der tatsächliche Parameter mit der
 
Überdeckungswahrscheinlichkeit 1-   liegt.   heißt dabei Konfidenzzahl.
 
Konfidenzintervall für μ: x−z1−/2/n,xz1−/2/n
 
Konfidenzintervall für σ2: [n−1∗s2/n−1
 
2
 
;1−/2,n−1∗s2/n−1
 
2
 
;/2]
 
  
== Was ist eine Hypothese? Was ist die Nullhypothese, was die Alternative? Fehler 1./2. Art? ==
+
Siehe auch [[de.wikipedia:Poisson-Verteilung|die Poisson-Verteilung]] auf der deutschen Wikipedia.
Eine Hypothese ist eine Annahme (zB über die Verteilung einer Zufallsvariablen
 
oder den Wert eines Parameters), die getestet werden soll. Führt man einen
 
statistischen Test durch, so nimmt man die so genannte Nullhypothese H0 an.
 
Gleichzeitig gibt es immer eine Gegenhypothese oder Alternative H1. Die
 
Teststatistik ist eine nach einer bestimmten Vorschrift berechnete
 
Zufallsvariable. Fällt der Wert der Teststatistik in den so genannten kritischen
 
Bereich, wird die Nullhypothese H0 verworfen und H1 angenommen. Das
 
Signifikanzniveau  heißt auch Fehlerwahrscheinlichkeit 1. Art und gibt die
 
Wahrscheinlichkeit an, dass die richtige Hypothese abgelehnt wird. Mit der
 
Fehlerwahrscheinlichkeit 2. Art β wird die falsche Hypothese angenommen. Die
 
Fehlerwahrscheinlichkeiten können durch Vergrößern des Stichprobenumfangs
 
verkleinert werden. 1-β heißt Macht oder Schärfe des Tests.
 
  
== Was ist Regression? Was ist das Regressionsproblem? Regressionsgerade? Residuen? Wie testet man auf Abhängigkeit einer Variablen x? ==
+
== Exponentialverteilung ==
Das Regressionsproblem behandelt die Verteilung einer Variablen Y, wenn
+
[[Bild:Exponentialverteilung.svg|thumb|Dichte der Exponentialverteilung für ausgewählte <math>\lambda</math>]]<math>Ex(\tau), \tau > 0</math>, kontinuierlich, asymmetrisch
(mindestens) eine andere Variable x bestimmte, nicht zufällige Werte annimmt.  
 
x heißt unabhängig und ist keine Zufallsvariable. Y ist Zufallsvariable und
 
abhängig von x, sofern Regression vorliegt. Für jeden gewählten Wert von x
 
gibt es eine Verteilung von Y mit einem Mittelwert μy.x und einer Varianz σ2y.x.
 
Liegt einfache, lineare Regression vor, so kann die Abhängigkeit der Mittelwerte
 
μY.X von Y durch die Regressionsgerade angegeben werden:
 
 
yx=
 
a
 
b∗x−x
 
Die Parameter der Regressionsgeraden a und b werden aus den
 
Stichprobenwerten geschätzt, wobei man für
 
a den Wert y und für 
 
b den
 
Quotienten sxy/sx2 verwendet.
 
sXY ist übrigens die empirische Kovarianz, die sich aus der Summe aller
 
Produkte von Mittelabweichungen beider Variablen dividiert durch n-1
 
Freiheitsgrade ergibt. Auch die Varianz der Beobachtungen s2 kann geschätzt
 
werden durch:
 
s2=∑yi−
 
yi2/n−2
 
sxy=∑xi−x∗yi−y/n−1
 
sx2=∑xi−x/n−1
 
Die Differenzen zwischen gemessenen und geschätzten Werten yi−
 
yi nennt
 
man auch Residuen. Die Gerade wird so gewählt, dass die Summe der
 
quadrierten Residuen minimal wird.
 
Nimmt man die Verteilung von Y für jedes x als normal an, kann man
 
Konfidenzintervalle für die Parameter a, b, σ2 und μy.x angeben (mit Hilfe der
 
Parameterschätzungen und der t-Verteilung).
 
Test auf Regression (Test auf Abhängigkeit):
 
Die Nullhypothese H0: b = 0 besagt, dass alle Mittelwerte von Y gleich sind
 
(Alternative: b ≠ 0) und daher keine Regression vorliegt. Der kritische Bereich
 
ist |T| > tn-2;1-α/2, und als Teststatistik verwendet man:
 
T=b∗sx∗n−1/S
 
  
== Was ist Korrelation? Was ist das Korrelationsproblem? Was sind Kovarianz, empirische Kovarianz und Korrelationskoeffizient? Wie testet man auf Unkorreliertheit? ==
+
<math>\tau</math> ist der Erwartungswert. Manchmal wird die Exponentialverteilung auch durch die konstante Ausfallsrate <math>\lambda</math> beschrieben. Im folgenden sind daher immer zwei Formen für die Exponentialverteilung angebeben. Die Dichtefunktion ist gegeben als:
Das Korrelationsproblem behandelt die Frage, ob Korrelation vorliegt. Dies ist
+
<center><math>f(t) =
der Fall, wenn es einen Zusammenhang zwischen den Verteilungen zweier
+
\begin{cases}
Zufallsvariablen X und Y gibt. Es wird also die gemeinsame Verteilung von X
+
  \tfrac{1}{\tau}e^{-\frac{t}{\tau}}  & \mbox{fuer }t > 0 \\
und Y betrachtet, ohne eine Variable zu fixieren. Oft geht man in solchen
+
  0 & \mbox{sonst}
Problemen von einer bivariaten Normalverteilung aus. Für jedes X gibt es eine
+
\end{cases}\qquad f(t) =
Verteilung von Y und umgekehrt.
+
\begin{cases}
Die Korrelation ρ zwischen X und Y ergibt sich aus der Kovarianz σXY dividiert
+
  \lambda e^{-\lambda t}  & \mbox{fuer }t > 0 \\
durch das Produkt der beiden Standardabweichungen σX σY und ist eine
+
  0 & \mbox{sonst}
dimensionslose Größe im Intervall (–1,1); bei ρ = 0 sind X und Y unabhängig.
+
\end{cases}</math></center>
Als Schätzung verwendet man den empirischen Korrelationskoeffizienten,
+
Die Verteilungsfunktion ist gegeben als
welcher sich wiederum aus der empirischen Kovarianz sXY, dividiert durch das
+
<center><math>F(t) =  
Produkt der empirischen Standardabweichungen sX sY berechnet:
+
\begin{cases}
XY=XY/XY  rxy=sxy/sxsy
+
  1 - e^{-\frac{t}{\tau}}  & \mbox{fuer }t > 0 \\
sxy=∑xi−x∗yi−y/n−1
+
  0 & \mbox{sonst}
sx2=∑xi−x/n−1
+
\end{cases}\qquad F(t) =
sy
+
\begin{cases}
2
+
  1 - e^{-\lambda t}  & \mbox{fuer }t > 0 \\
=∑yi−y/n−1
+
  0 & \mbox{sonst}
Für den Test auf Unkorreliertheit (Test auf Unabhängigkeit) sind H0: ρ = 0 und
+
\end{cases}</math></center>
H1: ρ ≠ 0. Der kritische Bereich ist |T| > tn-2;1-α/2, und als Teststatistik
+
Der Erwartungswert ist dann
verwendet man:
+
<center><math>E(T) = \tau\qquad E(T) = \frac{1}{\lambda}</math></center>
T=R∗n−2/1−R2
+
und die Varianz ist
 +
<center><math>Var(T) = \tau^2\qquad Var(T) = \frac{1}{\lambda^2}</math></center>
  
== Wozu dienen 1-Stichproben-t-Test und 2-Stichproben-t-Test? ==
+
Die Exponentialverteilung ist ein Modell fuer die zufaellige Dauer von Zeitintervallen. Eine wichtige Anwendung der Exponentialverteilung ist die Errechnung der "Mean Time Between Failure", also der durschnittlichen Lebenserwartung, von Bauteilen die keiner Alterung unterliegen.
Man vergleicht damit die Mittel zweier Populationen untereinander (2-
 
Stichproben-t-Test) oder man vergleicht das Mittel einer Population mit einem
 
vorgegebenen Wert (1-Stichproben-t-Test, nur bei unbekannter
 
Standardabweichung).  
 
1 Stichproben t-Test: H0:=0 H1:0
 
x0S/ntn−1,1−
 
s=∑xi−x/n−1
 
2 Stichproben t-Test: H0:x=y H1:xy
 
Ttn1n2−2;1−
 
T=
 
X−
 
Y/[n1–1∗sx2n2−1∗sy
 
2
 
]/[n1n2−2]∗1/n11/n2
 
  
== Wozu dient der χ2-Anpassungstest? ==
 
Mit Hilfe dieses Tests kann man eine Hypothese über die Form einer Verteilung
 
prüfen. Dazu teilt man die Stichprobe in k Klassen ein und berechnet
 
T=∑hi−ei2/ei ei=n∗pi
 
wobei hi die Häufigkeiten und ei die theoretischen Wahrscheinlichkeiten
 
(aufgrund der mit H0 angenommenen Verteilung) pi multipliziert mit n sind.
 
Als kritischen Bereich nimmt man:
 
Tk−1;1−
 
2
 
  
== Wozu dient der Kolgorov-Smirnov-Test? ==
+
Siehe auch [[de.wikipedia:Exponentialverteilung|die Exponentialverteilung]] auf der deutschen Wikipedia. Im Skriptum wird die Exponentialverteilung auch in {{DutterSkriptum|91|Kapitel 9.3.1, S. 125 ff.}} behandelt.
Man testet damit, ob eine hypothetische Verteilung F0 zugrunde liegt, indem
 
man die absolute Differenz zwischen empirischer und hypothetischer
 
Verteilungsfunktion betrachtet.
 
  
== Was geschieht bei der Varianzanalyse? Was steht in der Varianzanalyse-Tafel? ==
+
== Rechtecksverteilung ==
Eine betrachtete Größe weist oft eine Variation auf, die sich aus zufälliger
+
<math>R (a, b)</math>: stetig, symmetrisch.  
Variation sowie Variation durch einen bestimmten Einfluss zusammensetzt. In
 
der Varianzanalyse trennt man diese beiden Variationen (Varianzzerlegung).
 
Dazu wird die Quadratsumme (Summe der Abweichungen vom
 
Stichprobenmittel) zerlegt.
 
Mit Hilfe der Varianzanalyse kann man die Mittelwerte von k
 
Normalverteilungen vergleichen. Man nimmt H0:1=2=...=k gegen
 
H1:r!=s (für mindestens ein r ≠ s) an. Danach berechnet man die
 
Quadratsumme innerhalb jeder Stichprobe qI und die Quadratsumme
 
zwischen den Stichproben qZ :
 
qI=∑∑xij−
 
xj2 qZ=∑∑
 
xj−x2=∑n∗
 
xj−x
 
Die Varianzanalyse-Tabelle sieht so aus:
 
Variation FG q s2 F
 
Zwischen
 
Gruppen k-1 qZ s
 
Z2=qZ/k−1 sZ2/sI2
 
Innerhalb der
 
Gruppen n-k qI s
 
I2=qI/n−k
 
Gesamt n-1 q
 
Der Wert der Teststatistik F wird mit dem kritischen Bereich F > Fk-1,n-k;1-α
 
getestet.  
 
H0:1=2=...=k H1:r!=s fürmindestenseinrungleichs
 
F=sZ2/sI
 
2
 
  
== Was ist das Klassifizierungsproblem? Was ist eine Kontingenztafel? ==
+
Erwartungswert: <math>\tfrac{1}{2}(a+b)</math>, Varianz: <math>\tfrac{1}{12}(b-a)^2</math>
Oft möchte man Dinge zählen, die in bestimmte Kategorien fallen. Es gibt das
 
einfache Klassifizierungsproblem (zB 4 Klassen für Aussehen von Erbsen nach
 
Kreuzungsversuch) und das zweifache Klassifizierungsproblem (zB Haarfarbe
 
und Augenfarbe). Man hat jeweils vorgegebene theoretische Häufigkeiten und
 
untersucht, ob die Abweichungen der tatsächlichen Häufigkeiten von ersteren
 
nur zufälliger Natur sind. Eine Tabelle, die die absoluten Häufigkeiten der
 
Merkmale gemeinsam darstellt, heißt Kontingenztafel.
 
Teststatistik T=∑hj−ej2/ej
 
Einfach:  
 
Klassen beobachtet (hj) theoretisch (ej) hj - ej
 
1...k
 
∑ ∑ ∑
 
Tn;1−
 
2
 
Zweifach:
 
Klasse 1 / Klasse 2 1...c ∑
 
1...r hck ∑h
 
Total ∑ ∑
 
Tr−1c−1;1−
 
2
 
  
== Was macht die likelihood-Funktion? Was ist die Maximum-Likelihood-Methode? ==
+
== Lognormalverteilung ==
Die Maximum-Likelihood-Methode soll einen brauchbaren Schätzer für
+
<math>X \approx N(\mu, \sigma^2)</math>, <math>Y = e^X</math>. Y folgt Lognormalverteilung
Parameter einer Verteilung finden, indem sie jenen Wert des Parameters wählt,
 
der die Stichprobe als wahrscheinlichstes Resultat erscheinen lässt. Dazu der
 
Parameter θ so gewählt, dass die Likelihood-Funktion
 
l;x1,...,xn=fx1∗fx2∗...∗fxn ein Maximum annimmt (f ist die Dichte
 
der Verteilung).  
 
  
== Was besagt der zentrale Grenzwertsatz? ==
+
= Weitere Formeln =
Besitzt die Verteilung der Grundgesamtheit eine endliche Varianz, was meist
+
[[TU_Wien:Statistik_und_Wahrscheinlichkeitstheorie_VO_(Dutter)/Formeln_für_mündliche_Prüfung| Formelsammlung aus dem Vowi]]
der Fall ist, so ist die Verteilung der Mittelwerte für genügend große
 
Stichproben annähernd normal.
 
  
== Wie testet man auf Gleichheit zweier Varianzen? ==
+
= Fußnoten =
Mit Hilfe des F-Tests:
+
<references />
H0:x2=y
 
2
 
H1:x2y
 
2
 
TFn1−1,n2−1;1−
 
T=sx
 
2
 
/sy
 
2
 
  
 
[[Kategorie:Materialien]]
 
[[Kategorie:Materialien]]

Aktuelle Version vom 22. Februar 2016, 22:08 Uhr

Inhaltsverzeichnis

Vorwort[Bearbeiten]

Diese Ausarbeitung dient dem einfacheren und übersichtlicheren Lernen. Es sei aber gesagt, dass es wahrscheinlich nicht ausreicht nur die Fragen hier zu lernen, da nicht alles vorkommt, was auch tatsächlich gefragt wird (obwohl die Überdeckungswahrscheinlichkeit schon eher so 90% ist schätze ich) und teilweise die Ausführungen an manchen Stellen zu kurz sind. Vor allem die späteren Kapitel (die fast immer gefragt werden): Analytische Statistik, varianzanalyse, Regression/Korrelation sollte auf jeden Fall in kooperation mit dem Skriptum oder anderen Resourcen gelernt werden.

Anmerkung: Dutter möchte meistens auch die grafische Darstellung von Parametern wissen. Konkretes Beispiel: Wo sieht man das z_{1-\frac{\alpha}{2}} in der Normalverteilung?

Weiters sollten auch die wichtigsten Formeln auswendiggelernt werden (Teststatistiken, wie man die Parameter ausrechnet). Herleitungen werden nicht immer verlangt, geben aber sicher Bonsupunkte.

Versionen[Bearbeiten]

Diese Ausarbeitung von Prüfungsfragen, die häufig zur mündlichen Prüfung kommen, wurde ursprünglich von michi204 ausgearbeitet (hier gepostet). Die Version, die dieser Version zugrunde liegt, wurde von dodlhuat weiter verbessert und hier gepostet. Neu strukturiert und Detail-erweitert von For3st (2009/08).

Beschreibende Statistik[Bearbeiten]

Welche Momente einer Verteilung gibt es?[Bearbeiten]

Siehe auch Kapitel 3.3, S. 25 ff..

1. Momente (Lageparameter)[Bearbeiten]

  • Der Mittelwert oder Erwartungswert ("arithmetische Mittel"): \bar{x} = \frac{1}{n}\cdot\sum_{i=1}^n x_i
  • Der Median ist der mittlere Wert einer geordneten Stichprobe bzw. das arithmetische Mittel der beiden mittleren Werte bzw. er ist das 50%-Quantil ( siehe Quantil).
  • Der Modus oder Modalwert ist der häufigste Wert einer Verteilung. Sind mehrere Werte gleich häufig, wird die Mitte dieser Werte angenommen, falls die Werte nebeneinander liegen, ansonsten ist der Modalwert undefiniert.
  • Bei einem \alpha-Quantil Q_\alpha ist ein \alpha-Anteil der Verteilung kleiner oder gleich und ein (1-\alpha)-Anteil grösser oder gleich Q_\alpha. Der Wert der Verteilungsfunktion F(x) ergibt also für das \alpha-Quantil genau F(Q_\alpha) = \alpha.
  • Ein Perzentil P_\alpha ist analog, nur mit Prozentangaben, definiert.
  • Quartile sind die .25- bzw. .75-Quantile (identisch mit den 25%- und 75%-Perzentilen).

2. Momente (Streuungsparameter)[Bearbeiten]

  • Die Varianz ist das mittlere Abstandsquadrat vom Mittelwert: s^2 = \frac{1}{n-1} \cdot \sum(x_i - \bar{x})^2.
  • Die Standardabweichung oder Streuung ist die Wurzel der Varianz, also s = \sqrt{s^2}. Eine "grobe Faustformel" für die Streuung ist \frac{Maximalwert - Minimalwert}{3}
  • Der Interquartilabstand IQR IQR = Q_{0,75} - Q_{0,25} ACHTUNG: s_{IQR} = \frac{Q_{0,75} - Q_{0,25}}{1,349} ist die approximierte Standardabweichung durch den IQR. Das ist nicht der IQR selber.
  • Der Median der absoluten Abweichung vom Median Medmed s_{Medmed} = \frac{1}{0,6745} \cdot med(|x_i - median|)

3. Moment (Schiefe)[Bearbeiten]

Die Schiefe ist grösser als Null wenn es mehr positive als negative Abweichungen vom Mittelwert gibt:

\frac{\frac{1}{n} \cdot \sum(x_i-\bar{x})^3}{s^3}

4. Moment (Kurtosis)[Bearbeiten]

Kurtosis mit unterschiedlichen Parametern. flache Wölbung: negative Kurtosis, spitze Wölbung: positive Kurtosis

Die Kurtosis (auch Wölbung oder Exzess) wird auch "heavy tails" genannt, sie ist ein Maß für die "Flachheit einer Verteilung".

\frac{\frac{1}{n} \cdot \sum(x_i - \bar{x})^4}{s^4} - 3

Bei Schiefe und Kurtosis hat es sich eingebürgert, einfach durch n zu dividieren. Durch das Subtrahieren von 3 hat die N(0,1)-Verteilung eine Kurtosis von 0.

Was ist das Messniveau? Welche Skalen gibt es, was charakterisiert sie, welche Momente sind dort verwendbar?[Bearbeiten]

Das Messniveau gibt eine Unterteilung in verschiedene Datentypen / Skalen vor:

Nominalskala 
z.B. Geschlecht: keine Ordnung, Modalwert
Ordinalskala 
z.B. Schulnoten: Ordnung, aber keine Abstände: Modalwert, Median, Quantile
Intervallskala 
z.B. Temperatur °C: Ordnung, Abstände, kein abs. Nullpunkt: Modalwert, Median, Quantile, Mittel
Verhältnisskala 
z.B. Temperatur in Kelvin: Ordnung, Abstände, absoluter Nullpunkt: Modalwert, Median, Quantile, Mittel

Was ist der MedMed?[Bearbeiten]

Der MedMed, oder kurz MAD (Median Absolute Deviation) ist ein robustes Streuungsmaß. Es wird berechnet, indem man den Median berechnet und dann alle Abweichungen der Datenwerte von Median berechnet. Diese Abweichungen sortiert man nun der Größe nach und wählt wieder den Median (daher auch der Name MedMed).

Achtung: Bei der Verwendung des MedMed gibt es einen Faktor zu berücksichtigen, damit der Wert des MAD mit der Standardabweichung vergleichbar ist! Ähnliches gilt beim durch den IQR (Inter-Quartil-Range) approximierte Standardabweichung s_{IQR}

Was ist die Varianz? Warum n-1 Freiheitsgrade?[Bearbeiten]

Die Varianz ist ein Maß, das beschreibt, wie stark eine Messgröße (genauer eine Zufallsgröße) „streut“. Sie wird berechnet, indem man die Abstände der Messwerte vom Mittelwert quadriert, addiert und durch die Anzahl der Messwerte teilt.

Die Formel:

s^2 = \frac{1}{n-1} \cdot \sum (x_i - \bar{x})^2

(manchmal "korrigierte Stichprobenvarianz" oder "empirische Varianz" genannt, meist mit s² statt σ² dargestellt)

Man geht von n unabhängigen Stichprobenwerten aus, also n Freiheitsgraden. Da man jedoch die Differenz vom bereits bekannten Mittelwert bildet und die Summe aller Abweichungen 0 ist, kennt man bei n-1 Abweichungen bereits auch die letzte Abweichung, daher n-1 Freiheitsgrade. Ein nicht unerwünschter Nebeneffekt ist, das die Varianz nun für n=1 nicht definiert ist statt 0.

Video wo rechnerisch skizziert wird warum die Formel mit dem n-1 eine bessere Erwartungstreue hat: [1]

Wikipedia rechnet die Erwartungstreue auch vor.

Was ist die Standardabweichung?[Bearbeiten]

Die Standardabweichung (oder Streuung) ist die mittlere Abweichung vom arithmetischen Mittel einer Verteilung. Sie berechnet sich aus der Quadratwurzel der Varianz und ist ein Streuungsmaß, gibt also die Breite der Verteilung an. Eine sehr grobe Schätzung für die Standardabweichung lautet: \frac{Maximalwert - Minimalwert}{3}

Wahrscheinlichkeitstheorie[Bearbeiten]

(Elementar-)Ereignisse, Ereignisalgebra, Ereignisraum, Operationen, Borel-Mengen[Bearbeiten]

Siehe auch Kapitel 4.1

Führt man einen Versuch (z.B. Würfeln mit 2 Würfeln) durch, kann dieser verschiedene Versuchsausgänge haben ((1,1), (1,2), … , (6,6)). Die Menge aller möglichen Versuchsausgänge heißt Ω (Stichprobenraum), und jede Teilmenge (z.B. 2 gleiche = {(1,1),(2,2), …, (6,6)} heißt Ereignis, einpunktige Teilmengen (z.B. (1,1)) heißen Elementarereignisse.


Auf Ereignisse kann man folgende Operationen anwenden:

  • Durchschnittsbildung ("A und B": A \cap B)
  • Vereinigung ("A oder B": A \cup B)
  • Komplementbildung ("nicht A": A^c)

Besondere Ergeinisse:

  • Das unmögliche Ereignis Ø zb: A \cap A^c
  • Das sichere Ereignis Ω zb: A \cup A^c


Ereignisse können disjunkt sein (ihr Durchschnitt ist leer). Ein Ereignis A kann ein anderes B implizieren (A \subset B), dh A ist in B enthalten. Eine Reihe von Ereignissen ist genau dann Zerlegung eines anderen Ereignisses, wenn ihre Vereinigung das andere Ereignis ergibt und sie alle disjunkt sind. Die Regeln von De Morgan gilt daher:

A \cap B = (A^c \cup B^c)^c

und

A \cup B = (A^c \cap B^c)^c.

Die Menge aller betrachteten Ereignisse daher die Menge aller Teilmengen von Ω heißt Ereignisraum A (z.B. \{\{(1,1)\}, \{1,1\} \cup \{1,2\}, \dots\}). Zusammen mit den Operationen (Durchschnitt, Vereinigung, Komplementbildung), dem sicheren Ereignis Ω und Ø (unmögliches Ereignis) heißt der Ereignisraum Ereignisalgebra. Ist diese bezüglich Vereinigung und Komplementbildung abgeschlossen, heißt sie Ereignis-σ-Algebra.

Ist die Menge aller möglichen Versuchsausgänge \mathbb{R}, und nimmt man als Ereignisalgebra die Menge aller links halboffenen Intervalle sowie Vereinigungen und Komplemente dieser, dann ist die kleinste σ-Algebra, die all diese Mengen enthält, die borelsche σ-Algebra B, Teilmengen davon Borel-Mengen.

Welche Arten von Wahrscheinlichkeiten gibt es?[Bearbeiten]

Während die a-priori-Wahrscheinlichkeit theoretischer Natur ist und im Vorhinein angegeben wird (Münze hat 2 gleich wahrscheinliche Seiten, daher P(W) = \tfrac{1}{2}), bestimmt man die a-posteriori-Wahrscheinlichkeit empirisch (57 von 100 Münzwürfen haben Wappen gezeigt, daraus folgt: P(W) = \tfrac{57}{100}).

Was ist ein Wahrscheinlichkeitsmaß?[Bearbeiten]

Siehe auch Kapitel 4.2 (S. 39).

Ein Maß μ weist jedem Elementarereignis aus Ω und damit jedem Ereignis aus A ein Gewicht zu, ist also eine Funktion vom Ereignisraum A in [0,\infty]. Für Maße gilt natürlich σ- Additivität, dh die Summe aller Maße einer Zerlegung eines Ereignisses ergibt das Maß dieses Ereignisses. Gilt auch μ(Ω) = 1, hat man ein Wahrscheinlichkeitsmaß, und man schreibt fortan P statt μ. Die Wahrscheinlichkeit eines Ereignisses ist dann die Summe der Wahrscheinlichkeiten seiner Elementarereignisse. Sind alle Gewichte gleich, ist die Wahrscheinlichkeit eines Ereignisses gleich der Anzahl der günstigen dividiert durch die Anzahl der möglichen Elementarereignisse.

Rechenregeln:

P(A) = 1 - P(A^c)


P(A - B) = P (A) - P (A \cap B)


P(A\cup B) = P(A) + P(B) - P(A\cap B)

Was ist ein Wahrscheinlichkeitsraum?[Bearbeiten]

Die Menge aller möglichen Versuchsausgänge Ω zusammen mit der darauf definierten σ-Algebra \mathfrak{A} Referenzfehler: Für ein <ref>-Tag fehlt ein schließendes </ref>-Tag.

Was ist eine bedingte Wahrscheinlichkeit? Was bedeutet Unabhängigkeit von Ereignissen?[Bearbeiten]

Durch das Vorwissen wird der Ereignisraum eingeschränkt, sodass die Wahrscheinlichkeiten sich ändern (z.B. 1 Würfel mit den Ereignissen A: "Zahl≤3" und B: "Zahl=1". Dann ist P(B) = \tfrac{1}{6}, aber es gilt P(B|A) = \tfrac{1}{3}).

Es gilt:  P(B|A) = \tfrac{P(B \cap A)}{P(A)}, also die Wahrscheinlichkeit für A und B, normiert auf den durch den Eintritt von A bereits eingeschränkten Ereignisraum. Wenn der Eintritt von A keinen Einfluss mehr hat, daher P(B|A) = P(B), nennt man die Ereignisse A und B unabhängig. Aus obiger Formel erhält man: P(B \cap A) = P(B|A) \cdot P(A). Für unabhängige Ereignisse gilt dann wegen P(B|A) = P(B) -> P(B \cap A) = P(B) \cdot P(A).

Was ist eine Zufallsvariable? Wann ist sie diskret/kontinuierlich? Was ist eine Dichtefunktion? Was ist eine Verteilungsfunktion? Transformationen von Zufallsvariablen?[Bearbeiten]

Eine Zufallsvariable ist formal eine Abbildung von einem Wahrscheinlichkeitsraum (\Omega,\mathfrak{A}, P)[1] in einen einfacheren (\Omega,\mathfrak{B}, P_1)[1]. Jede Menge B aus \mathfrak{B}[1] muss ein Urbild A = X^{-1}(B) besitzen.

Eine diskrete Zufallsvariable kann höchstens abzählbar viele verschiedene Werte annehmen. p_i = P(X=x_i) gibt eine Punktwahrscheinlichkeit an und heißt Wahrscheinlichkeitsfunktion, und es gilt \sum_{i=1}^{n}p_i = 1.

F(x) = P(X \le x) ist gleich der Summe über p_i bis x und heißt Verteilungsfunktion.

Eine Zufallsvariable ist stetig, wenn es eine nicht negative Funktion f(x) gibt ,sodass sich die Verteilungsfunktion F(x) für alle x\ \epsilon\ \mathbb{R} als Integral über f darstellen lässt.

Die Verteilungsfunktion F(x) = P(X \le x) ist gleich dem Integral über f von -\infty\  bis\  x. f heißt Dichtefunktion und ist die Ableitung der Verteilungsfunktion.

Transformationen von Zufallsvariablen: Addition wirkt sich nur auf den Mittelwert aus (verschiebt sich um addierten Betrag), Multiplikation wirkt sich auf die Varianz aus (diese wird dividiert). Zieht man den Mittelwert einer normalverteilten Zufallsvariablen ab und dividiert durch die Standardabweichung, erhält man eine N(0,1), also standard-normalverteilte Zufallsvariable.

Was ist ein Wahrscheinlichkeitsnetz?[Bearbeiten]

Im Wahrscheinlichkeitsnetz trägt man die Werte einer geordneten Stichprobe sowie die empirische Verteilungsfunktion auf. Bei Normalverteilung ergibt sich durch die Anordnung der y-Achse annähernd eine Gerade. Aus der Ausgleichsgeraden lassen sich die Parameter der Verteilung grafisch schätzen. bei 50%\mu und bei 84,13% s

http://de.wikipedia.org/wiki/Empirische_Verteilungsfunktion

Was ist die mathematische Erwartung und die Varianz einer Zufallsvariablen?[Bearbeiten]

Die Erwartung (oder der Mittelwert) einer Zufallsvariablen X ist im stetigen Fall das Integral der Dichtefunktion mal h(x)=x:

E(X) = \int\limits_{-\infty}^{\infty}x \cdot f(x)dx

und im diskreten Fall:

E(X) = \sum_{i=1}^{n}x_i \cdot p_i

Die Varianz einer Zufallsvariablen X ist:

Var(X) = E(X^2)-(E(X))^2

Dutter ist hier lieber die nicht ausmultiplizierte Form zu verwenden: Var(X) = E[X - E(X)]^2

Die Standardabweichung einer Zufallsvariablen ist \sigma = \sqrt{Var(X)}.

Was ist eine mehrdimensionale (multivariate) Zufallsvariable? Was ist eine Randverteilung? Wann sind zwei Zufallsvariablen voneinander unabhängig?[Bearbeiten]

Siehe auch Kapitel 4.5, S. 60 ff..

In der Praxis wird selten eine Größe alleine untersucht, da die Zusammenhänge zwischen verschiedenen Merkmalen wichtig sind. Man kann nun einen p-dimensionalen Zufallsvektor (X_1, ..., X_p) definieren. Verteilungsfunktion und Wahrscheinlichkeitsdichte können ähnlich wie im eindimensionalen Fall definiert werden.

Die Verteilung einer Zufallsvariablen unabhängig vom Wert der anderen (d.h. für alle Werte der anderen) heißt Randverteilung (Kapitel 4.5.1, S. 64).

Zwei Zufallsvariablen X und Y sind genau dann voneinander unabhängig, wenn die Verteilungsfunktion des Zufallsvektors (X, Y) gleich dem Produkt der beiden Randverteilungsfunktionen ist, daher:

F(x,y) = F_X(x)*F_Y(y) \quad \forall x, y \in \R.

Die Randverteilung sieht folgendermaßen aus:

im diskreten [2] Fall 
X: p_{i.} = P_{X,i} = P(X=x_i) = \sum_{j=1}^\infty p_{ij}
bzw.
Y: p_{.j} = P_{Y,i} = P(Y=y_j) = \sum_{i=1}^\infty p_{ij}
im stetigen Fall 
f_X(x) = \int\limits_{-\infty}^\infty f(x,y)dy
bzw.
f_Y(y) = \int\limits_{-\infty}^\infty f(x,y)dx


Y/X 0 1 2 3 P(Y = j) = p_{.j}
1 0 \tfrac{3}{8} \tfrac{3}{8} 0 \tfrac{6}{8}
3 \tfrac{1}{8} 0 0 \tfrac{1}{8} \tfrac{2}{8}
p_{i.} = P(X = i) \tfrac{1}{8} \tfrac{3}{8} \tfrac{3}{8} \tfrac{1}{8} 1

Was besagt der zentrale Grenzwertsatz?[Bearbeiten]

Besitzt die Verteilung der Grundgesamtheit eine endliche Varianz, was meist der Fall ist, so ist die Verteilung der arithmetischen Mittel von Zufallsstichproben für einen genügend großen Stichprobenumfang annähernd normalverteilt.

Analytische Statistik[Bearbeiten]

Was ist eine Stichprobe?[Bearbeiten]

Eine Untermenge einer Population heißt Stichprobe. Mathematisch gesehen stellt sie einen n-dimensionalen Zufallsvektor (X_1, \dots, X_n) mit unabhängig und identisch verteilten Elementen X_i dar. Die Stichprobenwerte (x_1, \dots, x_n) sind eine Realisation dieses Zufallsvektors. Damit mit einfachen Mitteln Aussagen über die Verteilung oder ihre Parameter gemacht werden können, müssen die Stichprobenwerte zufällig aus der Population gewählt werden.

Was ist ein Schätzer? Wann ist er erwartungstreu, konsistent, oder effizient?[Bearbeiten]

Ein Schätzer 't' (auch eine Schätzfunktion genannt, siehe auch Skriptum Kap. 5.2, S. 76) berechnet einen Parameter q einer Verteilung näherungsweise aus Stichprobenwerten:

\hat{\theta} = t(x_1, \dots, x_n)

Eine Funktion der Stichprobe wird allgemein als Statistik bezeichnet (und ist auch eine Zufallsvariable). Im Falle der Verwendung zur näherungsweisen Bestimmung (Schätzung) gewisser Kenngrößen spricht man von einem Schätzer. Eine Realisation eines Schätzers heißt Schätzwert oder Schätzung.

Eine Schätzfunktion heißt erwartungstreu, wenn der Erwartungswert der Schätzfunktion den geschätzten Parameter ergibt.

Eine Schätzfunktion heißt konsistent, wenn sie sich mit wachsendem n (größerer Stichprobe) immer mehr dem geschätzten Parameter nähert, d. h. ihre Varianz kleiner wird.

Ein Schätzer ist dann effizient, wenn er die kleinstmögliche Varianz aufweist.

Wenn die Verteilung symetrisch ist, stellt der Median \tilde{X} ebenfalls einen konsistenten und erwartungstreuen Schätzer der Erwartung dar. Die Güte des Schätzers hängt von seiner Variabilität ab, d.h. je kleiner die Varianz desto besser. (1/3 mehr Beobachtungen für \tilde{X} um die gleiche Genauigkeit wie bei \bar{X} zu erhalten)


siehe http://www.statistik.tuwien.ac.at/public/dutt/vorles/inf_bak/node46.html

Was macht die likelihood-Funktion? Was ist die Maximum-Likelihood-Methode?[Bearbeiten]

Die Maximum-Likelihood-Methode soll einen brauchbaren Schätzer für Parameter einer Verteilung finden, indem sie jenen Wert des Parameters wählt, der die Stichprobe als wahrscheinlichstes Resultat erscheinen lässt. Dazu wird der Parameter θ so gewählt, dass die Likelihood-Funktion l(\theta; x_1, \dots, x_n) = f_\theta(x_1)\cdot\dots\cdot f_\theta(x_n) ein Maximum annimmt (f ist die Dichtefunktion der Verteilung).

Was ist ein Konfidenzintervall?[Bearbeiten]

Ein (1-\alpha)-Konfidenzintervall für einen Parameter ist ein Intervall um den geschätzten Parameter, in dem der tatsächliche Parameter mit der Überdeckungswahrscheinlichkeit 1-\alpha liegt. \alpha heißt dabei Konfidenzzahl.

Konfidenzintervall für den Mittelwert[Bearbeiten]

Das Konfidenzintervall (siehe auch Kapitel 5.3, S. 79). Zugrunde liegt die Tatsache, dass der Mittelwert \bar{X} einer Normalverteilung N(\mu, \sigma^2) selbst einer Normalverteilung N(\mu, \tfrac{\sigma^2}{n}) unterliegt. Nun wird diese Verteilung so transformiert, dass daraus eine N(0,1)- Verteilung, also eine Standardnormalverteilung, wird. Die Transformation ist nun \tfrac{\bar{X} - \mu}{\sigma/\sqrt{n}}. Wichtig ist zu erkennen, dass durch diese Transformation tatsächlich aus der N(\mu, \tfrac{\sigma^2}{n})-Verteilung für \bar{X} eine N(0,1)-Verteilung wird. Gemäß den Transformationsregeln (S. 29) ergibt die Transformation \tfrac{\bar{X} - \mu}{\sigma/\sqrt{n}} = \tfrac{1}{\sigma/\sqrt{n}} \cdot \bar{X} - \tfrac{\mu}{\sigma/\sqrt{n}} den Mittelwert

y_\mu = ax_\mu + b = \tfrac{1}{\sigma/\sqrt{n}} \cdot \mu - \tfrac{\mu}{\sigma/\sqrt{n}} = 0

und die Varianz (wobei s_x^2 = \tfrac{\sigma^2}{n})

s_y^2 = a^2s_x^2 = \left(\tfrac{1}{\sigma/\sqrt{n}}\right)^2 \cdot s_x^2 = \tfrac{1}{\sigma^2/n} \cdot s_x^2 = \tfrac{n}{\sigma^2} \cdot \tfrac{\sigma^2}{n} = 1


Die Wahrscheinlichkeit, dass der transformierte Mittelwert (der nun standard-normalverteilt ist) nun in den entsprechenden Bereich fällt, entspricht dem \alpha-Quantil der Standard-normalverteilung. Es gilt daher:

\bigg(z_{\tfrac{\alpha}{2}} < \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} < z_{1-\tfrac{\alpha}{2}}\bigg).

Wenn die beiden Ungleichungen ausgerechnet werden, ergibt sich die Formel fuer das Konfidenzintervall:

\bigg(\bar{x} - z_{1-\tfrac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{1-\tfrac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\bigg)


Ist die Standardabweichung unbekannt, wird das Konfidenzintervall länger, da es aus der Stichprobe geschätzt werden muss. Aus der Standard-Normalverteilung wird dann magisch eine Student-t-Verteilung mit n-1 Freiheitsgraden (Warum?). Das Konfidenzintervall sieht dann so aus:

\bigg(\bar{x} - t_{n-1;1-\tfrac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}, \bar{x} + t_{n-1;1-\tfrac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\bigg)

Die t-Verteilung entspricht im Prinzip einer Normalverteilung bei kleinem n, d.h. mit weniger Stichproben. Ab n>30 ist die t-Verteilung durch die N-Verteilung annäherbar. Da ich in der N-Verteilung die Stichprobenanzahl nirgends unterbringen kann, sattel ich in diesem Fall auf die t-Verteilung um und kann statt der Varianz (die ich ja gar nicht weiß) die Stichprobenzahl in Form der Freiheitsgrade hinein bringen. Wenn die Stichprobenzahl groß genug ist, nähert sich die t-Verteilung eh der N-Verteilung an, wenn sie aber eigentlich zu klein ist, dann hab ich mit der t-Verteilung ein viel seriöseres Intervall, das breiter ist, weil ich weniger Informationen habe.

Intervallsschätzung mit \mu bei unbekannten \sigma (1-Stichproben-t-Test)[Bearbeiten]

TODO: Herleitung laut Skriptum (Kapitel Intervallsschätzungen -> mit \mu bei unbekannten \sigma)

Hypothesen:

H_0: \mu = \mu_0, \qquad H_1: \mu > \mu_0

Teststatistik:

T = \mu_0 + \frac{S}{\sqrt{n}}\cdot t_{n-1;1-\alpha}

Kritischer Bereich:

\bar{X} > T

Konfidenzintervall für die Varianz[Bearbeiten]

Konfidenzintervall für \sigma^2 (siehe auch Kapitel 5.8.1, S. 97)
\Bigg( \frac{(n-1) \cdot S^2}{\chi^2_{n-1;1-\tfrac{\alpha}{2}}}, \frac{(n-1) \cdot S^2}{\chi^2_{n-1;\tfrac{\alpha}{2}}}\Bigg)

Was ist eine Hypothese? Was ist die Nullhypothese, was die Alternative? Fehler 1./2. Art?[Bearbeiten]

Zusatzinfo: [3]

Hypothesen[Bearbeiten]

Unter Hypothese versteht man in der Statistik eine anhand empirischer Daten zu prüfende Annahme.

Eine Nullhypothese (H_0) ist eine Annahme (z.B. über die Verteilung einer Zufallsvariablen oder den Wert eines Parameters), die getestet werden soll.

Die Alternativhypothese (H_1) steht für eine Menge von alternativen Annahmen bezüglich der Nullhypothese. Falls die Nullhypothese nicht verworfen werden kann, besteht aus statistischer Sicht allerdings kein Grund, von ihrer Gültigkeit auszugehen (vgl. Fehler 2. Art).

Die Teststatistik ist eine nach einer bestimmten Vorschrift berechnete Zufallsvariable. Fällt der Wert der Teststatistik in den so genannten kritischen Bereich, wird die Nullhypothese verworfen und H_1 angenommen.

Fehlerwahrscheinlichkeiten[Bearbeiten]

Die Fehlerwahrscheinlichkeit 1. Art ("\alpha-Fehler") gibt die Wahrscheinlichkeit an, dass die richtige Hypothese abgelehnt wird ("false positive"). Er passiert mit der Wahrscheinlichkeit \alpha (=Signifikanzniveau). Die Fehlerwahrscheinlichkeit 2. Art ("\beta-Fehler") gibt die Wahrscheinlichkeit an, dass eine falsche Hypothese als richtig angenommen wird ("false negative"). Die Fehlerwahrscheinlichkeiten können durch Vergrößern des Stichprobenumfangs verkleinert werden. Die Wahrscheinlichkeit, mit der eine falsche Nullhypothese entlarvt wird, heißt Macht oder Schärfe eines Tests und kann mit 1-\beta angegeben werden. Anders gesagt: Wenn man in einer Verteilung sich jeweils das \beta ausrechnet und die 1- \beta Werte in einer Kurve aufträgt, kann man in der Kurve die Macht ablesen.

Siehe auch Kapitel 5.5, S. 87 und Hypothese@Wikipedia

2 Populationen[Bearbeiten]

Vergleich der Mittel (2-Stichproben-t-Test) (Spezialfall der Varianzenanalyse)[Bearbeiten]

Man vergleicht damit die Mittel zweier Populationen untereinander (2-Stichproben-t-Test) oder man vergleicht das Mittel einer Population mit einem vorgegebenen Wert (1-Stichproben-t-Test, nur bei unbekannter Standardabweichung).

Hypothesen:

H_0: \mu_x = \mu_y, \qquad H_1: \mu_x \ne \mu_y

Teststatistik:

T = \frac{\bar{X}-\bar{Y}}{\sqrt{ \frac{(n_1-1)s_x^2 + (n_2-1)s_y^2}{n_1+n_2-2} \cdot (\frac{1}{n_1} + \frac{1}{n_2})}} = \sqrt{\frac{n_1n_2(n_1+n_2-2)}{n_1+n_2}} \cdot \frac{\bar{X}-\bar{Y}}{\sqrt{(n_1-1)s_x^2 + (n_2-1)s_y^2}}

Kritischer Bereich:

-t_{n_1 + n_2 -2;1-\tfrac{\alpha}{2}} < T < t_{n_1 + n_2 -2;1-\tfrac{\alpha}{2}}

Vergleich der Varianzen[Bearbeiten]

Mit Hilfe des F-Tests:

H_0: \sigma_x^2 = \sigma_y^2 \qquad H_1: \sigma_x^2 > \sigma_y^2

Teststatistik:

T = \frac{s_x^2}{s_y^2}

Kritischer Bereich:

T > F_{n_1 - 1, n_2 - 1, 1-\alpha}

Anpassungstests[Bearbeiten]

Wozu dient der \chi^2-Anpassungstest?[Bearbeiten]

Mit Hilfe dieses Tests kann man eine Hypothese über die Form einer Verteilung prüfen. Dazu teilt man die Stichprobe in k Klassen ein und berechnet die Teststatistik:

T = \sum_{i=1}^k\frac{(h_i-e_i)^2}{e_i}


e_i = p_i \cdot n

wobei h_i die Häufigkeiten und e_i die theoretischen Wahrscheinlichkeiten (aufgrund der mit H_0 angenommenen Verteilung) p_i multipliziert mit n sind.

Als kritischen Bereich nimmt man:

 T > \chi_{k-1;1-\alpha}^2

Wozu dient der Kolmogorov-Smirnov-Test?[Bearbeiten]

Man testet damit ob zwei Zufallsvariablen die selbe Verteilung haben oder ob einer Zufallsvariable eine hypothetische Verteilung F_0 zugrunde liegt, indem man die absolute Differenz zwischen empirischer und hypothetischer Verteilungsfunktion betrachtet.

Varianzanalyse[Bearbeiten]

Was geschieht bei der Varianzanalyse? Was steht in der Varianzanalyse-Tafel?[Bearbeiten]

Eine betrachtete Größe weist oft eine Variation auf, die sich aus zufälliger Variation sowie Variation durch einen bestimmten Einfluss zusammensetzt. In der Varianzanalyse trennt man diese beiden Variationen (Varianzzerlegung). Dazu wird die Quadratsumme (Summe der Abweichungen vom Stichprobenmittel) zerlegt.

Mit Hilfe der Varianzanalyse kann man die Mittelwerte von k Normalverteilungen vergleichen. Man nimmt H_0: \mu_1 = \mu_2 = \dots = \mu_k gegen H_1: \mu_r \ne \mu_s für mindestens ein r \ne s. Danach berechnet man die Quadratsumme innerhalb jeder Stichprobe q_I und die Quadratsumme zwischen den Stichproben q_Z:

q_I = \sum_{j=1}^{k}\sum_{i=1}^{n_j}(x_{ij} - \bar{x}_j)^2 = \sum_{j=1}^{k}(n-1) \cdot s_{x_j}^2
q_Z = \sum_{j=1}^{k}n_j(\bar{x}_j - \bar{x})^2

Die Varianzanalyse-Tabelle sieht so aus:

Variation Freiheitsgrade
FG
Quadratsumme
q
mittlere Quadratsumme
s^2

F
Zwischen den Gruppen k-1 q_Z s_Z^2 = \frac{q_Z}{k-1} \frac{(n-k)\cdot q_Z}{(k-1)\cdot q_I}
Innerhalb der Gruppe n-k q_I s_I^2 = \frac{q_I}{n-k}
Total n-1 q


Der Wert der Teststatistik F wird nun gegen den kritischen Bereich getestet:

H_0: \mu_1 = \mu_2 = \dots = \mu_k, \qquad H_1: \mu_r \ne \mu_s für mindestens ein r\ne s

Teststatistik:

F = \frac{q_Z/(k-1)}{q_I/(n-k)} = \frac{(n-k)\cdot q_Z}{(k-1) \cdot q_I}

Kritischer Bereich:

F > F_{k-1;n-k;1-\alpha}

Regression und Korrelation[Bearbeiten]

Was ist Regression? Was ist das Regressionsproblem? Regressionsgerade? Residuen? Wie testet man auf Abhängigkeit einer Variablen x?[Bearbeiten]

Das Regressionsproblem behandelt die Verteilung einer Variablen Y, wenn (mindestens) eine andere Variable x nicht zufällige Werte annimmt. x heißt unabhängig und ist keine Zufallsvariable. Y ist eine Zufallsvariable und abhängig von x, sofern eine Regression vorliegt. Für jeden gewählten Wert von x gibt es eine Verteilung von Y mit einem Mittelwert \mu_{y.x} und einer Varianz \sigma^2_{y.x}. Liegt eine einfache, lineare Regression vor, so kann die Abhängigkeit der Mittelwerte \mu_{y.x} von Y durch die Regressionsgerade angegeben werden:

\hat{y}_x = \hat{a} + \hat{b}(x-\bar{x})

Die Parameter der Regressionsgeraden \hat{a} und \hat{b} werden aus den Stichprobenwerten geschätzt, wobei man für \hat{a} den Wert \bar{y} und für \hat{b} den Quotienten \tfrac{s_{xy}}{s_x^2} verwendet. s_x^2 ist dabei die empirische Varianz der unabhängigen Variable und errechnet sich daher aus:

s_x^2 = \frac{1}{n-1} \cdot \sum_{i=1}^n(x_i - \bar{x})^2

Die empirische Kovarianz s_{xy} ergibt sich aus der Summe aller Produkte von Mittelabweichungen beider Variablen dividiert durch n-1 Freiheitsgrade:

s_{xy} = \frac{1}{n-1} \cdot \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) = \frac{1}{n-1}\Big(\sum(x_iy_i) - n\bar{x}\bar{y}\Big)

Auch die Varianz der Beobachtungen s^2 kann geschätzt werden durch:

s^2 = \frac{1}{n-2}\cdot \sum_{i=1}^n(y_i-\hat{y}_i)^2 = \frac{n-1}{n-2}(s_y^2 - \hat{b}^2s_x^2)

Die Differenzen zwischen gemessenen und geschätzten Werten y_i - \hat{y_i} nennt man auch Residuen. Die Gerade wird so gewählt, dass die Summe der quadrierten Residuen minimal wird.

Nimmt man die Verteilung von Y für jedes x als normal an, kann man Konfidenzintervalle für die Parameter a, b, \sigma^2 und \mu_{y.x} angeben (mit Hilfe der Parameterschätzungen und der t-Verteilung, siehe Kapitel 7.3.1, S. 114).

Test auf Regression (Test auf Abhängigkeit)[Bearbeiten]

Die Nullhypothese H_0: b = 0 besagt, dass alle Mittelwerte von Y gleich sind (Alternative H_1: b \ne 0) und daher keine Regression vorliegt. Als Teststatistik verwendet man:

T = \frac{\hat{b} \cdot s_x \cdot \sqrt{n-1}}{S} = \hat{b}\cdot\sqrt{\frac{s_x^2 \cdot (n-1)}{s^2}}

und der kritische Bereich ist:

|T| > t_{n-2;1-\tfrac{\alpha}{2}},

Da der hier der Betrag |T| angegeben ist, handelt es sich eigentlich um einen zweiseitig begrenzten Bereich, daher ist 1-\tfrac{\alpha}{2} zu nehmen.

Was ist Korrelation? Was ist das Korrelationsproblem? Was sind Kovarianz, empirische Kovarianz und Korrelationskoeffizient? Wie testet man auf Unkorreliertheit?[Bearbeiten]

Das Korrelationsproblem behandelt die Frage, ob Korrelation vorliegt. Dies ist der Fall, wenn es einen Zusammenhang zwischen den Verteilungen zweier Zufallsvariablen X und Y gibt. Es wird also die gemeinsame Verteilung von X und Y betrachtet, ohne eine Variable zu fixieren. Oft geht man in solchen Problemen von einer bivariaten Normalverteilung aus. Für jedes X gibt es eine Verteilung von Y und umgekehrt.

Die Korrelation ρ zwischen X und Y ergibt sich aus der Kovarianz \sigma_{XY} dividiert durch das Produkt der beiden Standardabweichungen \sigma_X und \sigma_Y und ist eine dimensionslose Größe im Intervall (–1,1); bei ρ = 0 sind X und Y unabhängig.

Als Schätzung verwendet man den empirischen Korrelationskoeffizienten, welcher sich wiederum aus der empirischen Kovarianz s_{XY}, dividiert durch das Produkt der empirischen Standardabweichungen s_X und s_Y berechnet:

\rho_{XY} = \frac{\sigma_{XY}}{\sigma_X\cdot\sigma_Y} \qquad r_{XY} = \frac{s_{XY}}{s_X\cdot s_Y}

Test auf Unkorreliertheit[Bearbeiten]

Für den Test auf Unkorreliertheit (Test auf Unabhängigkeit, siehe auch S. 118) sind H_0:\rho = 0 und H_1: \rho \ne 0. Der kritische Bereich ist:

|T| > t_{n-2;1-\frac{\alpha}{2}}

und als Teststatistik verwendet man:

T = R \cdot \sqrt{\frac{n-2}{1-R^2}}

wobei R die Zufallsvariable bezeichnet, die die Werte des empirischen Korrelationskoeffizienten r_{XY} annimmt.

Was ist die Kovarianz ?[Bearbeiten]

(Folgendes ist aus Wikipedia kopiert:)

Die Kovarianz ist in der Statistik eine (nichtstandardisierte) Maßzahl für den Zusammenhang zweier statistischer Merkmale (im Folgenden X und Y).

s_{xy} = \frac{1}{n-1} \cdot \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) = \frac{1}{n-1}\Big(\sum(x_iy_i) - n\bar{x}\bar{y}\Big)
  • Die Kovarianz ist positiv, wenn X und Y tendenziell einen gleichsinnigen linearen Zusammenhang besitzen, d. h. hohe Werte von X gehen mit hohen Werten von Y einher und niedrige mit niedrigen.
  • Die Kovarianz ist hingegen negativ, wenn X und Y einen gegensinnigen linearen Zusammenhang aufweisen, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher.
  • Ist das Ergebnis 0, so besteht kein Zusammenhang oder ein nicht linearer Zusammenhang z. B. eine U-förmige Beziehung zwischen den beiden Variablen X und Y.

Die Kovarianz gibt zwar die Richtung einer Beziehung zwischen zwei Variablen an, über die Stärke des Zusammenhangs wird aber keine Aussage getroffen. Dies liegt an der Abhängigkeit des Ergebnisses von den Maßeinheiten der beteiligten Variablen X und Y. Ist z. B. die Kovarianz zweier Variablen mit der Maßeinheit "Meter" 5,2 so ist die Kovarianz der gleichen Werte in der Maßeinheit "Zentimeter" 520. Die Kovarianz ist deshalb in ihrer "Rohform" als Maßzahl für den stochastischen Zusammenhang nur wenig anschaulich und auch schwer vergleichbar.

Beispiel des Korrelationskoevizienten bei Scatter-Plot: [4]

Zählstatistik[Bearbeiten]

Was ist das Klassifizierungsproblem? Was ist eine Kontingenztafel? Einfache, Zweifache Klassifizierung ?[Bearbeiten]

Oft möchte man Dinge zählen, die in bestimmte Kategorien fallen. Es gibt das einfache Klassifizierungsproblem (z.B. 4 Klassen für Aussehen von Erbsen nach Kreuzungsversuch) und das zweifache Klassifizierungsproblem (z.B. Haarfarbe und Augenfarbe). Man hat jeweils vorgegebene theoretische Häufigkeiten und untersucht, ob die Abweichungen der tatsächlichen Häufigkeiten von ersteren nur zufälliger Natur sind. Eine Tabelle, die die absoluten Häufigkeiten der Merkmale gemeinsam darstellt, heißt Kontingenztafel. Teststatistik: T = \sum\frac{(h_i - e_i)^2}{e_i}.

Der kritische Bereich ist eine \chi^2-Statistik mit k-1 Freiheitsgraden im einfachen und (r-1)(c-1) Freiheitsgraden im zweifachen Fall.

Die Kontingenztafel sieht im einfachen Fall so aus (siehe auch Kapitel 8.1, S. 119):

Klassen beobachtet theoretisch h_j - e_j \tfrac{(h_j - e_j)^2}{e_j}
Klasse 1 h_1 e_1 \ldots \ldots
Klasse 2 h_2 e_2 \ldots \ldots
\vdots \vdots \vdots \vdots \vdots
Klasse k h_k e_k \ldots \ldots
Total h_1 + \dots + h_k e_1 + \dots + e_k \ldots \ldots

T > \chi^2_{k-1;1-\alpha}

Und beim Problem der zweifachen Klassifizierung ist das ganze naturgemäß umfangreicher. In der nachfolgenden Tabelle gibt es r Klassen für Merkmal A und c Klassen fuer Merkmal B. Die Einzelnen Zellen geben jeweils die tatsächlich auftretende Häufigkeit (h_{..}) und in Klammer die erwartete Häufigkeit (e_{..}) an:

Merkmal B
Merkmal A B_1 B_2 \ldots B_c \sum
A_1 h_{11}(\hat{e}_{11}) h_{12}(\hat{e}_{12}) \ldots h_{1c}(\hat{e}_{1c}) h_{1.}
A_2 h_{21}(\hat{e}_{21}) h_{22}(\hat{e}_{22}) \ldots h_{2c}(\hat{e}_{2c}) h_{2.}
\vdots \vdots \vdots \vdots \vdots \vdots
A_r h_{r1}(\hat{e}_{r1}) h_{r2}(\hat{e}_{r2}) \ldots h_{rc}(\hat{e}_{rc}) h_{r.}
\sum h_{.1} h_{.2} \ldots h_{.c} h_{..} = n

T = \sum\frac{(h_{ij} - e_{ij})^2}{e_{ij}}

T > \chi^2_{(r-1) \cdot (c-1);1-\alpha}

Ein praktisches Beispiel kann in Kapitel 8.2, S. 120 bewundert werden.

Verteilungen[Bearbeiten]

Im folgenden eine Zusammenfassung der wichtigsten Verteilungen. Vor allem Normalverteilung, Chi-Quadrat-, t- und F- Verteilung sollten gut gelernt werden (Dichtefunktion, etc.). Die Verteilungen sind in ungefährere absteigender Relevanz (für die Dutter Prüfung) geordnet. Nach der Erfahrung kann alles nach Binomialverteilung vernachlässigt werden (keine Gewähr).


Normalverteilung[Bearbeiten]

Normalverteilungen mit unterschiedlichen Parametern

N(\mu,\sigma^2): kontinuierlich, symmetrisch.

Die Normalverteilung gilt zumindest annähernd für viele natürliche Prozesse. Aus dem Zentralen Grenzwertsatz folgt, dass aus vielen einzelnen unabhängigen Einflüssen entstehende Größen normalverteilt sind. Die Normalverteilung ist bei großem n eine gute Näherung für die Binomialverteilung.

Dichtefunktion: Gaußsche Glockenkurve mit arithmetischem Mittel der Verteilung als Höhepunkt, Mittel ± Standardabweichung als Wendepunkte.

Verteilungsfunktion: Anfang und Ende sehr flach und um den Median sehr steil.


N(0,1) wird auch die Standardnormalverteilung genannt.

Chi-Quadrat-Verteilung[Bearbeiten]

\chi^2-Verteilungen mit unterschiedlichen Freiheitsgraden

\chi^2(n): kontinuierlich, asymmetrisch. n ist der Freiheitsgrad.

Der Erwartungswert ist n, die Varianz 2n. Meist verwendet man die zentrale \chi^2-Verteilung mit nur einem Parameter n. Die Summe quadrierter Zufallsvariablen (normalverteilt) ist \chi^2-verteilt. Man verwendet diese Verteilung z.B. zur Schätzung der Varianz. Die \chi^2-Verteilung ist sozusagen die quadrierte Normalverteilung.

Einige Verwendungszwecke:

  • Anpassungstest
  • Klassifizierungsproblem


Siehe auch die Chi-Quadrat-Verteilung auf der deutschen Wikipedia.

t-Verteilung[Bearbeiten]

T-Verteilung mit ausgewählten Freiheitsgraden

t(m): kontinuierlich, symmetrisch. m sind Freiheitsgrade.

Erwartungswert: 0. Für große m (>30) kann die t-Verteilung durch die N(0,1)-Verteilung angenähert werden.

Die Varianz ergibt sich für n>2 als

\operatorname{Var}(X)=\frac{n}{n-2}.

Einige Verwendungszwecke:


Siehe auch die Studentsche t-Verteilung auf der deutschen Wikipedia.

F-Verteilung[Bearbeiten]

Dichtefunktion der F-Verteilung mit ausgewählten Freiheitsgraden m und n

F(m,n): kontinuierlich, asymmetrisch. m und n sind Freiheitsgrade.

Diese Verteilung ergibt sich aus dem Quotienten zweier \chi^2 Verteilungen mit m bzw. n Freiheitsgraden:

F(m,n)=\frac{\frac{\chi_m^2}{m}}{\frac{\chi_n^2}{n}}

Einige Verwendungszwecke:

  • Test auf geiche Varianzen
  • Varianzanalyse


Einige Bonusinformationen aus der Wikipedia:

Der Erwartungswert ist nur für n > 2 definiert und lautet dann

\operatorname{E}(X) = \frac{n}{n-2}.

Die Varianz ist nur für n > 4 definiert und lautet dann

\operatorname{Var}(X) = \frac{2 n^2 (m+n-2)}{m (n-2)^2 (n-4)}.

Für manche Tests ist es nützlich zu wissen, dass gilt:

F^{-1}(p;m;n) = \frac{1}{F^{-1}(1-p;n;m)}

Siehe auch die F-Verteilung auf der deutschen Wikipedia.

Binomialverteilung[Bearbeiten]

B (n, p): diskret, asymmetrisch.

Für p=0,5 symmetrisch.
E(X) = np
Var(X) = np(1-p)

Die Binomialverteilung kann zur Beschreibung von n Versuchen, die mit der Wahrscheinlichkeit p erfolgreich sind, verwendet werden. Für große n kann die Binomialverteilung gut durch die Normalverteilung angenähert werden.

B(1,p) (daher mit nur einem Versuch) heißt auch Bernoulli-Verteilung.


Wie lässt sich die Binomialverteilung durch die Normalverteilung annähern?[Bearbeiten]

Für große Werte von n lässt sich die Binomialverteilung durch die Normalverteilung mit dem Mittelwert \mu = np und der Varianz \sigma^2 = np(1-p) gut annähern. Für Werte von p nahe 0 oder 1 ist die Verteilung allerdings recht schief, für p nahe 0.5 ist die Annäherung recht gut.

Poissonverteilung[Bearbeiten]

Poissonverteilung mit \lambda = 6

P(\lambda): diskret, asymmetrisch.

λ ist zugleich Erwartungswert, Varianz und Schiefe. Für große \lambda kann die Poisson-Verteilung durch die Normalverteilung mit \mu=\lambda und \sigma^2=\lambda angenähert werden. Sie ist die Grenzverteilung der Binomialverteilung (für p → 0, n → ∞). Sie wird typischerweise für die Zahl von Phänomenen innerhalb einer Zeiteinheit verwendet.


Siehe auch die Poisson-Verteilung auf der deutschen Wikipedia.

Exponentialverteilung[Bearbeiten]

Dichte der Exponentialverteilung für ausgewählte \lambda

Ex(\tau), \tau > 0, kontinuierlich, asymmetrisch

\tau ist der Erwartungswert. Manchmal wird die Exponentialverteilung auch durch die konstante Ausfallsrate \lambda beschrieben. Im folgenden sind daher immer zwei Formen für die Exponentialverteilung angebeben. Die Dichtefunktion ist gegeben als:

f(t) = 
\begin{cases} 
  \tfrac{1}{\tau}e^{-\frac{t}{\tau}}  & \mbox{fuer }t > 0 \\
  0 & \mbox{sonst}
\end{cases}\qquad f(t) =
\begin{cases} 
  \lambda e^{-\lambda t}  & \mbox{fuer }t > 0 \\
  0 & \mbox{sonst}
\end{cases}

Die Verteilungsfunktion ist gegeben als

F(t) = 
\begin{cases} 
  1 - e^{-\frac{t}{\tau}}  & \mbox{fuer }t > 0 \\
  0 & \mbox{sonst}
\end{cases}\qquad F(t) =
\begin{cases} 
  1 - e^{-\lambda t}  & \mbox{fuer }t > 0 \\
  0 & \mbox{sonst}
\end{cases}

Der Erwartungswert ist dann

E(T) = \tau\qquad E(T) = \frac{1}{\lambda}

und die Varianz ist

Var(T) = \tau^2\qquad Var(T) = \frac{1}{\lambda^2}

Die Exponentialverteilung ist ein Modell fuer die zufaellige Dauer von Zeitintervallen. Eine wichtige Anwendung der Exponentialverteilung ist die Errechnung der "Mean Time Between Failure", also der durschnittlichen Lebenserwartung, von Bauteilen die keiner Alterung unterliegen.


Siehe auch die Exponentialverteilung auf der deutschen Wikipedia. Im Skriptum wird die Exponentialverteilung auch in Kapitel 9.3.1, S. 125 ff. behandelt.

Rechtecksverteilung[Bearbeiten]

R (a, b): stetig, symmetrisch.

Erwartungswert: \tfrac{1}{2}(a+b), Varianz: \tfrac{1}{12}(b-a)^2

Lognormalverteilung[Bearbeiten]

X \approx N(\mu, \sigma^2), Y = e^X. Y folgt Lognormalverteilung

Weitere Formeln[Bearbeiten]

Formelsammlung aus dem Vowi

Fußnoten[Bearbeiten]

  1. 1,0 1,1 1,2 Referenzfehler: Es ist ein ungültiger <ref>-Tag vorhanden: Für die Referenz namens Altdeutsch wurde kein Text angegeben.