TU Wien:Statistik und Wahrscheinlichkeitstheorie VO (Dutter)/Ausarbeitung mündlicher Prüfungsfragen: Unterschied zwischen den Versionen

Aus VoWi
Zur Navigation springen Zur Suche springen
(→‎Welche Momente einer Verteilung gibt es?: ok, lvl1 ueberschriften alle gesetzt)
Zeile 137: Zeile 137:
 
dividieren. Durch das Subtrahieren von 3 hat die N(0,1)-Verteilung eine  
 
dividieren. Durch das Subtrahieren von 3 hat die N(0,1)-Verteilung eine  
 
Kurtosis von 0.
 
Kurtosis von 0.
Was ist das Messniveau? Welche Skalen gibt es, was charakterisiert  
+
 
sie, welche Momente sind dort verwendbar?  
+
== Was ist das Messniveau? Welche Skalen gibt es, was charakterisiert sie, welche Momente sind dort verwendbar? ==
 
Das Messniveau gibt eine Unterteilung in verschiedene Datentypen / Skalen  
 
Das Messniveau gibt eine Unterteilung in verschiedene Datentypen / Skalen  
 
vor:  
 
vor:  
Zeile 149: Zeile 149:
 
Verhältnisskala (zB Temparatur K): Ordnung, Abstände, absoluter Nullpunkt:  
 
Verhältnisskala (zB Temparatur K): Ordnung, Abstände, absoluter Nullpunkt:  
 
Modalwert, Median, Quantile, Mittel  
 
Modalwert, Median, Quantile, Mittel  
Was ist ein MedMed?  
+
 
 +
== Was ist ein MedMed? ==
 
Die Verteilung wird am Median nach rechts „umgeklappt“ (dadurch zB bei  
 
Die Verteilung wird am Median nach rechts „umgeklappt“ (dadurch zB bei  
 
Normalverteilung doppelt so hoch). Von der Resultierenden Verteilung wird der  
 
Normalverteilung doppelt so hoch). Von der Resultierenden Verteilung wird der  
 
Median berechnet.  
 
Median berechnet.  
Was ist die Varianz? Warum n-1 Freiheitsgrade?  
+
 
 +
== Was ist die Varianz? Warum n-1 Freiheitsgrade? ==
 
Die Varianz berechnet sich folgendermaßen:  
 
Die Varianz berechnet sich folgendermaßen:  
 
s2=∑xi−x2/n−1  
 
s2=∑xi−x2/n−1  
Zeile 161: Zeile 163:
 
auch die letzte Abweichung, daher n-1 Freiheitsgrade. Ein nicht unerwünschter  
 
auch die letzte Abweichung, daher n-1 Freiheitsgrade. Ein nicht unerwünschter  
 
Nebeneffekt ist, das die Varianz nun für n=1 nicht definiert ist statt 0.  
 
Nebeneffekt ist, das die Varianz nun für n=1 nicht definiert ist statt 0.  
Was ist die Standardabweichung?  
+
 
 +
== Was ist die Standardabweichung? ==
 
Die Standardabweichung ist die mittlere Abweichung vom arithmetischen Mittel  
 
Die Standardabweichung ist die mittlere Abweichung vom arithmetischen Mittel  
 
einer Verteilung. Sie berechnet sich als Quadratwurzel der Varianz und ist ein  
 
einer Verteilung. Sie berechnet sich als Quadratwurzel der Varianz und ist ein  
 
Streuungsmaß, gibt also die Breite der Verteilung an. Eine sehr grobe  
 
Streuungsmaß, gibt also die Breite der Verteilung an. Eine sehr grobe  
 
Schätzung für die Standardabweichung lautet: (Maximalwert – Minimalwert) /  
 
Schätzung für die Standardabweichung lautet: (Maximalwert – Minimalwert) /  
3.  
+
3.
 +
 
 
== Was ist ein Wahrscheinlichkeitsnetz? ==
 
== Was ist ein Wahrscheinlichkeitsnetz? ==
 
Im Wahrscheinlichkeitsnetz trägt man die Werte einer geordneten Stichprobe  
 
Im Wahrscheinlichkeitsnetz trägt man die Werte einer geordneten Stichprobe  

Version vom 1. Februar 2009, 14:18 Uhr

Wahrscheinlichkeitstheorie

Erkläre (Elementar-)Ereignisse, Ereignisalgebra, Ereignisraum, Operationen, Borel-Mengen

Führt man einen Versuch (zB Würfeln mit 2 Würfeln) durch, kann dieser verschiedene Versuchsausgänge haben ((1,1), (1,2), … , (6,6)). Die Menge aller möglichen Versuchsausgänge heißt , und jede Teilmenge (zB 2 gleiche = {(1,1),(2,2), …, (6,6)} heißt Ereignis, einpunktige Teilmengen (zB (1,1)) heißen Elementarereignisse. Auf Ereignisse kann man folgende Operationen anwenden: Durchschnittsbildung (A und B), Vereinigung (A oder B), Komplementbildung (nicht A). Das unmögliche Ereignis Ø und das sichere Ereignis Ω sind Sonderfälle. Ereignisse können disjunkt sein (ihr Durchschnitt ist leer). Ein Ereignis A kann ein anderes B implizieren (A c B), dh A ist in B enthalten. Eine Reihe von Ereignissen ist genau dann Zerlegung eines anderen Ereignisses, wenn ihre Vereinigung das andere Ereignis ergibt und sie alle disjunkt sind. deMorgan- Regeln gelten: A n B = (Ac u Bc)c und A u B = (Ac n Bc)c Die Menge aller betrachteten Ereignisse dh die Menge aller Teilmengen von Ω heißt Ereignisraum A (zB {{(1,1)},{1,1}u{1,2}, …}). Zusammen mit den Operationen und Ø heißt der Ereignisraum Ereignisalgebra. Ist diese bezüglich Vereinigung und Komplementbildung abgeschlossen, heißt sie Ereignis-σ- Algebra. Ist die Menge aller möglichen Versuchsausgänge R, so betrachtet man nicht einfach P(R), sondern nimmt die Menge aller links halboffenen Intervalle sowie Vereinigungen und Komplemente dieser. Die kleinste σ-Algebra, die all diese Mengen enthält, heißt borelsche σ-Algebra B, Teilmengen davon Borel-Mengen.

Welche Arten von Wahrscheinlichkeiten gibt es?

Während die a-priori-Wahrscheinlichkeit theoretischer Natur ist und im Vorhinein angegeben wird (Münze hat 2 gleich wahrscheinliche Seiten, daher P(W) = ½), bestimmt man die a-posteriori-Wahrscheinlichkeit empirisch (57 von 100 Münzwürfen haben Wappen gezeigt => P(W)=57/100).

Was ist ein Wahrscheinlichkeitsmaß?

Ein Maß μ weist jedem Elementarereignis aus Ω und damit jedem Ereignis aus A ein Gewicht zu, ist also eine Funktion vom Ereignisraum A in Ω. Für Maße gilt natürlich σ- Additivität, dh die Summe aller Maße einer Zerlegung eines Ereignisses ergibt das Maß dieses Ereignisses. Gilt auch μ() = 1, hat man ein Wahrscheinlichkeitsmaß, und man schreibt fortan P statt μ. Die Wahrscheinlichkeit eines Ereignisses ist dann die Summe der Wahrscheinlichkeiten seiner Elementarereignisse. Sind alle Gewichte gleich, ist die Wahrscheinlichkeit eines Ereignisses gleich der Anzahl der günstigen dividiert durch die Anzahl der möglichen Elementarereignisse. Rechenregeln: P(A) = 1 – P(Ac) und P (A – B) = P (A) – P (A n B) und

Was ist ein Wahrscheinlichkeitsraum?

Die Menge aller möglichen Versuchsausgänge zusammen mit der darauf definierten σ-Algebra A und einem Wahrscheinlichkeitsmaß P (A[0,∞]) bilden zusammen einen Wahrscheinlichkeitsraum (Ω, A, P).

Was ist eine bedingte Wahrscheinlichkeit? Was bedeutet Unabhängigkeit von Ereignissen?

Durch das Vorwissen wird der Ereignisraum eingeschränkt, sodass die Wahrscheinlichkeiten sich ändern (zB 1 Würfel, A…“Zahl≤3“ B…“Zahl=1“, so ist P(B) = 1/6, aber P(B|A) nur mehr 1/3). Es gilt: P(A|B) = P(A n B) / P(B), also einfach die Wahrscheinlichkeit für A und B, normiert auf den durch den Eintritt von B bereits eingeschränkten Ereignisraum. Wenn der Eintritt von B keinen Einfluss mehr hat, dh P(A|B) = P(A), nennt man die Ereignisse A und B unabhängig. Aus obiger Formel erhält man ganz einfach: P(A n B) = P(A|B) * P (B). Für unabhängige Ereignisse gilt dann wegen P(A|B) = P(A) ganz einfach: P(A n B) = P(A) * P(B).

Was ist eine Zufallsvariable? Wann ist sie diskret/kontinuierlich? Was ist eine Dichtefunktion? Was ist eine Verteilungsfunktion? Transformationen von Zufallsvariablen?

Eine Zufallsvariable ist formal eine Abbildung von einem Wahrscheinlichkeitsraum (Ω, A, P) in einen einfacheren (Ω, B, P1). Jede Menge B aus B muss ein Urbild X-1 (B) als Element aus A besitzen. Eine diskrete Zufallsvariable kann höchstens abzählbar viele verschiedene Werte annehmen. pi = P(X=xi) gibt eine Punktwahrscheinlichkeit an und heißt Wahrscheinlichkeitsfunktion, und die Summe über alle pi ergibt 1. F(x) = P(X ≤ x) ist gleich der Summe über pi bis x und heißt Verteilungsfunktion. Eine Zufallsvariable ist stetig, wenn ihre Verteilungsfunktion absolut stetig ist, dh sie ist für alle x aus R als Integral über f darstellbar. Die Verteilungsfunktion F(x) = P(X ≤ x) ist gleich dem Integral über f bis x. f heißt Dichtefunktion und ist die Ableitung der Verteilungsfunktion. Transformationen von Zufallsvariablen: Addition wirkt sich nur auf den Mittelwert aus (verschiebt sich um addierten Betrag), Multiplikation wirkt sich auf die Varianz aus (diese wird dividiert). Zieht man den Mittelwert einer normalverteilten Zufallsvariablen ab und dividiert durch die Standardabweichung, erhält man eine N(0,1), also standard-normalverteilte Zufallsvariable.

Was sind die mathematische Erwartung und die Varianz einer Zufallsvariablen?

Die Erwartung (oder der Mittelwert) einer Zufallsvariablen X ist: im stetigen Fall E(X ) = ∫x∗f xdx im diskreten Fall EX=∑xi pi Die Varianz einer Zufallsvariablen X ist VarX=EX2−EX2 Die Standardabweichung einer Zufallsvariablen ist =VarX

Was ist eine mehrdimensionale (multivariate) Zufallsvariable? Was ist eine Randverteilung? Wann sind zwei Zufallsvariablen voneinander unabhängig?

In der Praxis wird selten eine Größe alleine untersucht, da die Zusammenhänge zwischen verschiedenen Merkmalen wichtig sind. Man kann nun einen p-dimensionalen Zufallsvektor (X1, …, Xp) definieren. Verteilungsfunktion und Wahrscheinlichkeitsdichte können ähnlich wie im eindimensionalen Fall definiert werden. Die Verteilung der einen Zufallsvariablen für einen bestimmten Wert der anderen heißt Randverteilung. Zwei Zufallsvariablen X und Y sind genau dann voneinander unabhängig, wenn die Verteilungsfunktion des Zufallsvektors (X, Y) gleich dem Produkt der beiden Randverteilungsfunktionen FX*FY ist: F(x,y) = FX(x)*FY(y) für alle x aus . Die Randverteilung im sieht folgendermaßen aus im diskreten Fall X:pi=PX,i=PX=xi=∑pij

Y:pj=PY,i=PY=yj=∑pij 

im stetigen Fall f xX=∫f x,ydy f yY=∫f x,ydx Randverteilungstabelle: Y/X i P(Y=j) = Pj j ∑ Pi = P(X=i) ∑ ∑


Beschreibende Statistik

Welche Momente einer Verteilung gibt es?

1. Momente sind die Lageparameter: Mittelwert (Erwartungswert) , Median (Zentralwert), Modalwert (Modus), Quantile (Perzentile)… Mittelwert: x=∑xi/n−1 Der Median ist der mittlere Wert einer geordneten Stichprobe bzw. das Mittel der beiden mittleren Werte bzw. er ist das 50%-Quantil, siehe Quantil. Der Modus ist der häufigste Wert einer Verteilung. Ein p%-Quantil wird so gewählt, dass p % der Verteilung kleiner als dieses Quantil sind. Quartile sind 25 % bzw. 75 %-Quantile. Die Verteilungsfunktion F(Qp) ergibt also für das p- Quantil genau F(Qp) = p. 2. Momente sind Streuungsparameter: Varianz, Standardabweichung (Streuung – grobe Faustformel: (max – min) / 3) Varianz: s2=∑xi−x2/n−1 Standardabweichung: s=s2 Die Varianz ist also das mittlere Abstandsquadrat vom Mittelwert. Siehe Varianz. 3. Moment ist die Schiefe (>0 mehr positive als negative Abweichungen vom Mittelwert): s3=∑xi−x3/n 4. Moment ist die Kurtosis (>0 ‚heavy tails’ - Maß für „Flachheit einer Verteilung) s4=[∑xi−x3/n]−3 links: flache Wölbung – negative Kurtosis, rechts: spitze Wölbung – positive Kurtosis Bei Schiefe und Kurtosis hat es sich eingebürgert, einfach durch n zu dividieren. Durch das Subtrahieren von 3 hat die N(0,1)-Verteilung eine Kurtosis von 0.

Was ist das Messniveau? Welche Skalen gibt es, was charakterisiert sie, welche Momente sind dort verwendbar?

Das Messniveau gibt eine Unterteilung in verschiedene Datentypen / Skalen vor: Nominalskala (zB Geschlecht): keine Ordnung: Modalwert Ordinalskala (zB Schulnoten): Ordnung, aber keine Abstände: Modalwert, Median, Quantile Intervallskala (zB Temparatur °C): Ordnung, Abstände, kein abs. Nullpunkt: Modalwert, Median, Quantile, Mittel Verhältnisskala (zB Temparatur K): Ordnung, Abstände, absoluter Nullpunkt: Modalwert, Median, Quantile, Mittel

Was ist ein MedMed?

Die Verteilung wird am Median nach rechts „umgeklappt“ (dadurch zB bei Normalverteilung doppelt so hoch). Von der Resultierenden Verteilung wird der Median berechnet.

Was ist die Varianz? Warum n-1 Freiheitsgrade?

Die Varianz berechnet sich folgendermaßen: s2=∑xi−x2/n−1 Man geht von n unabhängigen Stichprobenwerten aus, also n Freiheitsgrade. Da man jedoch die Differenz vom bereits bekannten Mittelwert bildet und die Summe aller Abweichungen 0 ist, kennt man bei n-1 Abweichungen bereits auch die letzte Abweichung, daher n-1 Freiheitsgrade. Ein nicht unerwünschter Nebeneffekt ist, das die Varianz nun für n=1 nicht definiert ist statt 0.

Was ist die Standardabweichung?

Die Standardabweichung ist die mittlere Abweichung vom arithmetischen Mittel einer Verteilung. Sie berechnet sich als Quadratwurzel der Varianz und ist ein Streuungsmaß, gibt also die Breite der Verteilung an. Eine sehr grobe Schätzung für die Standardabweichung lautet: (Maximalwert – Minimalwert) / 3.

Was ist ein Wahrscheinlichkeitsnetz?

Im Wahrscheinlichkeitsnetz trägt man die Werte einer geordneten Stichprobe sowie (i-0.5)/n auf. Bei Normalverteilung ergibt sich durch die übliche Anordnung der y-Achse annähernd eine Gerade. Aus der Ausgleichsgeraden lassen sich die Parameter der Verteilung grafisch schätzen.


Verteilungen

Normalverteilung

N(μ, σ2), kontinuierlich, symmetrisch. Die Normalverteilung gilt zumindest annähernd für viele natürliche Prozesse. Aus dem Zentralen Grenzwertsatz folgt, dass aus vielen einzelnen unabhängigen Einflüssen entstehende Größen normalverteilt sind. Die Normalverteilung ist bei großem n eine gute Näherung für die Binomialverteilung. Dichte: Gaußsche Glockenkurve mit arithmetischem Mittel der Verteilung als Höhepunkt, Mittel ± Standardabweichung als Wendepunkte. Standardnormalverteilung ist N(0,1). Verteilungsfunktion: Anfang und Ende sehr flach und um den Median sehr steil. Chi-Quadrat-Verteilung χ2 (n), kontinuierlich, asymmetrisch. n nennt man die Freiheitsgrade, der Erwartungswert ist n, die Varianz 2n. Meist verwendet man die zentrale χ2-Verteilung mit nur einem Parameter n. Die Summe quadrierter Zufallsvariablen (normalverteilt) ist χ2-verteilt. Man verwendet diese Verteilung zB zur Schätzung der Varianz. Die χ2-Verteilung ist sozusagen die quadrierte Normalverteilung. Binomialverteilung B (n, p), diskret, asymmetrisch. Für p=0,5 symmetrisch. Erwartungswert np, Varianz np(1-p). Die Binomialverteilung kann zur Beschreibung von n Versuchen, die mit der Wahrscheinlichkeit p erfolgreich sind, verwendet werden. Für große n kann die Binomialverteilung gut durch die Normalverteilung angenähert werden. B (1,p) mit nur 1 Versuch heißt auch Bernoulliverteilung. Poissonverteilung P (λ), diskret, asymmetrisch. λ ist zugleich Erwartungswert, Varianz und Schiefe. Für große λ lässt sich die Poissonverteilung durch die Normalverteilung annähern. Sie ist die Grenzverteilung der Binomialverteilung (für p → 0, n → ∞). Sie wird typischerweise für die Zahl von Phänomenen innerhalb einer Zeiteinheit verwendet. F-Verteilung F(m,n), kontinuierlich, asymmetrisch. m und n sind Freiheitsgrade. Die F-Verteilung wird in der Varianzanalyse verwendet, um festzustellen, ob die Populationen zweier Stichproben die gleiche Varianz haben. t-Verteilung t(m), kontinuierlich, symmetrisch. m sind Freiheitsgrade. Erwartungswert: 0. Die t-Verteilung wird zur Schätzung des Erwartungswertes bei unbekannter Varianz verwendet (statt der Normalverteilung bei bekannter Varianz). Für große m (>30) kann die t-Verteilung durch die N(0,1)-Verteilung angenähert werden. Rechtecksverteilung R (a, b), diskret, symmetrisch. Erwartungswert: ½(a+b), Varianz: ½(b-a)2 Exponentialverteilung X ~ R (0,1), Y = -ln (X) Y folgt Exponentialverteilung Lognormalverteilung X ~ N (μ, σ2), Y = eX Y folgt Lognormalverteilung Wie lässt sich die Binomialverteilung durch die Normalverteilung annähern? Für große Werte von n lässt sich die Binomialverteilung durch die Normalverteilung mit dem Mittelwert μ = np und der Varianz σ2 = np(1-p) gut annähern. Für Werte von p nahe 0 oder 1 ist die Verteilung allerdings recht schief, für p nahe 0.5 ist die Annäherung recht gut.


Analytische Statistik

Was ist eine Stichprobe?

Eine Untermenge einer Population heißt Stichprobe. Mathematisch gesehen stellt sie einen n-dimensionalen Zufallsvektor (X1, …, Xn) mit unabhängig und identisch verteilten Elementen Xi dar. Die Stichprobenwerte (x1, …, xn) sind eine Realisation dieses Zufallsvektors. Damit mit einfachen Mitteln Aussagen über die Verteilung oder ihre Parameter gemacht werden können, müssen die Stichprobenwerte zufällig aus der Population gewählt werden. Was ist ein Schätzer? Wann ist er erwartungstreu, konsistent, oder effizient? Ein Schätzer (eine Schätzfunktion) t berechnet einen Parameter q einer Verteilung näherungsweise aus Stichprobenwerten:  =tx1,...,xn Eine Funktion der Stichprobe wird allgemein als Statistik bezeichnet (und ist auch eine Zufallsvariable). Eine Realisation eines Schätzers heißt Schätzwert oder Schätzung. Eine Schätzfunktion heißt erwartungstreu, wenn der Erwartungswert der Schätzfunktion den geschätzten Parameter ergibt. Eine Schätzfunktion heißt konsistent, wenn sie sich mit wachsendem n (größerer Stichprobe) immer mehr dem geschätzten Parameter nähert, d. h. ihre Varianz kleiner wird. Ein Schätzer ist dann effizient, wenn er die kleinstmögliche Varianz aufweist. Was ist ein Konfidenzintervall? Ein (1-  )-Konfidenzintervall für einen Parameter ist ein Intervall um den geschätzten Parameter, in dem der tatsächliche Parameter mit der Überdeckungswahrscheinlichkeit 1-  liegt.  heißt dabei Konfidenzzahl. Konfidenzintervall für μ: x−z1−/2/n,xz1−/2/n Konfidenzintervall für σ2: [n−1∗s2/n−1 2

1−/2,n−1∗s2/n−1

2

/2]

Was ist eine Hypothese? Was ist die Nullhypothese, was die Alternative? Fehler 1./2. Art? Eine Hypothese ist eine Annahme (zB über die Verteilung einer Zufallsvariablen oder den Wert eines Parameters), die getestet werden soll. Führt man einen statistischen Test durch, so nimmt man die so genannte Nullhypothese H0 an. Gleichzeitig gibt es immer eine Gegenhypothese oder Alternative H1. Die Teststatistik ist eine nach einer bestimmten Vorschrift berechnete Zufallsvariable. Fällt der Wert der Teststatistik in den so genannten kritischen Bereich, wird die Nullhypothese H0 verworfen und H1 angenommen. Das Signifikanzniveau  heißt auch Fehlerwahrscheinlichkeit 1. Art und gibt die Wahrscheinlichkeit an, dass die richtige Hypothese abgelehnt wird. Mit der Fehlerwahrscheinlichkeit 2. Art β wird die falsche Hypothese angenommen. Die Fehlerwahrscheinlichkeiten können durch Vergrößern des Stichprobenumfangs verkleinert werden. 1-β heißt Macht oder Schärfe des Tests. Was ist Regression? Was ist das Regressionsproblem? Regressionsgerade? Residuen? Wie testet man auf Abhängigkeit einer Variablen x? Das Regressionsproblem behandelt die Verteilung einer Variablen Y, wenn (mindestens) eine andere Variable x bestimmte, nicht zufällige Werte annimmt. x heißt unabhängig und ist keine Zufallsvariable. Y ist Zufallsvariable und abhängig von x, sofern Regression vorliegt. Für jeden gewählten Wert von x gibt es eine Verteilung von Y mit einem Mittelwert μy.x und einer Varianz σ2y.x. Liegt einfache, lineare Regression vor, so kann die Abhängigkeit der Mittelwerte μY.X von Y durch die Regressionsgerade angegeben werden:  yx= a b∗x−x Die Parameter der Regressionsgeraden a und b werden aus den Stichprobenwerten geschätzt, wobei man für  a den Wert y und für  b den Quotienten sxy/sx2 verwendet. sXY ist übrigens die empirische Kovarianz, die sich aus der Summe aller Produkte von Mittelabweichungen beider Variablen dividiert durch n-1 Freiheitsgrade ergibt. Auch die Varianz der Beobachtungen s2 kann geschätzt werden durch: s2=∑yi− yi2/n−2 sxy=∑xi−x∗yi−y/n−1 sx2=∑xi−x/n−1 Die Differenzen zwischen gemessenen und geschätzten Werten yi− yi nennt man auch Residuen. Die Gerade wird so gewählt, dass die Summe der quadrierten Residuen minimal wird. Nimmt man die Verteilung von Y für jedes x als normal an, kann man Konfidenzintervalle für die Parameter a, b, σ2 und μy.x angeben (mit Hilfe der Parameterschätzungen und der t-Verteilung). Test auf Regression (Test auf Abhängigkeit): Die Nullhypothese H0: b = 0 besagt, dass alle Mittelwerte von Y gleich sind (Alternative: b ≠ 0) und daher keine Regression vorliegt. Der kritische Bereich ist |T| > tn-2;1-α/2, und als Teststatistik verwendet man: T=b∗sx∗n−1/S Was ist Korrelation? Was ist das Korrelationsproblem? Was sind Kovarianz, empirische Kovarianz und Korrelationskoeffizient? Wie testet man auf Unkorreliertheit? Das Korrelationsproblem behandelt die Frage, ob Korrelation vorliegt. Dies ist der Fall, wenn es einen Zusammenhang zwischen den Verteilungen zweier Zufallsvariablen X und Y gibt. Es wird also die gemeinsame Verteilung von X und Y betrachtet, ohne eine Variable zu fixieren. Oft geht man in solchen Problemen von einer bivariaten Normalverteilung aus. Für jedes X gibt es eine Verteilung von Y und umgekehrt. Die Korrelation ρ zwischen X und Y ergibt sich aus der Kovarianz σXY dividiert durch das Produkt der beiden Standardabweichungen σX σY und ist eine dimensionslose Größe im Intervall (–1,1); bei ρ = 0 sind X und Y unabhängig. Als Schätzung verwendet man den empirischen Korrelationskoeffizienten, welcher sich wiederum aus der empirischen Kovarianz sXY, dividiert durch das Produkt der empirischen Standardabweichungen sX sY berechnet: XY=XY/XY rxy=sxy/sxsy sxy=∑xi−x∗yi−y/n−1 sx2=∑xi−x/n−1 sy 2 =∑yi−y/n−1 Für den Test auf Unkorreliertheit (Test auf Unabhängigkeit) sind H0: ρ = 0 und H1: ρ ≠ 0. Der kritische Bereich ist |T| > tn-2;1-α/2, und als Teststatistik verwendet man: T=R∗n−2/1−R2 Wozu dienen 1-Stichproben-t-Test und 2-Stichproben-t-Test? Man vergleicht damit die Mittel zweier Populationen untereinander (2- Stichproben-t-Test) oder man vergleicht das Mittel einer Population mit einem vorgegebenen Wert (1-Stichproben-t-Test, nur bei unbekannter Standardabweichung). 1 Stichproben t-Test: H0:=0 H1:0 x0S/ntn−1,1− s=∑xi−x/n−1 2 Stichproben t-Test: H0:x=y H1:xy Ttn1n2−2;1− T= X− Y/[n1–1∗sx2n2−1∗sy 2 ]/[n1n2−2]∗1/n11/n2 Wozu dient der χ2-Anpassungstest? Mit Hilfe dieses Tests kann man eine Hypothese über die Form einer Verteilung prüfen. Dazu teilt man die Stichprobe in k Klassen ein und berechnet T=∑hi−ei2/ei ei=n∗pi wobei hi die Häufigkeiten und ei die theoretischen Wahrscheinlichkeiten (aufgrund der mit H0 angenommenen Verteilung) pi multipliziert mit n sind. Als kritischen Bereich nimmt man: Tk−1;1− 2 Wozu dient der Kolgorov-Smirnov-Test? Man testet damit, ob eine hypothetische Verteilung F0 zugrunde liegt, indem man die absolute Differenz zwischen empirischer und hypothetischer Verteilungsfunktion betrachtet. Was geschieht bei der Varianzanalyse? Was steht in der Varianzanalyse-Tafel? Eine betrachtete Größe weist oft eine Variation auf, die sich aus zufälliger Variation sowie Variation durch einen bestimmten Einfluss zusammensetzt. In der Varianzanalyse trennt man diese beiden Variationen (Varianzzerlegung). Dazu wird die Quadratsumme (Summe der Abweichungen vom Stichprobenmittel) zerlegt. Mit Hilfe der Varianzanalyse kann man die Mittelwerte von k Normalverteilungen vergleichen. Man nimmt H0:1=2=...=k gegen H1:r!=s (für mindestens ein r ≠ s) an. Danach berechnet man die Quadratsumme innerhalb jeder Stichprobe qI und die Quadratsumme zwischen den Stichproben qZ : qI=∑∑xij− xj2 qZ=∑∑ xj−x2=∑n∗ xj−x Die Varianzanalyse-Tabelle sieht so aus: Variation FG q s2 F Zwischen Gruppen k-1 qZ s Z2=qZ/k−1 sZ2/sI2 Innerhalb der Gruppen n-k qI s I2=qI/n−k Gesamt n-1 q Der Wert der Teststatistik F wird mit dem kritischen Bereich F > Fk-1,n-k;1-α getestet. H0:1=2=...=k H1:r!=s fürmindestenseinrungleichs F=sZ2/sI 2 Was ist das Klassifizierungsproblem? Was ist eine Kontingenztafel? Oft möchte man Dinge zählen, die in bestimmte Kategorien fallen. Es gibt das einfache Klassifizierungsproblem (zB 4 Klassen für Aussehen von Erbsen nach Kreuzungsversuch) und das zweifache Klassifizierungsproblem (zB Haarfarbe und Augenfarbe). Man hat jeweils vorgegebene theoretische Häufigkeiten und untersucht, ob die Abweichungen der tatsächlichen Häufigkeiten von ersteren nur zufälliger Natur sind. Eine Tabelle, die die absoluten Häufigkeiten der Merkmale gemeinsam darstellt, heißt Kontingenztafel. Teststatistik T=∑hj−ej2/ej Einfach: Klassen beobachtet (hj) theoretisch (ej) hj - ej 1...k ∑ ∑ ∑ Tn;1− 2 Zweifach: Klasse 1 / Klasse 2 1...c ∑ 1...r hck ∑h Total ∑ ∑ Tr−1c−1;1− 2 Was macht die likelihood-Funktion? Was ist die Maximum-Likelihood- Methode? Die Maximum-Likelihood-Methode soll einen brauchbaren Schätzer für Parameter einer Verteilung finden, indem sie jenen Wert des Parameters wählt, der die Stichprobe als wahrscheinlichstes Resultat erscheinen lässt. Dazu der Parameter θ so gewählt, dass die Likelihood-Funktion l;x1,...,xn=fx1∗fx2∗...∗fxn ein Maximum annimmt (f ist die Dichte der Verteilung). Was besagt der zentrale Grenzwertsatz? Besitzt die Verteilung der Grundgesamtheit eine endliche Varianz, was meist der Fall ist, so ist die Verteilung der Mittelwerte für genügend große Stichproben annähernd normal. Wie testet man auf Gleichheit zweier Varianzen? Mit Hilfe des F-Tests: H0:x2=y 2 H1:x2y 2 TFn1−1,n2−1;1− T=sx 2 /sy 2