TU Wien:Statistik und Wahrscheinlichkeitstheorie VO (Dutter)/Prüfung 2008-12-03

Aus VoWi
Zur Navigation springen Zur Suche springen

Prüfung vom 3.12.2008. Abgeschrieben von diesem Photo. Insgesamt gab es 20 Punkte.

Unterlagen: Nur das Skriptum (mit eigenen Notizen) und Taschenrechner sind zulässig!

1

In einer Schachtel befinden sich 3 Münzen. Eine dieser Münzen hat auf beiden Seiten Zahl. Eine zufällig ausgewählte Münze wird geworfen. Erscheint Zahl, so wird dieselbe Münze noch einmal geworfen. Erscheint hingegen Wappen, so wird von den beiden restlichen Münzen eine ausgewählt und geworfen. Wie groß ist die Wahrscheinlichkeit, daß

  • zweimal Zahl erscheint (1 Punkt)
Antwort: Im Prinzip kann man die Fragestellung auf zwei (disjunkte!) Ereignisse aufteilen die dann addiert müssen:
  1. Die Wahrscheinlichkeit, das beim ersten mal eine Zahl von den beiden Münzen kommt, die auf der anderen Seite ein Wappen haben, ist 1/3. Der darauffolgende Wurf hat mit einer Wahrscheinlichkeit von 1/2 eine Zahl (da die selbe Münze ja auf der anderen Seite ein Wappen hat).
  2. Die Wahrscheinlichkeit, das eine Zahl von der Münze kommt, die auf beiden Seiten Zahl hat, ist ebenfalls 1/3. Danach kommt aber natuerlich sicher eine Zahl.
\frac{1}{3} \cdot \frac{1}{2} + \frac{1}{3} \cdot 1 = \frac{1}{2} = 0.5
  • mit der Münze, die beidseitig Zahl hat, geworfen wurde, wenn dieselbe Münze zweimal geworfen wird. (1 Punkt)
Antwort: 50 %

A.... Doppelmünze geworfen

B.... Wurf ergab Zahl (deshalb wird Münze zweimal geworfen)


P(A) = \frac{1}{3}

 P(B)= \frac{1}{3} + \frac{2}{3} \cdot \frac{1}{2}

 P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A)}{P(B)} = 0,5

  • zweimal Wappen erscheint (1 Punkt)
Antwort: 8.333...%. Beim ersten Wurf ist die Wahrscheinlichkeit, das ein Wappen geworfen wurde 1/3. Ist ein Wappen geworfen worden, so sind noch 2 Muenzen uebrig, auf denen es 3 Seiten mit Zahl gibt, die Wahrscheinlichkeit beim zweiten Wurf ist also 1/4. Da die Versuche unabhaengig sind, gilt:
\frac{1}{3} \cdot \frac{1}{4} = \frac{1}{12} = 0.08\dot{3}

2

Folgende Tabelle gibt Aufschluss über die Ersparnisse von privaten Haushalten sowie deren verfügbaren Einkünfte in den Jahren 1991 - 2000 (in Mill. Werteinheiten):

Jahr: 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Einkommen: 34.2 40.8 42.5 47.3 50.1 52.6 56.9 61.4 73.5 76.7
Ersparnisse: 2.8 4.1 4.5 4.3 4.9 5.8 7.0 7.7 8.1 8.8

a (2 Punkte)

Frage: Zeichnen sie eine maßstabgetreue Boxplot-Darstellung der Variable "Ersparnisse".

  • Der Median ist zwischen dem fuenften und sechsten Wert, von diesen beiden Werten wird das arithmetische Mittel gebildet:
\tilde{x} = \frac{4.9 + 5.8}{2} = 5.35
  • Die Quartile sind 4.5 4.3 (die Daten müssen ja sortiert werden) und 7.7.
  • Ausreisser gibt es keine, da keine weit genug vom Median weg sind.

b (2 Punkte)

Frage: Es wird vermutet, daß die Ersparnisse annähernd linear vom verfügbaren Einkommen abhängen. Probieren Sie daher einen linearen Regressionssatz, und schätzen Sie die Parameter der Regressionsgeraden.

Die Antworten und den Algorithmus findet sich im Skriptum in den Kapitel 7.1 und 7.2.

Die Gleichung fuer die Regressionsgerade ist:

\hat{y}_x = \hat{a} + \hat{b}(x - \bar{x})

\hat{a} ist gleich das arithmetische Mittel von Y:

\hat{a} = \bar{y} = 5.8

\hat{b} ist etwas komplizierter. Die Formel fuer \hat{b} ist \hat{b} = \frac{s_{xy}}{s_x^2}, wir brauchen also zuerst s_{xy} und s_x^2. Es sei darauf hingewiesen, das die zweite Formel fuer s_{xy} nur Summen enthaelt, die von einem einfachen Taschenrechner mit Statistik-System automatisch ausgegeben werden.

s_{xy} = \frac{1}{n-1}\sum{(x_i - \bar{x})(y_i - \bar{y})} = \frac{1}{1-n}(\sum{x_i y_i} - n\bar{x}\bar{y}) = \frac{1}{9}(3349.64 - 10\cdot53.6\cdot5.8) = 26.76

und

s_x^2 = \frac{1}{n-1}(\sum{x_i^2} - n\bar{x}^2) = \frac{1}{9}(3447.3 - 10\cdot2872.6) = 190.8\dot{5}.

Woraus sich nun ergibt:

\hat{b} = \frac{s_{xy}}{s_x^2} = \frac{26.76}{190.8\dot{5}} = 0.140210747 \approx 0.1402.


Der Wert der Regressionsgeraden ist also:

\hat{y}_x = \hat{a} + \hat{b}(x-\bar{x}) = 5.8 + 0.1402\cdot(x-53.6)

c (2 Punkte)

Frage: Schätzen sie die Residuenvarianz (=Fehlervarianz) und erläutern Sie kurz, was diese Größe beschreibt.

Warnung: Es ist etwas unklar, was die Residuenvarianz ist. Laut diesen Thread ist die Residuenvarianz unten stehende Formel, allerdings ist auf der Originalangabe eine Lösung notiert, die eine ganz andere ist, als das was hier heraus kommt. Sowohl Originalangabe also auch Rechenweg stammen aber vom selben Autor, was also jetzt richtig ist... gute Frage. -- Mati 13:54, 25. Jan. 2009 (CET)

Fuer die Residuenvarianz brauchen wir zunaechst noch s_y^2:

s_y^2 = \frac{1}{n-1}(\sum{y_i^2} - n\bar{y}^2) = \frac{1}{9}(372.38 - 10\cdot33.64) = 3.997.

Die Residuenvarianz ergibt sich dann aus:

s^2 = \frac{n-1}{n-2}(s_y^2-\hat{b}^2s_x^2) = \frac{9}{8}(3.997-0.1402^2\cdot190.8\dot{5}) = 0.275637723 \approx 0.2756

d (2 Punkte)

Frage: Schätzen sie die in b angestellte Vermutung auf dem Niveau \alpha = 0.05.

Dieser Test ist in Kapitel 7.3.3 beschrieben.

Die Null-Hypothese H_0 : b = 0 besagt, dass Y von X unabhaengig ist (da dann kein x mehr in der Regressionsgleichung mehr vorkommt). Wird die Hypothese verworfen, müssen wir auf eine Abhängigkeit schließen.

Die Teststatistik ergibt sich also aus:

T = \frac{(\hat{b} - 0)s_x\sqrt{n - 1}}{S} = \frac{\hat{b} \sqrt{s_x^2 \cdot (n - 1) }}{S} = \hat{b} \cdot \sqrt{\frac{s_x^2 \cdot (n -1)}{S^2}} = 0.1402 \cdot \sqrt{\frac{190.8\dot{5} \cdot 9}{0.2756}} = 11.0682

Der kritische Bereich ergibt sich aus einer T-Statistik mit n-2 = 8 Freiheitsgraden:

(-\infty,-t_{8,0.975})\cup(t_{8,0.975},\infty)

Der wert fuer die T-Statistik ist (in der Tabelle nachschauen) 2.306. Der kritische Bereich ist also:

(-\infty,-2.306)\cup(2.306,\infty)

Wir sehen, das der Wert unserer Teststatistik (21.0198) in den kritischen Bereich fällt, H_0, dass X und Y unabhängig sind, muss also verworfen werden. Schlussfolgerung: Y ist auf dem Signifikanzniveau \alpha = 0.05 abhängig von X.

3

Eine Stichprobe der Ergebnisse eines Übungstests bei Studenten der Richtung Wirtschaftsingeneurwesen/Maschinenbau sei in den 3 Übungsgruppen wie in folgender Tabelle gegeben:

Punkte \bar{x_i} s_i
Gruppe 1 15 19 5 11 20 4 15 8 8 14 11.9 5.587
Gruppe 2 8 15 6 3 4 13 9 7 13 14 9.2 4.315
Gruppe 3 12 10 12 9 11 10 2 7 5 4 8.2 3.521

Es gilt \sum_{i=1}^{30} x_i = 293.

a (2 Punkte)

Frage: Überprüfen Sie graphisch, ob die Werte in der Gruppe 1 normalverteilt sind und schätzen sie die Parameter der Normalverteilung grafisch.

Bloede Wahrscheinlihckeitsnetze -- Mati 16:04, 25. Jan. 2009 (CET)

b (2 Punkte)

Frage: Überprüfen Sie (unter Normalverteilungsannahme), ob für Gruppe 2 und Gruppe 3 die Varianzen übereinstimmen (Signifikanzniveau \alpha = 0.05).

Der Vergleich der Varianzen von zwei Populationen ist in Kapitel 5.9.2 beschrieben.

Unsere Teststatistik zur Null-Hypothese H_0: \sigma_X^2 = \sigma_Y^2 ist:

F = \frac{S_X^2}{S_Y^2} = \frac{18.6\dot{2}}{12.4} = 1.501792115 \approx 1.5018

Der kritische Bereich ist, im Gegensatz zum Skriptum, aber beidseitig, da die Gegenhypothese H_1: \sigma_X^2 \ne \sigma_Y^2 ist:

(F < - F_{n_1-1,n_2-1,1-\frac{\alpha}{2}}) \cup (F > F_{n_1-1,n_2-1,1-\frac{\alpha}{2}})

Der Wert der F-Statistik ist 4.026, daher ist der kritische Bereich:

(F < - 4.026) \cup (F > 4.026)


Der Wert unserer Teststatistik ist nicht im kritischen Bereich, die Hypothese, das \sigma_X^2 = \sigma_Y^2 ist, kann also nicht verworfen werden.

c (2 Punkte)

Frage: Testen Sie (unter Normalverteilungsannahme) für die Gruppe 1, ob die mittlere Punkteanzahl signifikant kleiner als 10 ist (Signifikanzniveau \alpha = 0.05).

Da \sigma unbekannt ist, muessen wir einen t-Test machen (im Anhang B, S. 165 beschrieben). Unsere Null-Hypothese ist H_0: \mu \le \mu_0 = 10, die Gegenhypothese ist H_1: \mu > \mu_0. Der kritische Bereich errechnet sich aus der Formel:

\bar{X} > \mu_0 + \frac{S}{\sqrt{n}}\cdot t_{n-1;1-\alpha}

Was dann ergibt:

\bar{X} > 10 + \frac{5.587}{\sqrt{10}}\cdot 1.833 = 13.23847934 \approx 13.2385

Unser \bar{X} = 11.9 fällt also nicht in den kritischen Bereich, die Hypothese, dass \mu < 10 ist, kann also nicht verworfen werden.

d (3 Punkte)

Frage: Nehmen Sie an, dass die Daten in den einzelnen Gruppen normalverteilt sind mit der gleichen Varianz \sigma. Stimmen die mittleren Punktezahlen in den drei Gruppen überein (Signifikanzniveau \alpha = 0.05)?

Der Vergleich der Mittelwerte mehrere Normalverteilungen wird in Kapitel 6.1 beschrieben.

Wir haben die Null-Hypothese

H_0: \mu_1 = \mu_2 = \mu_3

mit der Gegenhypothese:

H_1: \mu_i \ne \mu_j \quad f. mindestens ein i \ne j

Unsere Teststatistik ist:

F = \frac{q_Z/(k-1)}{q_I/(n-k)} = \frac{(n-k)\cdot q_Z}{(k-1)\cdot q_I}

Nun müssen wir noch q_I und q_Z berechnen. Die erste Umformung der Formel für q_I steht nicht im Skriptum, erleichtert aber das Ausrechnen mit Rechnern, die eine einfache Statistikfunktion haben, erheblich:

q_I = \sum_{j=1}^k\sum_{i=1}^{n_j}(x_{ij}-\bar{x}_j)^2 = \sum_{j=1}^k\Big(\sum_{i=1}^{n_j}(x_{ij}^2) - 2\bar{x}\sum_{i=1}^{n_j}(x_{ij}) + n\cdot\bar{x}^2\Big) = 280.9 + 167.6 + 111.6 = 560.1

und (die erste Umformung ist moeglich da n_i = n_j \forall i,j):

q_Z = \sum_{j=1}^k\big(n_j\cdot(\bar{x}_j-\bar{x})^2\big) = n_i \cdot \sum_{j=1}^k(\bar{x}_j-\bar{x})^2 = 73.266

womit sich F zu

F = \frac{(n-k)\cdot q_Z}{(k-1)\cdot q_I} = \frac{27\cdot73.266}{2\cdot560.1} = 1.765

ergibt. Der kritische Bereich ergibt sich aus der F_{k-1,n-k,1-\alpha}-Statistik:

F > F_{2,27,0.95} = 3.4


Der Wert unserer Teststatistik faellt also nicht in den kritischen Bereich, die Hypothese, dass \mu_1 = \mu_2 = \mu_3 gilt, kann also nicht verworfen werden.