TU Wien:Statistik und Wahrscheinlichkeitstheorie VO (Dutter)/Prüfung 2008-12-03
Prüfung vom 3.12.2008. Abgeschrieben von diesem Photo. Insgesamt gab es 20 Punkte.
Unterlagen: Nur das Skriptum (mit eigenen Notizen) und Taschenrechner sind zulässig!
1[Bearbeiten | Quelltext bearbeiten]
In einer Schachtel befinden sich 3 Münzen. Eine dieser Münzen hat auf beiden Seiten Zahl. Eine zufällig ausgewählte Münze wird geworfen. Erscheint Zahl, so wird dieselbe Münze noch einmal geworfen. Erscheint hingegen Wappen, so wird von den beiden restlichen Münzen eine ausgewählt und geworfen. Wie groß ist die Wahrscheinlichkeit, daß
Anmerkung: wo steht eigentlich, dass insgesamt nur 2x geworfen wird? sonsten hätten wir andere ergebnisse...
- zweimal Zahl erscheint (1 Punkt)
- Antwort: Im Prinzip kann man die Fragestellung auf zwei (disjunkte!) Ereignisse aufteilen die dann addiert müssen:
- Die Wahrscheinlichkeit, das beim ersten mal eine Zahl von den beiden Münzen kommt, die auf der anderen Seite ein Wappen haben, ist 1/3. Der darauffolgende Wurf hat mit einer Wahrscheinlichkeit von 1/2 eine Zahl (da die selbe Münze ja auf der anderen Seite ein Wappen hat).
- Die Wahrscheinlichkeit, das eine Zahl von der Münze kommt, die auf beiden Seiten Zahl hat, ist ebenfalls 1/3. Danach kommt aber natuerlich sicher eine Zahl.
- mit der Münze, die beidseitig Zahl hat, geworfen wurde, wenn dieselbe Münze zweimal geworfen wird. (1 Punkt)
- Antwort: 50 %
A.... Doppelmünze geworfen
B.... Wurf ergab Zahl (deshalb wird Münze zweimal geworfen)
- zweimal Wappen erscheint (1 Punkt)
- Antwort: 8.333...%. Beim ersten Wurf ist die Wahrscheinlichkeit, das ein Wappen geworfen wurde 1/3. Ist ein Wappen geworfen worden, so sind noch 2 Muenzen uebrig, auf denen es 3 Seiten mit Zahl gibt, die Wahrscheinlichkeit beim zweiten Wurf ist also 1/4. Da die Versuche unabhaengig sind, gilt:
2[Bearbeiten | Quelltext bearbeiten]
Folgende Tabelle gibt Aufschluss über die Ersparnisse von privaten Haushalten sowie deren verfügbaren Einkünfte in den Jahren 1991 - 2000 (in Mill. Werteinheiten):
Jahr: | 1991 | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 | 1998 | 1999 | 2000 |
Einkommen: | 34.2 | 40.8 | 42.5 | 47.3 | 50.1 | 52.6 | 56.9 | 61.4 | 73.5 | 76.7 |
Ersparnisse: | 2.8 | 4.1 | 4.5 | 4.3 | 4.9 | 5.8 | 7.0 | 7.7 | 8.1 | 8.8 |
a (2 Punkte)[Bearbeiten | Quelltext bearbeiten]
Frage: Zeichnen sie eine maßstabgetreue Boxplot-Darstellung der Variable "Ersparnisse".
- Der Median ist zwischen dem fuenften und sechsten Wert, von diesen beiden Werten wird das arithmetische Mittel gebildet:
- Die Quartile sind
4.54.3 (die Daten müssen ja sortiert werden) und 7.7. - Ausreisser gibt es keine, da keine weit genug vom Median weg sind.
b (2 Punkte)[Bearbeiten | Quelltext bearbeiten]
Frage: Es wird vermutet, daß die Ersparnisse annähernd linear vom verfügbaren Einkommen abhängen. Probieren Sie daher einen linearen Regressionssatz, und schätzen Sie die Parameter der Regressionsgeraden.
Die Antworten und den Algorithmus findet sich im Skriptum in den Kapitel 7.1 und 7.2.
Die Gleichung fuer die Regressionsgerade ist:
ist gleich das arithmetische Mittel von :
ist etwas komplizierter. Die Formel fuer ist , wir brauchen also zuerst und . Es sei darauf hingewiesen, das die zweite Formel fuer nur Summen enthaelt, die von einem einfachen Taschenrechner mit Statistik-System automatisch ausgegeben werden.
und
Woraus sich nun ergibt:
Der Wert der Regressionsgeraden ist also:
c (2 Punkte)[Bearbeiten | Quelltext bearbeiten]
Frage: Schätzen sie die Residuenvarianz (=Fehlervarianz) und erläutern Sie kurz, was diese Größe beschreibt.
Warnung: Es ist etwas unklar, was die Residuenvarianz ist. Laut diesen Thread ist die Residuenvarianz unten stehende Formel, allerdings ist auf der Originalangabe eine Lösung notiert, die eine ganz andere ist, als das was hier heraus kommt. Sowohl Originalangabe also auch Rechenweg stammen aber vom selben Autor, was also jetzt richtig ist... gute Frage. -- Mati 13:54, 25. Jan. 2009 (CET)
Update: Bzgl. der richtige Formel, dürfte dieser Post interessent sein Forum
Fuer die Residuenvarianz brauchen wir zunaechst noch :
Die Residuenvarianz ergibt sich dann aus:
Bedeutung (ohne Gewähr):
Je größer s^2 desto weiter sind die Beobachtungen vom geschätzten Wert entfernt.
Residuen ist die Differenz zwischen den gemessenen und geschätzten Werten (Skriptum 2009 s.103)
d (2 Punkte)[Bearbeiten | Quelltext bearbeiten]
Frage: Schätzen sie die in b angestellte Vermutung auf dem Niveau .
Dieser Test ist in Kapitel 7.3.3 beschrieben.
Die Null-Hypothese besagt, dass von unabhaengig ist (da dann kein x mehr in der Regressionsgleichung mehr vorkommt). Wird die Hypothese verworfen, müssen wir auf eine Abhängigkeit schließen.
Die Teststatistik ergibt sich also aus:
Der kritische Bereich ergibt sich aus einer T-Statistik mit Freiheitsgraden:
Der wert fuer die T-Statistik ist (in der Tabelle nachschauen) 2.306. Der kritische Bereich ist also:
Wir sehen, das der Wert unserer Teststatistik (21.0198) in den kritischen Bereich fällt, , dass X und Y unabhängig sind, muss also verworfen werden. Schlussfolgerung: Y ist auf dem Signifikanzniveau abhängig von X.
3[Bearbeiten | Quelltext bearbeiten]
Eine Stichprobe der Ergebnisse eines Übungstests bei Studenten der Richtung Wirtschaftsingeneurwesen/Maschinenbau sei in den 3 Übungsgruppen wie in folgender Tabelle gegeben:
Punkte | ||||||||||||
Gruppe 1 | 15 | 19 | 5 | 11 | 20 | 4 | 15 | 8 | 8 | 14 | 11.9 | 5.587 |
Gruppe 2 | 8 | 15 | 6 | 3 | 4 | 13 | 9 | 7 | 13 | 14 | 9.2 | 4.315 |
Gruppe 3 | 12 | 10 | 12 | 9 | 11 | 10 | 2 | 7 | 5 | 4 | 8.2 | 3.521 |
Es gilt .
a (2 Punkte)[Bearbeiten | Quelltext bearbeiten]
Frage: Überprüfen Sie graphisch, ob die Werte in der Gruppe 1 normalverteilt sind und schätzen sie die Parameter der Normalverteilung grafisch.
Bloede Wahrscheinlihckeitsnetze -- Mati 16:04, 25. Jan. 2009 (CET)
b (2 Punkte)[Bearbeiten | Quelltext bearbeiten]
Frage: Überprüfen Sie (unter Normalverteilungsannahme), ob für Gruppe 2 und Gruppe 3 die Varianzen übereinstimmen (Signifikanzniveau ).
Der Vergleich der Varianzen von zwei Populationen ist in Kapitel 5.9.2 beschrieben.
Unsere Teststatistik zur Null-Hypothese ist:
Der kritische Bereich ist, im Gegensatz zum Skriptum, aber beidseitig, da die Gegenhypothese ist:
Der Wert der F-Statistik ist 4.026, daher ist der kritische Bereich:
Der Wert unserer Teststatistik ist nicht im kritischen Bereich, die Hypothese, das ist, kann also nicht verworfen werden.
Update: Anmerkung
Meiner Meinung nach ist der kritische Bereich falsch gewählt. Richtig, siehe hier gibt es ein analoges Bsp 1c
c (2 Punkte)[Bearbeiten | Quelltext bearbeiten]
Frage: Testen Sie (unter Normalverteilungsannahme) für die Gruppe 1, ob die mittlere Punkteanzahl signifikant kleiner als 10 ist (Signifikanzniveau ).
Da unbekannt ist, muessen wir einen t-Test machen (im Anhang B, S. 165 beschrieben). Unsere Null-Hypothese ist , die Gegenhypothese ist . Der kritische Bereich errechnet sich aus der Formel:
Was dann ergibt:
Unser fällt also nicht in den kritischen Bereich, die Hypothese, dass ist, kann also nicht verworfen werden.
Anmerkungen:
Skriptum (2009) s.128 Anhang B
d (3 Punkte)[Bearbeiten | Quelltext bearbeiten]
Frage: Nehmen Sie an, dass die Daten in den einzelnen Gruppen normalverteilt sind mit der gleichen Varianz . Stimmen die mittleren Punktezahlen in den drei Gruppen überein (Signifikanzniveau )?
Der Vergleich der Mittelwerte mehrere Normalverteilungen wird in Kapitel 6.1 beschrieben.
Wir haben die Null-Hypothese
mit der Gegenhypothese:
Unsere Teststatistik ist:
Nun müssen wir noch und berechnen. Die erste Umformung der Formel für steht nicht im Skriptum, erleichtert aber das Ausrechnen mit Rechnern, die eine einfache Statistikfunktion haben, erheblich:
und (die erste Umformung ist moeglich da ):
womit sich F zu
ergibt. Der kritische Bereich ergibt sich aus der -Statistik:
Der Wert unserer Teststatistik faellt also nicht in den kritischen Bereich, die Hypothese, dass gilt, kann also nicht verworfen werden.
Anmerkung:
Skriptum 2009 s.94 "Vergl. Mittelwerte mehrer Normalverteilungen"