Eine Bank stellt folgende Daten zur Verfügung und möchte wissen, ob und in welcher Weise die Merkmale
„Verfügbares Einkommen“, „Alter“ und „Kinderzahl“ Einfluss auf die Darlehenshöhe nehmen.
Datensatz
der Bank:
Darlehenshöhe |
|
Verfügbares |
|
Alter |
|
Kinderzahl |
|
|
Einkommen |
|
|
|
|
|
|
|
|
|
|
|
24000,00 |
|
2900,00 |
|
27 |
|
1 |
45000,00 |
|
5100,00 |
|
60 |
|
3 |
5000,00 |
|
1900,00 |
|
55 |
|
0 |
14500,00 |
|
2200,00 |
|
49 |
|
2 |
20000,00 |
|
2300,00 |
|
60 |
|
2 |
30000,00 |
|
2600,00 |
|
22 |
|
1 |
50000,00 |
|
11024,00 |
|
43 |
|
3 |
50000,00 |
|
5520,00 |
|
59 |
|
2 |
8500,00 |
|
1100,00 |
|
21 |
|
0 |
30000,00 |
|
6770,00 |
|
42 |
|
2 |
3000,00 |
|
2350,00 |
|
21 |
|
0 |
45000,00 |
|
5100,00 |
|
60 |
|
3 |
25000,00 |
|
4300,00 |
|
58 |
|
1 |
30000,00 |
|
3800,00 |
|
45 |
|
2 |
14000,00 |
|
1150,00 |
|
50 |
|
0 |
Abhängige Variable: Es wird nach der Beeinflussung der Darlehenshöhe gefragt!
Unabhängige Variable: Alle anderen Spalten sind nun die unabhängigen Variablen!
Achtung:
Wenn man mit dem Bestimmtheitsmaß, als Kriterium arbeitet, muss man bedenken, das umso mehr Variablen in das Modell
eingebracht werden, sich das Bestimmtheitsmaß nicht verschlechtern, sondern eher verbessern wird. Das heißt allerdings nur,
dass es einen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt, aber nicht, welche Variable diesen
Zusammenhang ausmachen.
Nur, welche spielt wirklich eine Rolle und erklärt die Werte der Darlehenshöhe?
Verfügbares
Einkommen = JA Þ Vom ökonomischen Gehalt
her gesehen, wird die Bank
Die Darlehenshöhe nach dem Einkommen
bewerten!
Alter =
NEIN Þ Das Alter spielt bei der Vergabe keine Rolle!
Kinderzahl = JA Þ Diese Angaben sind bei der Entscheidung der Bank wichtig!
Anhand des Bestimmtheitsmasses kann man nun sagen, das das Modell sinnvoll erscheint, und man mit den weiteren
Schritten fortfahren kann!!!
Modell |
R |
R-Quadrat |
Korrigiertes R-Quadrat |
Standardfehler des Schätzers |
Durbin-Watson-Statistik |
1 |
,880 |
,775 |
,737 |
8122,3359 |
1,995 |
Bestimmtheitsmaß
Fazit:
In der Praxis werden hier wohl Werte zwischen
30 und 50% herauskommen und diese
sind als GUT zu bewerten!
Da
man im vorherigen Schritt gesehen hat, das das Modell einen Zusammenhang
aufzeigt, aber das
Bestimmtheitsmaß
nicht unbedingt als Kriterium alleine ausreicht, werden wir nun mittels eines
F-Tests
herausfinden,
ob es mindestens eine Variable gibt, die einen Zusammenhang aufzeigt.
SPSS benutzt bei diesem Test
folgende Hypothesen:
H0: Alle b sind 0
Þ b1 = 0; b2 = 0; bk = 0 Þ Es besteht kein
Zusammenhang zwischen
abhängiger- und unabhängigen Variablen
H1: Mindestens ein b ¹ 0 Þ Es besteht ein
Zusammenhang
Erläuterung:
Signiffikanz: Man bestimmt bei einem Test vorher ein Wahrscheinlichkeitsniveau a, zu dem der Test entschieden wird.
Das a gibt hier die Irrtumswahrscheinlichkeit an.
Für H0 sollte die Signifikanz hoch sein!!!
Für H1 sollte die Signifikanz niedrig sein!!!
Wir suchen hier einen
Zusammenhang und testen nach H1! Das heißt, das die
Irrtumswahrscheinlichkeit sehr
klein sein soll und wenn wir hier nach unserem Niveau gehen,
also unter a =
0,05 liegen muß!!!
ANOVA
Modell |
|
Quadratsumme |
df |
Mittel
der Quadrate |
F |
Signifikanz |
|
Regression |
2722765247,606 |
2 |
1361382623,803 |
20,636 |
,000 |
|
Residuen |
791668085,727 |
12 |
65972340,477 |
|
|
|
Gesamt |
3514433333,333 |
14 |
|
|
|
a Einflußvariablen :
(Konstante), Kinderzahl, Verfügbares
b Abhängige Variable: Darlehenshöhe
Bei der Rechnung mit
SPSS wurde ein solches Niveau nicht vorgegeben und es wird F benutzt, das nun
den Kippwert
angibt, wo das
Ergebnis von Ho auf H1 kippt!
Bei diesem
Beispiel ist die Signiffikanz in Ordnung und man kann
davon ausgehen, das es
eine Abhängigkeit
gibt!!!
Unter
T-Test ist die Bewertung jeder einzelnen unabhängigen Variablen zur abhängigen
Variablen zu verstehen!!!
SPSS benutzt bei diesem Test
folgende Hypothesen:
H0: Alle b sind 0
Þ b1 = 0; b2 = 0; bk = 0 Þ Es besteht kein
Zusammenhang zwischen abhängiger- und
unabhängigen
Variablen
H1: Mindestens ein b ¹ 0 Þ Es besteht ein
Zusammenhang
Für H0 sollte die Signifikanz hoch sein!!!
Für H1 sollte die Signifikanz niedrig sein!!!
Achtung: Es muß ein Zusammenhang bestehen,
deshalb wird nach H1 getestet!
Irrtumsniveau a = 0,05
Verfügbares
Einkommen: Die Signiffikanz wurde mit 0,085 =
8,5% sehr hoch errechnet
und wäre zwar von 0 verschieden,
aber würde auch über dem
Irrtumsniveau von 0,05 liegen und somit würde keine
Abhängigkeit bestehen! Da es sich hier aber nur um 10 Fälle
handelt und nach ökonomischen Überlegungen das Einkommen
die Darlehenshöhe beeinflusst, ist der Wert noch OK!!!
Kinderzahl: Der Wert von 0,013 ist sehr
deutlich von 0 verschieden und liegt auch
deutlich unter dem Irrtumsniveau.
Folglich ist die Variable OK!!!
Koeffizienten
|
|
Nicht standardisierte
Koeffizienten |
|
Standardisierte Koeffizienten |
T |
Signifikanz |
Modell |
|
Aus b
wurde b |
Standardfehler |
Beta |
|
|
1 |
(Konstante) |
5638,086 |
3923,384 |
|
1,437 |
,176 |
|
Verfügbares |
2,254 |
1,200 |
,370 |
1,878 |
,085 |
|
Kinderzahl |
8109,625 |
2772,138 |
,576 |
2,925 |
,013 |
a Abhängige Variable: Darlehenshöhe
Standardisierte
Koeffizienten: hier besteht keine Skalierungsabhängigkeit mehr. Die Dimensionen sind
aufgehoben und
man kann nun die Werte als Gewichtungsmaß nehmen!
Beide Variablen
zeigen einen Zusammenhang zur Darlehenshöhe auf!
Bestehen
Wechselwirkungen oder Abhängigkeiten zwischen den Unabhängigen Variablen?
Modellzusammenfassung
Modell |
R |
R-Quadrat |
Korrigiertes R-Quadrat |
Standardfehler des Schätzers |
Durbin-Watson-Statistik |
1 |
,880 |
,775 |
,737 |
8122,3359 |
1,995 |
a Einflußvariablen :
(Konstante), Kinderzahl, Verfügbares
b Abhängige Variable: Darlehenshöhe
Der
Wert für die Durbin- Watson-Statistik gibt das
Kriterium für einen solchen Zusammhang! Liegt dieser
Wert
zwischen
1,5 und 2,5, so besteht kein Zusammenhang!
Hier
1,995 = OK
Hier
wird überprüft, ob es keinen Zusammenhang zwischen den unabhängigen Variablen
gibt!
SPSS benutzt bei diesem Test
folgende Hypothesen:
H0: Alle b sind 0
Þ b1 = 0; b2 = 0; bk = 0 Þ Es besteht kein
Zusammenhang zwischen
beiden Variablen
H1: Mindestens ein b ¹ 0 Þ Es besteht ein Zusammenhang
Für H0
sollte die Signifikanz hoch sein!!!
Für H1
sollte die Signifikanz niedrig sein!!!
Achtung: Es darf hier kein Zusammenhang bestehen,
deshalb wird nach H0 getestet!
Irrtumsniveau a = 0,05
Korrelationen
|
|
Verfügbares |
Kinderzahl |
Verfügbares |
Korrelation
nach Pearson |
1,000 |
,718 |
|
Signifikanz
(2-seitig) |
, |
,003 |
|
N |
15 |
15 |
Kinderzahl |
Korrelation
nach Pearson |
,718 |
1,000 |
|
Signifikanz
(2-seitig) |
,003 |
, |
|
N |
15 |
15 |
** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig)
signifikant.
Wir
haben hier eine Korrelation von 0,718 und eine Signifikanz von 0,003 zwischen den unabhängigen Variablen
„Verfügbares
Einkommen“ und „Kinderzahl“!
Da
es sich hier um einen Test zu H0 handelt (kein Zusammenhang zwischen den unabhängigen
Variablen) und die
Signifikanz
deutlich unter dem Niveau von 0,01 liegt, besteht hier ein Zusammenhang
zwischen beiden Variablen!
H1
tritt hier ein und wir sollten uns Gedanken über unser Modell machen!
Da es sich hier aber um eine sehr kleine Stichprobe
handelt und inhaltlich ein Zusammenhang
zwischen beiden Variablen ausgeschlossen
werden kann, können wir in diesem Fall das
Modell sichern!
Hier
wird überprüft, in wie weit man Variablen durch andere erklären und auch
ersetzen kann!!!
Koeffizienten
|
|
Kollinearitätsstatistik |
|
Modell |
|
Toleranz |
VIF |
1 |
(Konstante) |
|
|
|
Verfügbares |
,462 |
2,166 |
|
Kinderzahl |
,364 |
2,750 |
|
Alter |
,710 |
1,409 |
a Abhängige Variable: Darlehenshöhe
verfügbaren
Einkommen: Der
Wert 0,462 bedeutet hier, das das verfügbare Einkommen zu 1 – 0,462 =
0,538
also zu 53,8% von den beiden anderen Variablen erklärt
werden kann!
Kinderzahl: Die Kinderzahl vom verf. Einkommen und dem Alter
zu 1 – 0,364 = 0,636 also 63,6% erklärt werden kann und
Alter: Das Alter vom verf. Einkommen und der Kinderzahl
Ist die Toleranz
< 0,1 und dadurch VIF >
10 so besteht eine Kollinearität!!!
Wäre die Toleranz des verf.
Einkommens bei 0,09 müsste man rechnen
1 – 0,09 = 0,91
also 91%, so würden die
Variablen „Kinderzahl und Alter“ das verf. Einkommen zu 91%
erklären und man bräuchte
das Einkommen eigentlich nicht mehr!!!
Wir haben hier das Alter zu Anschauungszwecken in
das Model aufgenommen. Da wir die
Berechnung aber ohne das Alter machen, bekommen wir
die Toleranzen von 0,484 für beide
unabhängigen Variablen heraus und können mit diesen
werten leben!
Hier werden die geforderten Werte
erfüllt!!!
Hier
wird der Konditionsindex zur Bewertung herangezogen!
Kollinearitätsdiagnose
|
|
Eigenwert |
Konditionsindex |
Varianzanteile |
|
|
Modell |
Dimension |
|
|
(Konstante) |
Verfügbares |
|
1 |
1 |
2,700 |
1,000 |
,03 |
,02 |
,02 |
|
2 |
,210 |
3,583 |
,90 |
|
,22 |
|
3 |
8,943E-02 |
5,495 |
,07 |
,93 |
,76 |
a Abhängige Variable: Darlehenshöhe
Für die Spalte Konditionsindex gibt Brosius
an, dass Werte unter 10 auf keine ; zwischen 10 und 30
auf mäßige und über 30
auf starke Kollinearität
hinweisen (hier also keine Bedenken)!
Gibt es einen Eigenwert, der
bei den Varianzanteilen (die Spalten addieren sich zu
1 auf) mehrere Variablen in hohem Maße
erklärt (hier der eigenwert der letzten Zeile), dann bedeutet dies, dass die betreffenden Variablen
stark voneinander
abhängig sind!
Schlusswort:
Die Kollinearität
kann hier wiederum von der sehr kleinen Stichprobe herrühren. Deshalb
würde ich als Abschluß
dieser Untersuchung sagen, das das hier beschriebene Model in
Ordnung geht, aber mann
solche Analysen nicht unter 20 Fällen machen sollte!!!
|
|
Nicht standardisierte
Koeffizienten |
|
Standardisierte
Koeffizienten |
T |
Signifikanz |
Modell |
|
Aus b
wurde b |
Standardfehler |
Beta |
|
|
1 |
(Konstante) |
5638,086 |
3923,384 |
|
1,437 |
,176 |
|
Verfügbares |
2,254 |
1,200 |
,370 |
1,878 |
,085 |
|
Kinderzahl |
8109,625 |
2772,138 |
,576 |
2,925 |
,013 |
Aufgabe:
Bei dieser Berechnung haben wir ein b für die Kinderzahl von
8109,625! Man möchte nun testen,
das b der Kinderzahl wäre größer 5000!
Hypothese:
H0: b £ 5000 H1: b > 5000 Irrtumsniveau a = 0,05
Überlegung: Man möchte hier wissen, ob der Wert immer
größer 5000 ist, deshalb führt man einen Test nur einseitig,
und zwar in
Richtung 100% durch!!!Folgende Grafiken machen das deutlicher
Berechnung:
Dieser errechnete Wert wird nun mit dem Fraktil der T Verteilung verglichen!
Der Kippwert wird berechnet durch das Fraktil tn-k; 1-a t 15-2;1-0,05
= t 13;0,95 = 1,771 a = 0,05
Umso größer die Wahrscheinlichkeit, also
alle Werte nach links, umso sicherer ist es, das es
einen Wert kleiner 5000 gibt!
1,12 < 1,771
Es kann statistisch gesichert werden, das
es einen Wert kleiner 5000 geben muss, in irgend
einer Stichprobe!