Regressionsanalyse

Darlehenshöhe

 

Aufgabenbeschreibung:   

Eine Bank stellt folgende Daten zur Verfügung und möchte wissen, ob und in welcher Weise die Merkmale

„Verfügbares Einkommen“, „Alter“ und „Kinderzahl“ Einfluss auf die Darlehenshöhe nehmen.

 

 

Datensatz der Bank:

 

Darlehenshöhe

 

                    Verfügbares

 

Alter

 

Kinderzahl

 

 

Einkommen

 

 

 

 

 

 

 

 

 

 

 

24000,00

 

2900,00

 

27

 

1

45000,00

 

5100,00

 

60

 

3

5000,00

 

1900,00

 

55

 

0

14500,00

 

2200,00

 

49

 

2

20000,00

 

2300,00

 

60

 

2

30000,00

 

2600,00

 

22

 

1

50000,00

 

11024,00

 

43

 

3

50000,00

 

5520,00

 

59

 

2

8500,00

 

1100,00

 

21

 

0

30000,00

 

6770,00

 

42

 

2

3000,00

 

2350,00

 

21

 

0

45000,00

 

5100,00

 

60

 

3

25000,00

 

4300,00

 

58

 

1

30000,00

 

3800,00

 

45

 

2

14000,00

 

1150,00

 

50

 

0

 

I. Bestimmtheitsmaß

Überlegungen ob es einen Zusammenhang zwischen abhängiger und unabhängigen

Variablen gibt

1. Welches sind die unabhängigen und welches die abhängige Variable?

     Abhängige Variable:           Es wird nach der Beeinflussung der Darlehenshöhe gefragt!

                                                  Abhängige Variable = Darlehenshöhe = y

     Unabhängige Variable:       Alle anderen Spalten sind nun die unabhängigen Variablen!

 

Achtung:

Wenn man mit dem Bestimmtheitsmaß, als Kriterium arbeitet, muss man bedenken, das umso mehr Variablen in das Modell

eingebracht werden, sich das Bestimmtheitsmaß nicht verschlechtern, sondern eher verbessern wird. Das heißt allerdings nur,

dass es einen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt, aber nicht, welche Variable diesen

Zusammenhang ausmachen.

 

2. Welche Variable sind vom inhaltlichen Gesichtspunkt erklärend?

 

Nur, welche spielt wirklich eine Rolle und erklärt die Werte der Darlehenshöhe?

Verfügbares Einkommen        = JA       Þ Vom ökonomischen Gehalt her gesehen, wird die Bank

                                                                      Die Darlehenshöhe nach dem Einkommen bewerten!

Alter                                         = NEIN Þ Das Alter spielt bei der Vergabe keine Rolle!

Kinderzahl                                = JA       Þ Diese Angaben sind bei der Entscheidung der Bank wichtig!

 

Anhand des Bestimmtheitsmasses kann man nun sagen, das das Modell sinnvoll erscheint, und man mit den weiteren

Schritten fortfahren kann!!!

 

 

Modell

R

R-Quadrat

Korrigiertes R-Quadrat

Standardfehler des Schätzers

Durbin-Watson-Statistik

1

,880

,775

,737

8122,3359

1,995

 

                                                                 Bestimmtheitsmaß

Fazit:

In der Praxis werden hier wohl Werte zwischen 30 und 50% herauskommen und diese

sind als GUT zu bewerten!

 

 

           

II. Bewertung des Modells mittels ANOVA und F-Test

 

Da man im vorherigen Schritt gesehen hat, das das Modell einen Zusammenhang aufzeigt, aber das

Bestimmtheitsmaß nicht unbedingt als Kriterium alleine ausreicht, werden wir nun mittels eines F-Tests

herausfinden, ob es mindestens eine Variable gibt, die einen Zusammenhang aufzeigt.

1. Mittels eines F-Testes den Zusammenhang sichern!

 

SPSS benutzt bei diesem Test folgende Hypothesen:

 

H0:  Alle b sind 0  Þ  b1 = 0; b2 = 0; bk = 0   Þ   Es besteht kein Zusammenhang zwischen

                                                                   abhängiger- und unabhängigen Variablen

H1:  Mindestens ein b ¹ 0                                Þ   Es besteht ein Zusammenhang

 

Erläuterung:

 

Signiffikanz:      Man bestimmt bei einem Test vorher ein Wahrscheinlichkeitsniveau a, zu dem der Test entschieden wird.

Das  a  gibt hier die Irrtumswahrscheinlichkeit an.

 

Für H0 sollte die Signifikanz hoch sein!!!

 

Für H1 sollte die Signifikanz niedrig sein!!!

 

Wir suchen hier einen Zusammenhang und testen nach H1! Das heißt, das die

Irrtumswahrscheinlichkeit sehr klein sein soll und wenn wir hier nach unserem Niveau gehen,

also unter a = 0,05 liegen muß!!!

 

    ANOVA

Modell

 

Quadratsumme

df

Mittel der Quadrate

F

Signifikanz

 

Regression

2722765247,606

2

1361382623,803

20,636

,000

 

Residuen

791668085,727

12

65972340,477

 

 

 

Gesamt

3514433333,333

14

 

 

 

a  Einflußvariablen : (Konstante), Kinderzahl, Verfügbares

b  Abhängige Variable: Darlehenshöhe

 

Bei der Rechnung mit SPSS wurde ein solches Niveau nicht vorgegeben und es wird F benutzt, das nun den Kippwert

angibt, wo das Ergebnis von Ho auf H1 kippt!

 

Bei diesem Beispiel ist die Signiffikanz in Ordnung und man kann davon ausgehen, das es

eine Abhängigkeit gibt!!!

 

III. Bewertung des Modells mittels T-Test

Unter T-Test ist die Bewertung jeder einzelnen unabhängigen Variablen zur abhängigen Variablen zu verstehen!!!

 

SPSS benutzt bei diesem Test folgende Hypothesen:

 

H0:  Alle b sind 0  Þ  b1 = 0; b2 = 0; bk = 0     Þ   Es besteht kein Zusammenhang zwischen abhängiger- und

                                                                                unabhängigen Variablen

H1:  Mindestens ein b ¹ 0                                 Þ   Es besteht ein Zusammenhang

 

Für H0 sollte die Signifikanz hoch sein!!!

 

Für H1 sollte die Signifikanz niedrig sein!!!

 

Achtung:      Es muß ein Zusammenhang bestehen, deshalb wird nach H1 getestet!

Irrtumsniveau a = 0,05

 

Verfügbares Einkommen:                   Die Signiffikanz wurde mit 0,085 = 8,5% sehr hoch errechnet

                                                              und wäre zwar von 0 verschieden, aber würde auch über dem

Irrtumsniveau von 0,05 liegen und somit würde keine

Abhängigkeit bestehen! Da es sich hier aber nur um 10 Fälle

handelt und nach ökonomischen Überlegungen das Einkommen

die Darlehenshöhe beeinflusst, ist der Wert noch OK!!!

Kinderzahl:                                           Der Wert von 0,013 ist sehr deutlich von 0 verschieden und liegt auch

deutlich unter dem Irrtumsniveau. Folglich ist die Variable OK!!!

 

      Koeffizienten

 

 

Nicht standardisierte Koeffizienten

 

Standardisierte Koeffizienten

T

Signifikanz

Modell

 

Aus b wurde b

Standardfehler

Beta

 

 

1

(Konstante)

5638,086

3923,384

 

1,437

,176

 

Verfügbares

2,254

1,200

,370

1,878

,085

 

Kinderzahl

8109,625

2772,138

,576

2,925

,013

a  Abhängige Variable: Darlehenshöhe

 

Standardisierte Koeffizienten:               hier besteht keine Skalierungsabhängigkeit mehr. Die Dimensionen sind aufgehoben und

man kann nun die Werte als Gewichtungsmaß nehmen!

 

Beide Variablen zeigen einen Zusammenhang zur Darlehenshöhe auf!

 

 

 

 

IV. Autokorelation oder Residuen

Bestehen Wechselwirkungen oder Abhängigkeiten zwischen den Unabhängigen Variablen?

 

 

Modellzusammenfassung

Modell

R

R-Quadrat

Korrigiertes R-Quadrat

Standardfehler des Schätzers

Durbin-Watson-Statistik

1

,880

,775

,737

8122,3359

1,995

a  Einflußvariablen : (Konstante), Kinderzahl, Verfügbares

b  Abhängige Variable: Darlehenshöhe

 

Der Wert für die Durbin- Watson-Statistik gibt das Kriterium für einen solchen Zusammhang! Liegt dieser Wert

zwischen 1,5 und 2,5, so besteht kein Zusammenhang!

 

Hier 1,995  = OK

 

 

 

 

V. Korrelation zwischen unabhängigen Variablen (Paarweise)

Hier wird überprüft, ob es keinen Zusammenhang zwischen den unabhängigen Variablen gibt!

 

SPSS benutzt bei diesem Test folgende Hypothesen:

 

H0:  Alle b sind 0  Þ  b1 = 0; b2 = 0; bk = 0   Þ   Es besteht kein Zusammenhang zwischen

                                                                   beiden Variablen

H1:  Mindestens ein b ¹ 0                               Þ    Es besteht ein Zusammenhang

 

Für H0 sollte die Signifikanz hoch sein!!!

 

Für H1 sollte die Signifikanz niedrig sein!!!

 

Achtung:      Es darf hier kein Zusammenhang bestehen, deshalb wird nach H0 getestet!

Irrtumsniveau a = 0,05

 

Korrelationen

 

 

Verfügbares

Kinderzahl

Verfügbares

Korrelation nach Pearson

1,000

,718

 

Signifikanz (2-seitig)

,

,003

 

N

15

15

Kinderzahl

Korrelation nach Pearson

,718

1,000

 

Signifikanz (2-seitig)

,003

,

 

N

15

15

**  Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.

 

Wir haben hier eine Korrelation von 0,718 und eine Signifikanz von 0,003 zwischen den unabhängigen Variablen

„Verfügbares Einkommen“ und „Kinderzahl“!

 

Da es sich hier um einen Test zu H0 handelt (kein Zusammenhang zwischen den unabhängigen Variablen) und die

Signifikanz deutlich unter dem Niveau von 0,01 liegt, besteht hier ein Zusammenhang zwischen beiden Variablen!

H1 tritt hier ein und wir sollten uns Gedanken über unser Modell machen!

 

Da es sich hier aber um eine sehr kleine Stichprobe handelt und inhaltlich ein Zusammenhang

zwischen beiden Variablen ausgeschlossen werden kann, können wir in diesem Fall das

Modell sichern!

 

 

 

VI. Ersetzen aller unabhängiger Variablen durch eine unabhängige Variable

Hier wird überprüft, in wie weit man Variablen durch andere erklären und auch ersetzen kann!!!

 

Koeffizienten

 

 

Kollinearitätsstatistik

 

Modell

 

Toleranz

VIF

1

(Konstante)

 

 

 

Verfügbares

,462

2,166

 

Kinderzahl

,364

2,750

 

Alter

,710

1,409

a  Abhängige Variable: Darlehenshöhe

 

Toleranz des

verfügbaren Einkommen:        Der Wert 0,462 bedeutet hier, das das verfügbare Einkommen zu 1 – 0,462 = 0,538 

also zu 53,8% von den beiden anderen Variablen erklärt werden kann!

Kinderzahl:                               Die Kinderzahl vom verf. Einkommen und dem Alter

zu 1 – 0,364 = 0,636 also 63,6% erklärt werden kann und

Alter:                                        Das Alter vom verf. Einkommen und der Kinderzahl

Zu 1 – 0,71 = 0,29 also 29% erklärt werden kann!

 

Ist die Toleranz  <  0,1  und dadurch VIF  >  10 so besteht eine Kollinearität!!!

 
  

 

 

 

Wäre die Toleranz des verf. Einkommens bei 0,09 müsste man rechnen   1 – 0,09 = 0,91 

also 91%, so würden die Variablen „Kinderzahl und Alter“ das verf. Einkommen zu 91%

erklären und man bräuchte das Einkommen eigentlich nicht mehr!!!

 

Wir haben hier das Alter zu Anschauungszwecken in das Model aufgenommen. Da wir die

Berechnung aber ohne das Alter machen, bekommen wir die Toleranzen von 0,484 für beide

unabhängigen Variablen heraus und können mit diesen werten leben!

 

Hier werden die geforderten Werte erfüllt!!!

 

 

 

VII. Kollinearitätsdiagnose

Hier wird der Konditionsindex zur Bewertung herangezogen!

 

Kollinearitätsdiagnose

 

 

Eigenwert

Konditionsindex

Varianzanteile

 

 

Modell

Dimension

 

 

(Konstante)

Verfügbares

Kinderzahl

1

1

2,700

1,000

,03

,02

,02

 

2

,210

3,583

,90

,05

,22

 

3

8,943E-02

5,495

,07

,93

,76

a  Abhängige Variable: Darlehenshöhe

 

Für die Spalte Konditionsindex gibt Brosius an, dass Werte unter 10 auf keine ; zwischen 10 und 30 auf mäßige und über 30

auf starke Kollinearität hinweisen (hier also keine Bedenken)!

Gibt es einen Eigenwert, der bei den Varianzanteilen (die Spalten addieren sich zu 1 auf) mehrere Variablen in hohem Maße

erklärt (hier der eigenwert der letzten Zeile), dann bedeutet dies, dass die betreffenden Variablen stark voneinander

abhängig sind!

 

Schlusswort:

Die Kollinearität kann hier wiederum von der sehr kleinen Stichprobe herrühren. Deshalb

würde ich als Abschluß dieser Untersuchung sagen, das das hier beschriebene Model in

Ordnung geht, aber mann solche Analysen nicht unter 20 Fällen machen sollte!!!

 

Zusatzaufgabe zu Schritt III:

 

 

 

Nicht standardisierte Koeffizienten

 

Standardisierte Koeffizienten

T

Signifikanz

Modell

 

Aus b wurde b

Standardfehler

Beta

 

 

1

(Konstante)

5638,086

3923,384

 

1,437

,176

 

Verfügbares

2,254

1,200

,370

1,878

,085

 

Kinderzahl

8109,625

2772,138

,576

2,925

,013

 

Aufgabe:

Bei dieser Berechnung haben wir ein b für die Kinderzahl von 8109,625! Man möchte nun testen,

das b der Kinderzahl wäre größer 5000!

 

Bemerkung:      Das b das wir bei jeder Stichprobe errechnen werden wird immer unterschiedlich Sein, und sich mit

größer werdender Anzahl von Stichproben immer weiter dem waren wert von b angleichen!

 

Hypothese:

H0:  b £ 5000                H1:  b > 5000             Irrtumsniveau a = 0,05

 

Überlegung:      Man möchte hier wissen, ob der Wert immer größer 5000 ist, deshalb führt man einen Test nur einseitig,

und zwar in Richtung 100% durch!!!Folgende Grafiken machen das deutlicher

 

Berechnung:    

 

Dieser errechnete Wert wird nun mit dem Fraktil der T Verteilung verglichen!

Der Kippwert wird berechnet durch das Fraktil  tn-k; 1-a

 

t 15-2;1-0,05 = t 13;0,95 = 1,771

 

a = 0,05

 

Umso größer die Wahrscheinlichkeit, also alle Werte nach links, umso sicherer ist es, das es

einen Wert kleiner 5000 gibt!

1,12 < 1,771

 

Es kann statistisch gesichert werden, das es einen Wert kleiner 5000 geben muss, in irgend

einer Stichprobe!