Diskriminanzanalyse

(Protokoll zur Übungsaufgabe)

 

Aufgabenbeschreibung:

                                                  Eine Bank versucht „gute“ und „schlechte“ Kunden zu trennen und

verwendet dabei die persönlichen und geschäftlichen Informationen, die sie über ihre Kunden gesammelt hat.

Sie verwendet die Datei „kredit_bereinigt.sav“ und SPSS 10 um ein Ergebnis zu erhalten.

Verwendete Variablen:

 

Da es zuviel Platz kosten würde alle Variablen darzustellen, die in der Datei abgebildet sind und es auch bei vielen Variablen

kein Sinn macht sie in das Modell einzubeziehen, wird folglich nur auf Variablen eingegangen, die sich vom inhaltlichen

Gehalt und nach Prüfung ihrer Skalierung (metrisch) eignen.

Warum metrisch?

Das Optimierungskriterium der Diskriminanzanalyse ist ein Quotient aus zwei Quadratsummen, zu deren Berechnung

wiederum Mittelwerte (arithmetisches Mittel) herangezogen werden. Mittelwerte sind aber streng genommen nur

für metrische Variablen interpretierbar. Ausnahme: Anteilswerte von qualitativen (nominalskalierten) Merkmalen

können formal ebenfalls als Mittelwerte aus binär (0/1) kodierten Variablen interpretiert werden.

 

Gruppenvariable:             Rückzahlung              Da hier nach guten Kunden oder schlechten Kunden gesucht wird und

eine Bank diese Entscheidung anhand von zurückgezahlten Krediten trifft,

wurde hier diese Variable gewählt.

                                                                         Es handelt sich hier um eine Nominalskalierte Variable, da nach zwei

Kriterien unterschieden werden soll. Die Unterscheidung wird in

0 = gekündigte Kredite (schlechter Kunde) und 1 = einwandfrei

zurückgezahlt (guter Kunde), vorgenommen.

Unabhängige                             

Variablen:                       Alter                           Ob ein Kredit zurückgezahlt werden kann, könnte auch mit dem Alter

zusammenhängen, da man davon ausgehen kann, das eine jüngere Person

einen langfristigen Kredit zwar abbezahlt, dieser allerdings noch nicht

abgelaufen ist. Eine ältere Person wird dahingehend schon positivere

Ergebnisse vorweisen können.

 

Einkommen pro         Das Einkommen pro Monat hat höchstwahrscheinlich einen

 

Monat                        Einfluss auf die Rückzahlung

                         

                                      Monatsmiete             Hier könnte man davon ausgehen, das die Monatsmiete einen negativen

Einfluss auf die Rückzahlung hat

 

                                      Dauer als Kunde       Hat bei einer Bank einen großen Einfluss auf die Vergabe

                                                                         eines Kredits, da die Bank altbekannten Kunden schneller

                                                                         Kredite gibt, als Neukunden

1. Eingabe der Werte in SPSS 10

 

1.1 Auswahl der Diskriminanzanalyse

 

 

1.2 Angabe der Variablen

 

 

1.3 Einstellungen des Menüs STATISTIK

 

 

1.4 Einstellungen des Menüs KLASSIFIZIEREN  

 

 

Bestätigt man nun das Hauptmenü der Diskriminanzanalyse mit „OK“ erhält man als Ausgabe die zu

interpretierenden Ergebnisse.

 

2. Interpretation der Ergebnisse

 

2.1 Als Erstes sollte man das komplette Model anhand seiner Eigenwerte beurteilen

 

Eigenwerte

Funktion

Eigenwert

λ

% der Varianz

Kumulierte %

Kanonische Korrelation

1

,600

100,0

100,0

,612

a  Die ersten 1 kanonischen Diskriminanzfunktionen werden in dieser Analyse verwendet.

 

Bei der Diskriminanzanalyse geht es hauptsächlich darum, dass man Diskriminanzwerte zwei oder auch mehrere

Gruppen so genau wie möglich zuordnen kann. Das geschieht am besten dann, wenn die Streuung zwischen den

Gruppen groß und die Streuung innerhalb einer Gruppe klein ist.

Aus der Formel

 

 

 SSZ = Streuung zwischen den Gruppen,  SSi = Streuung innerhalb der Gruppe

 

ergibt sich hieraus

 

 

Diesen Wert von 0,375 kann man so interpretieren, das 37,5% der Gesamtvarianz durch die Diskriminanzfunktion

erklärt werden. Dies entspricht einem, in der Praxis durchaus verwendbaren Wert!

 

Vom λ zum kanonischen Korrelationskoeffizienten =

 

Ergebnis:          Der errechnete Eigenwert lässt in seiner Höhe darauf schließen, das dieses Modell, zum

beschreiben des Sachverhaltes, weiter untersucht werden kann.

 

2.2 Beurteilen des Modells nach Wilks’ Lambda

 

Das Wilks’ Lambda wird folgendermaßen ermittelt:

 

 

Wilks’ Lambda lässt sich nun in ein annähernd Chi- Quadrat- verteiltes Maß transformieren, das nun die Möglichkeit

ergibt, das Modell mittels eines Testes zu beurteilen.

 

SPSS 10 Thesen:

 

H0: Die Mittelwerte der Diskriminanzwerte der Gruppen sind gleich

(Sind die Mittelwerte der Gruppen gleich, so kann man eine eindeutige Entscheidung nicht fällen)

 

H1: Die Mittelwerte der Diskriminanzwerte der Gruppen sind ungleich

(Sind die Mittelwerte der Gruppen ungleich, so kann man eine eindeutige Entscheidung fällen)

 

Wilks' Lambda

Test der Funktion(en)

Wilks-Lambda

Chi-Quadrat

df

Signifikanz

1

,625

45,603

4

,000

 

Die Signifikanz gibt hier die Wahrscheinlichkeit an, mich irrtümlich für H1 zu entscheiden, obwohl H0 richtig ist.

D.h. in diesem Fall, da die Signifikanz 0 ist, das H0 verworfen werden kann und H1 zutrifft, was wiederum besagt,

das die Mittelwerte der Gruppen ungleich sind.

 

Ergebnis:          Die Gruppen lassen sich trennen und man kann das Modell weiter benutzen.

 

2.3 Beurteilung mit dem Gleichheitstest der Gruppen

 

In Punkt 2.2 haben wir einen Test für das gesamte Modell benutzt, hier verwenden wir den gleichen Test, mit den gleichen

Hypothesen, aber auf die einzelnen unabhängigen Variablen bezogen.

 

Gleichheitstest der Gruppenmittelwerte

 

Wilks-Lambda

F

df1

df2

Signifikanz

Alter

,765

30,478

1

99

,000

Einkommen in DM je Monat

,927

7,754

1

99

,006

Monatsmiete in DM

1,000

,022

1

99

,883

Dauer als Kunde

,816

22,298

1

99

,000

 

SPSS 10 Thesen:

 

H0: Die Mittelwerte der Diskriminanzwerte der Gruppen sind gleich

(Sind die Mittelwerte der Gruppen gleich, so kann man eine eindeutige Entscheidung nicht fällen)

 

H1: Die Mittelwerte der Diskriminanzwerte der Gruppen sind ungleich

(Sind die Mittelwerte der Gruppen ungleich, so kann man eine eindeutige Entscheidung fällen)

 

Beurteilung der einzelnen Variablen mittels der Signifikanz:

 

Alter:                                        Hier entscheidet der Test eindeutig (0,000) zugunsten  H1 Þ Variable gut

 

Einkommen je Monat:             Hier entscheidet der Test eindeutig (0,006) zugunsten H1 Þ Variable gut

 

Monatsmiete:                           Hier entscheidet der Test eindeutig (0,883) zugunsten H0 Þ Variable schlecht

 

Dauer als Kunde:                    Hier entscheidet der Test eindeutig (0,000) zugunsten H1 Þ Variable gut

 

 

Ergebnis:          Bei diesem Test wurde festgestellt, das der hohe Wert für die Signifikanz bei der Monatsmiete,

es wahrscheinlich macht, dass der Unterschied dieses Mittelwertes zufällig sein kann  und nicht

bewiesen werden kann. Folglich ist dieses Modell nicht zu gebrauchen und man muss einen neuen

Versuch ohne die Variable Monatsmiete durchführen.

 

3. Model 2 (ohne Monatsmiete)

 

3.1 Eigenwerte

 

Eigenwerte

Funktion

Eigenwert

 

% der Varianz

Kumulierte %

Kanonische Korrelation             

 

1

,504

100,0

100,0

,579

a  Die ersten 1 kanonischen Diskriminanzfunktionen werden in dieser Analyse verwendet.

 

 

Diesen Wert von 0,335 kann man so interpretieren, das 33,5% der Gesamtvarianz durch die Diskriminanzfunktion

erklärt werden. Dies entspricht einem, in der Praxis durchaus immer noch verwendbaren Wert!

 

Vom λ zum kanonischen Korrelationskoeffizienten =

 

Ergebnis:          Der errechnete Eigenwert lässt in seiner Höhe darauf schließen, das dieses Modell,

zum beschreiben des Sachverhaltes, weiter untersucht werden kann.

 

3.2 Beurteilen des Modells nach Wilks’ Lambda

 

Das Wilks’ Lambda wird folgendermaßen ermittelt:

 

 

Wilks’ Lambda lässt sich nun in ein annähernd Chi- Quadrat- verteiltes Maß transformieren, das nun die Möglichkeit

ergibt, das Modell mittels eines Testes zu beurteilen.

 

SPSS 10 Thesen:

 

H0: Die Mittelwerte der Diskriminanzwerte der Gruppen sind gleich

(Sind die Mittelwerte der Gruppen gleich, so kann man eine eindeutige Entscheidung nicht fällen)

 

H1: Die Mittelwerte der Diskriminanzwerte der Gruppen sind ungleich

(Sind die Mittelwerte der Gruppen ungleich, so kann man eine eindeutige Entscheidung fällen)

 

Wilks' Lambda

Test der Funktion(en)

Wilks-Lambda

Chi-Quadrat

df

Signifikanz

 

1

,665

39,801

3

,000

 

Die Signifikanz gibt hier die Wahrscheinlichkeit an, mich irrtümlich für H1 zu entscheiden, obwohl H0 richtig ist. D.h. in

diesem Fall, da die Signifikanz 0,000 ist, das H0 verworfen werden kann und H1 zutrifft, was wiederum besagt, das die

Mittelwerte der Gruppen ungleich sind.

 

Ergebnis:          Die Gruppen lassen sich trennen und man kann das Modell weiter benutzen.

 

3.3 Beurteilung mit dem Gleichheitstest der Gruppen

 

In Punkt 3.2 haben wir einen Test für das gesamte Modell benutzt, hier verwenden wir den gleichen Test, mit den gleichen

Hypothesen, aber auf die einzelnen unabhängigen Variablen bezogen.

 

Gleichheitstest der Gruppenmittelwerte

 

Wilks-Lambda

F

df1

df2

Signifikanz

 

Alter

,765

30,478

1

99

,000

Einkommen in DM je Monat

,927

7,754

1

99

,006

Dauer als Kunde

,816

22,298

1

99

,000

 

SPSS 10 Thesen:

 

H0: Die Mittelwerte der Diskriminanzwerte der Gruppen sind gleich

(Sind die Mittelwerte der Gruppen gleich, so kann man eine eindeutige Entscheidung nicht fällen)

 

H1: Die Mittelwerte der Diskriminanzwerte der Gruppen sind ungleich

(Sind die Mittelwerte der Gruppen ungleich, so kann man eine eindeutige Entscheidung fällen)

 

Beurteilung der einzelnen Variablen mittels der Signifikanz:

 

Alter:                                        Hier entscheidet der Test eindeutig (0,000) zugunsten H1 Þ Variable gut

 

Einkommen je Monat:             Hier entscheidet der Test eindeutig (0,006) zugunsten H1 Þ Variable gut

 

Dauer als Kunde:                    Hier entscheidet der Test eindeutig (0,000) zugunsten H1 Þ Variable gut

 

 

Ergebnis:          Bei diesem Test wurde festgestellt, das alle unabhängigen Variablen einen unterschiedlichen

Mittelwert aufweisen und dieser nicht zufällig zustande gekommen ist. Deshalb kann dieses

zweite Modell weiter untersucht werden.

 

3.4 Kanonische Diskriminanzfunktionskoeefizienten

 

Aus diesen Koeffizienten lässt sich die Diskriminanzfunktion bilden.

 

Kanonische Diskriminanzfunktionskoeffizienten

Funktion

1

 

Alter

,055

 

Einkommen in DM je Monat

,000

 

Dauer als Kunde

,169

 

(Konstant)

-3,352

 

Nicht-standardisierte Koeffizienten

 

Diskriminanzfunktion (Zur Berechnung jedes einzelnen Punktes)

 

d = -3,352 + 0,055*Alter + Einkommen + 0,169 * Dauer

 

 
 

 

 

 

 

 


3.5 Standardisierte Kanonische Diskriminanzfunktionskoeffizienten

 

Aus diesen Koeffizienten lässt sich eine Gewichtung der einzelnen Variablen ablesen.

 

Standardisierte kanonische Diskriminanzfunktionskoeffiziente

 

Funktion

1

 

Alter

,617

 

Einkommen in DM je Monat

,331

 

Dauer als Kunde

,579

 

 

Hieraus lässt sich z.B. ablesen, das das Alter doppelt so viel Einfluss auf die abhängige Variable hat, als das Einkommen.

 

3.6 Korrelationsanalyse der unabhängigen Variablen

 

Mit einer Korrelationsanalyse soll nun festgestellt werden, ob Abhängigkeiten zwischen den einzelnen unabhängigen Variablen

bestehen, die indirekt einen verfälschenden Einfluss auf die Diskriminanz-funktion nehmen würden.

 

Korrelationsanalyse unter SPSS 10

 

 

Eintragen der Variablen

 

 

3.7 Interpretieren der Korrelationsanalyse

 

Korrelationen

 

 

Alter

Einkommen in DM je Monat

Dauer als Kunde

 

Alter

 

 

 

 

Korrelation nach Pearson

 

1,000

,276

,354

 

Signifikanz (2-seitig)

 

,

,005

,000

N

 

101

101

101

Einkommen in DM je Monat

 

 

 

 

Korrelation nach Pearson

 

,276

1,000

,050

 

Signifikanz (2-seitig)

 

,005

,

,617

N

 

101

101

101

Dauer als Kunde

 

 

 

 

Korrelation nach Pearson

 

,354

,050

1,000

 

Signifikanz (2-seitig)

 

,000

,617

,

N

 

101

101

101

**  Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.

 

Da man nun eine Abhängigkeit zwischen den Variablen vermeiden möchte, wird die Korrelation mittels eines T-Tests überprüft.

Man beachte allerdings, das nach Pearson eine Korrelation nur mit metrischen Werten durchzuführen ist!

 

SPSS 10 Thesen:

 

H0: Es besteht keine Abhängigkeit zwischen den einzelnen Variablen

(Wäre für das Modell gut, da eine Abhängigkeit einen verfälschenden Einfluss nehmen kann)

 

H1: Es besteht eine Abhängigkeit zwischen den einzelnen Variablen

(Wäre für das Modell schlecht, da eine Abhängigkeit einen verfälschenden Einfluss nehmen kann)

 

Da man hier auf H0 testet, wird jeweils eine hohe Signifikanz benötigt ( > 0,01 )! Betrachtet man nun das ALTER, so sieht man,

das es zu beiden anderen Variablen (Einkommen = 0,005 und Dauer des Kunden = 0,000) eine sehr niedrige Signifikanz hat und

dadurch eine Korrelation anzeigt. Da sich inhaltlich das Alter mit dem „Einkommen“ und der „Dauer des Kunden“ verbinden lässt,

wurde hier als nächste Konsequenz das Alter aus dem Modell ausgeschlossen!

 

Ergebnis:           Ein drittes Modell mit der Rückzahlung als abhängige Variable und dem Einkommen je

               Monat sowie der Dauer als Kunde, als unabhängige Variable

 

4. Modell 3 (ohne Alter)

 

4.1 Eigenwert

 

Eigenwerte

Funktion

Eigenwert

% der Varianz

Kumulierte %

Kanonische Korrelation

1

,325

100,0

100,0

,495

a  Die ersten 1 kanonischen Diskriminanzfunktionen werden in dieser Analyse verwendet.

 

Der Eigenwert von 0,325 und der daraus resultierende Beschreibungsgrad von 24,5% ist eigentlich recht klein, deshalb beurteilt

man das Modell besser noch nach Wilks’ Lambda

 

4.2 Wilks’ Lambda

 

Wilks' Lambda

Test der Funktion(en)

Wilks-Lambda

Chi-Quadrat

df

Signifikanz

1

,755

27,601

2

,000

 

Die Signifikanz und der wert von Wilks’ Lambda lassen hier die Annahme zu, das dieses Modell eine genügend große

Aussagefähigkeit hat!

 

4.3 Gleichheitstest der Gruppen

 

Gleichheitstest der Gruppenmittelwerte

 

Wilks-Lambda

F

df1

df2

Signifikanz

Einkommen in DM je Monat

,927

7,754

1

99

,006

Dauer als Kunde

,816

22,298

1

99

,000

 

Die sehr geringen Werte der Signifikanz sagt hier aus, das die Mittelwerte voneinander verschieden sind und somit

das Modell zu gebrauchen ist!

 

4.4 Kanonische Diskriminanzfunktionskoeefizienten

 

Kanonische Diskriminanzfunktionskoeffizienten

 

 

Funktion

 

1

Einkommen in DM je Monat

,000

Dauer als Kunde

,254

(Konstant)

-2,026

Nicht-standardisierte Koeffizienten

 

Textfeld: Diskriminanzfunktion (Zur Berechnung jedes einzelnen Punktes)

d = -2,026 + Einkommen + 0,254 * Dauer

 

 

 

 

 

4.5 Standardisierte Kanonische Diskriminanzfunktionskoeefizienten

 

Standardisierte kanonische Diskriminanzfunktionskoeffizienten

 

 

Funktion

 

1

Einkommen in DM je Monat

,556

Dauer als Kunde

,874

 

Die Dauer als Kunde nimmt den meisten Einfluss auf die abhängige Variable

 

 

4.6 Korrelation

 

Eine weitere Analyse ist hier nicht notwendig, da sich die Werte der letzten Analyse von 3.7 nicht verändert haben.

Mit der Signifikanz von 0,617 wurde sichergestellt, das sich der Test für H0 entscheidet und das somit keine Korrelation

zwischen diesen Variablen besteht!

 

4.7 Fallweise Statistiken

 

Erklärung zu den wichtigsten Punkten:

 

Tatsächliche Gruppe:              In welcher Gruppe der Fall tatsächlich eingeordnet ist.

Höchste Gruppe:                     In welcher Gruppe der Fall mit der höchsten Wahrscheinlichkeit durch die Diskriminanzanalyse

                                                  eingeordnet wird.

Zweithöchste Gruppe:             Ist die abhängige Variable in zwei Gruppen unterteilt und der Fall wurde in der Höchsten Gruppe

z.B. als gut bewertet, so entspricht die Zweithöchste Gruppe der noch verbleibenden Gruppe.

Werden mehr als zwei Gruppen betrachtet, so steht hier die Gruppe mit der zweithöchsten

Wahrscheinlichkeit.

Vorhergesagte Gruppe:          Hier stehen die Gruppen, der dieser Fall von der Diskriminanzanalyse zugeordnet worden ist.

** vor den Gruppen bedeutet, das dieser Fall in Wirklichkeit der anderen Gruppe zugeordnet ist.

P(G=g | D=d):                           Hier wird die Wahrscheinlichkeit angegeben mit der dieser Diskriminanzwert d in der Gruppe g ist!

Diskriminanzwerte:                  Werte die durch die Diskriminanzfunktion für jeden einzelnen Fall errechnet Wurden.

Normalerweise liegen die Werte der einen Gruppe im negativen Bereich und die der anderen

Gruppe im positiven Bereich.

 

 

Ergebnis:          Das Model 3 mit der abhängigen Variablen = Rückzahlung und den unabhängigen Variablen wie

Einkommen und Dauer als Kunde lässt sich für unsere Fragestellung gebrauchen!