(Protokoll
zur Übungsaufgabe)
Eine Bank versucht „gute“ und „schlechte“ Kunden zu trennen und
verwendet dabei die persönlichen und geschäftlichen Informationen, die sie über ihre Kunden gesammelt hat.
Sie verwendet die Datei „kredit_bereinigt.sav“ und SPSS 10 um ein Ergebnis zu erhalten.
Da es zuviel Platz kosten würde alle Variablen darzustellen, die in der Datei abgebildet sind und es auch bei vielen Variablen
kein Sinn macht sie in das Modell einzubeziehen, wird folglich nur auf Variablen eingegangen, die sich vom inhaltlichen
Gehalt und nach Prüfung ihrer Skalierung (metrisch) eignen.
Warum metrisch?
Das Optimierungskriterium der Diskriminanzanalyse ist ein Quotient aus zwei
Quadratsummen, zu deren Berechnung
wiederum Mittelwerte (arithmetisches Mittel)
herangezogen werden. Mittelwerte sind aber streng genommen nur
für metrische Variablen interpretierbar.
Ausnahme: Anteilswerte von qualitativen (nominalskalierten)
Merkmalen
können formal ebenfalls als Mittelwerte aus
binär (0/1) kodierten Variablen interpretiert werden.
Gruppenvariable: Rückzahlung Da hier nach guten Kunden oder schlechten Kunden gesucht wird und
eine Bank diese Entscheidung anhand von zurückgezahlten Krediten trifft,
wurde hier diese Variable gewählt.
Es handelt sich hier um eine Nominalskalierte Variable, da nach zwei
Kriterien unterschieden werden soll. Die Unterscheidung wird in
0 = gekündigte Kredite (schlechter Kunde) und 1 = einwandfrei
zurückgezahlt (guter Kunde), vorgenommen.
Unabhängige
Variablen: Alter Ob ein Kredit zurückgezahlt werden kann, könnte auch mit dem Alter
zusammenhängen, da man davon ausgehen kann, das eine jüngere Person
einen langfristigen Kredit zwar abbezahlt, dieser allerdings noch nicht
abgelaufen ist. Eine ältere Person wird dahingehend schon positivere
Ergebnisse vorweisen können.
Einkommen pro Das Einkommen pro Monat hat höchstwahrscheinlich einen
Monat Einfluss auf die Rückzahlung
Monatsmiete Hier könnte man davon ausgehen, das die Monatsmiete einen negativen
Einfluss auf die Rückzahlung hat
Dauer als Kunde Hat bei einer Bank einen großen Einfluss auf die Vergabe
eines Kredits, da die Bank altbekannten Kunden schneller
Kredite gibt, als Neukunden
1.1 Auswahl der Diskriminanzanalyse
1.2 Angabe der Variablen
1.3 Einstellungen des Menüs STATISTIK
1.4 Einstellungen des Menüs KLASSIFIZIEREN
Bestätigt man nun das Hauptmenü der Diskriminanzanalyse
mit „OK“ erhält man als Ausgabe die zu
interpretierenden Ergebnisse.
2.1 Als Erstes sollte man das komplette
Model anhand seiner Eigenwerte beurteilen
Eigenwerte
Funktion |
Eigenwert λ |
% der Varianz |
Kumulierte
% |
Kanonische
Korrelation |
1 |
,600 |
100,0 |
100,0 |
,612 |
a Die ersten 1 kanonischen
Diskriminanzfunktionen werden in dieser Analyse
verwendet.
Bei der Diskriminanzanalyse geht es hauptsächlich darum, dass man Diskriminanzwerte zwei oder auch mehrere
Gruppen so genau wie möglich zuordnen kann. Das geschieht am besten dann, wenn die Streuung zwischen den
Gruppen groß und die Streuung innerhalb einer Gruppe klein ist.
Aus der Formel
SSZ = Streuung zwischen den Gruppen, SSi = Streuung innerhalb der Gruppe
ergibt sich hieraus
Diesen Wert von 0,375 kann man so interpretieren, das 37,5% der Gesamtvarianz durch die Diskriminanzfunktion
erklärt werden. Dies entspricht einem, in der Praxis durchaus verwendbaren Wert!
Vom λ zum kanonischen
Korrelationskoeffizienten =
Ergebnis: Der errechnete Eigenwert lässt in
seiner Höhe darauf schließen, das dieses Modell, zum
beschreiben des Sachverhaltes,
weiter untersucht werden kann.
2.2 Beurteilen des Modells nach Wilks’ Lambda
Das Wilks’ Lambda wird folgendermaßen
ermittelt:
Wilks’ Lambda lässt sich nun in ein annähernd Chi- Quadrat-
verteiltes Maß transformieren, das nun die Möglichkeit
ergibt, das Modell mittels eines Testes zu beurteilen.
SPSS 10 Thesen:
H0: Die Mittelwerte der Diskriminanzwerte der Gruppen sind gleich
(Sind die Mittelwerte der Gruppen gleich, so kann man eine eindeutige
Entscheidung nicht fällen)
H1: Die Mittelwerte der Diskriminanzwerte der Gruppen sind ungleich
(Sind die Mittelwerte der Gruppen ungleich, so kann man eine eindeutige
Entscheidung fällen)
Test der Funktion(en) |
Wilks-Lambda |
Chi-Quadrat |
df |
Signifikanz |
1 |
,625 |
45,603 |
4 |
,000 |
Die Signifikanz gibt hier die Wahrscheinlichkeit an, mich irrtümlich für
H1 zu entscheiden, obwohl H0 richtig ist.
D.h. in diesem Fall, da die Signifikanz 0 ist, das H0 verworfen werden
kann und H1 zutrifft, was wiederum besagt,
das die Mittelwerte der Gruppen ungleich sind.
Ergebnis: Die Gruppen lassen sich trennen und man
kann das Modell weiter benutzen.
2.3 Beurteilung mit dem Gleichheitstest der
Gruppen
In Punkt 2.2 haben wir einen Test für das gesamte Modell benutzt, hier
verwenden wir den gleichen Test, mit den gleichen
Hypothesen, aber auf die einzelnen unabhängigen Variablen bezogen.
Gleichheitstest der Gruppenmittelwerte
|
Wilks-Lambda |
F |
df1 |
df2 |
Signifikanz |
Alter |
,765 |
30,478 |
1 |
99 |
,000 |
Einkommen in DM je Monat |
,927 |
7,754 |
1 |
99 |
,006 |
Monatsmiete
in DM |
1,000 |
,022 |
1 |
99 |
,883 |
Dauer als Kunde |
,816 |
22,298 |
1 |
99 |
,000 |
SPSS 10 Thesen:
H0: Die Mittelwerte der Diskriminanzwerte der Gruppen sind gleich
(Sind die Mittelwerte der Gruppen gleich, so kann man eine eindeutige
Entscheidung nicht fällen)
H1: Die Mittelwerte der Diskriminanzwerte der Gruppen sind ungleich
(Sind die Mittelwerte der Gruppen ungleich, so kann man eine eindeutige
Entscheidung fällen)
Beurteilung der einzelnen Variablen mittels der Signifikanz:
Alter: Hier
entscheidet der Test eindeutig (0,000)
zugunsten H1
Þ
Variable gut
Einkommen je Monat: Hier
entscheidet der Test eindeutig (0,006)
zugunsten H1 Þ
Variable gut
Monatsmiete: Hier entscheidet der
Test eindeutig (0,883) zugunsten H0 Þ Variable schlecht
Dauer als Kunde: Hier
entscheidet der Test eindeutig (0,000) zugunsten
H1 Þ
Variable gut
Ergebnis: Bei
diesem Test wurde festgestellt, das der hohe Wert für die Signifikanz bei der
Monatsmiete,
es
wahrscheinlich macht, dass der Unterschied dieses Mittelwertes zufällig
sein kann und nicht
bewiesen
werden kann. Folglich ist dieses Modell nicht zu gebrauchen und man muss einen
neuen
Versuch
ohne die Variable Monatsmiete durchführen.
3.1 Eigenwerte
Funktion |
Eigenwert |
% der Varianz |
Kumulierte % |
Kanonische Korrelation |
1 |
,504 |
100,0 |
100,0 |
,579 |
a Die
ersten 1 kanonischen Diskriminanzfunktionen
werden in dieser Analyse verwendet.
Diesen Wert von 0,335 kann man so interpretieren, das 33,5% der Gesamtvarianz durch die Diskriminanzfunktion
erklärt werden. Dies entspricht einem, in der Praxis durchaus immer noch verwendbaren Wert!
Vom λ zum kanonischen
Korrelationskoeffizienten =
Ergebnis: Der errechnete Eigenwert lässt in seiner
Höhe darauf schließen, das dieses Modell,
zum
beschreiben des Sachverhaltes, weiter untersucht werden kann.
3.2 Beurteilen des Modells nach Wilks’ Lambda
Das Wilks’ Lambda wird folgendermaßen
ermittelt:
Wilks’ Lambda lässt sich nun in ein annähernd Chi-
Quadrat- verteiltes Maß transformieren, das nun die Möglichkeit
ergibt, das Modell mittels eines Testes zu beurteilen.
SPSS 10 Thesen:
H0: Die Mittelwerte der Diskriminanzwerte der Gruppen sind gleich
(Sind die Mittelwerte der Gruppen gleich, so kann man eine eindeutige
Entscheidung nicht fällen)
H1: Die Mittelwerte der Diskriminanzwerte der Gruppen sind ungleich
(Sind die Mittelwerte der Gruppen ungleich, so kann man eine eindeutige
Entscheidung fällen)
Test der Funktion(en) |
Wilks-Lambda |
Chi-Quadrat |
df |
Signifikanz |
1 |
,665 |
39,801 |
3 |
,000 |
Die Signifikanz gibt hier die Wahrscheinlichkeit an, mich irrtümlich für
H1 zu entscheiden, obwohl H0 richtig ist. D.h. in
diesem Fall, da die Signifikanz 0,000 ist, das H0 verworfen werden kann
und H1 zutrifft, was wiederum besagt, das die
Mittelwerte der Gruppen ungleich sind.
Ergebnis: Die Gruppen lassen sich trennen und man kann das Modell
weiter benutzen.
3.3 Beurteilung mit dem Gleichheitstest der
Gruppen
In Punkt 3.2 haben wir einen Test für das gesamte Modell benutzt, hier
verwenden wir den gleichen Test, mit den gleichen
Hypothesen, aber auf die einzelnen unabhängigen Variablen bezogen.
|
Wilks-Lambda |
F |
df1 |
df2 |
Signifikanz |
Alter |
,765 |
30,478 |
1 |
99 |
,000 |
Einkommen in DM je Monat |
,927 |
7,754 |
1 |
99 |
,006 |
Dauer als Kunde |
,816 |
22,298 |
1 |
99 |
,000 |
SPSS 10 Thesen:
H0: Die Mittelwerte der Diskriminanzwerte der Gruppen sind gleich
(Sind die Mittelwerte der Gruppen gleich, so kann man eine eindeutige
Entscheidung nicht fällen)
H1: Die Mittelwerte der Diskriminanzwerte der Gruppen sind ungleich
(Sind die Mittelwerte der Gruppen ungleich, so kann man eine eindeutige
Entscheidung fällen)
Beurteilung der einzelnen Variablen mittels der Signifikanz:
Alter: Hier
entscheidet der Test eindeutig (0,000)
zugunsten H1 Þ
Variable gut
Einkommen je Monat: Hier
entscheidet der Test eindeutig (0,006)
zugunsten H1 Þ
Variable gut
Dauer als Kunde: Hier
entscheidet der Test eindeutig (0,000)
zugunsten H1 Þ
Variable gut
Ergebnis: Bei
diesem Test wurde festgestellt, das alle unabhängigen Variablen einen
unterschiedlichen
Mittelwert
aufweisen und dieser nicht zufällig zustande gekommen ist. Deshalb kann dieses
zweite
Modell weiter untersucht werden.
3.4
Kanonische Diskriminanzfunktionskoeefizienten
Aus diesen Koeffizienten lässt sich die Diskriminanzfunktion bilden.
Funktion
|
1 |
|
Alter |
,055 |
|
Einkommen in DM je Monat |
,000 |
|
Dauer als Kunde |
,169 |
|
(Konstant) |
-3,352 |
|
Nicht-standardisierte Koeffizienten
Diskriminanzfunktion (Zur Berechnung jedes einzelnen Punktes) d = -3,352 + 0,055*Alter + Einkommen + 0,169 * Dauer
3.5
Standardisierte Kanonische Diskriminanzfunktionskoeffizienten
Aus diesen Koeffizienten lässt sich eine Gewichtung der einzelnen Variablen ablesen.
Funktion |
1 |
Alter |
,617 |
Einkommen in DM je Monat |
,331 |
Dauer als Kunde |
,579 |
Hieraus lässt sich z.B. ablesen, das das Alter doppelt so viel Einfluss auf die abhängige Variable hat, als das Einkommen.
3.6
Korrelationsanalyse der unabhängigen Variablen
Mit einer Korrelationsanalyse soll nun festgestellt werden, ob Abhängigkeiten zwischen den einzelnen unabhängigen Variablen
bestehen, die indirekt einen verfälschenden Einfluss auf die Diskriminanz-funktion nehmen würden.
Korrelationsanalyse
unter SPSS 10
Eintragen
der Variablen
3.7 Interpretieren der Korrelationsanalyse
|
|
Alter |
Einkommen in DM je Monat |
Dauer als Kunde |
Alter |
|
|
|
|
Korrelation
nach Pearson |
|
1,000 |
,276 |
,354 |
Signifikanz
(2-seitig) |
|
, |
,005 |
,000 |
N |
|
101 |
101 |
101 |
Einkommen in DM je Monat |
|
|
|
|
Korrelation
nach Pearson |
|
,276 |
1,000 |
,050 |
Signifikanz
(2-seitig) |
|
,005 |
, |
,617 |
N |
|
101 |
101 |
101 |
Dauer als Kunde |
|
|
|
|
Korrelation
nach Pearson |
|
,354 |
,050 |
1,000 |
Signifikanz
(2-seitig) |
|
,000 |
,617 |
, |
N |
|
101 |
101 |
101 |
** Die Korrelation
ist auf dem Niveau von 0,01 (2-seitig) signifikant.
Da man nun eine Abhängigkeit zwischen den Variablen vermeiden möchte, wird die Korrelation mittels eines T-Tests überprüft.
Man beachte allerdings, das nach
Pearson eine Korrelation nur mit metrischen Werten durchzuführen ist!
SPSS 10 Thesen:
H0: Es besteht keine Abhängigkeit zwischen den einzelnen Variablen
(Wäre für das Modell gut, da eine Abhängigkeit einen verfälschenden
Einfluss nehmen kann)
H1: Es besteht eine Abhängigkeit zwischen den einzelnen Variablen
(Wäre für das Modell schlecht, da eine
Abhängigkeit einen verfälschenden Einfluss nehmen kann)
Da man hier auf H0 testet, wird jeweils eine
hohe Signifikanz benötigt ( > 0,01 )! Betrachtet
man nun das ALTER, so sieht man,
das es zu beiden anderen Variablen (Einkommen
= 0,005 und Dauer des Kunden = 0,000) eine sehr niedrige Signifikanz hat und
dadurch eine Korrelation anzeigt. Da sich
inhaltlich das Alter mit dem „Einkommen“ und der „Dauer des Kunden“ verbinden
lässt,
wurde hier als nächste Konsequenz das Alter
aus dem Modell ausgeschlossen!
Ergebnis: Ein drittes Modell mit der Rückzahlung als abhängige Variable und
dem Einkommen je
Monat sowie der Dauer als Kunde,
als unabhängige Variable
4.1 Eigenwert
Eigenwerte
Funktion |
Eigenwert |
% der
Varianz |
Kumulierte
% |
Kanonische
Korrelation |
1 |
,325 |
100,0 |
100,0 |
,495 |
a Die ersten 1 kanonischen
Diskriminanzfunktionen werden in dieser Analyse
verwendet.
Der Eigenwert von 0,325 und der daraus resultierende Beschreibungsgrad von 24,5% ist eigentlich recht klein, deshalb beurteilt
man das Modell besser noch nach Wilks’ Lambda
4.2 Wilks’ Lambda
Test
der Funktion(en) |
Wilks-Lambda |
Chi-Quadrat |
df |
Signifikanz |
1 |
,755 |
27,601 |
2 |
,000 |
Die Signifikanz und der wert von Wilks’
Lambda lassen hier die Annahme zu, das dieses Modell eine genügend große
Aussagefähigkeit hat!
4.3 Gleichheitstest der Gruppen
|
Wilks-Lambda |
F |
df1 |
df2 |
Signifikanz |
Einkommen
in DM je Monat |
,927 |
7,754 |
1 |
99 |
,006 |
Dauer
als Kunde |
,816 |
22,298 |
1 |
99 |
,000 |
Die sehr geringen Werte der Signifikanz sagt hier aus, das
die Mittelwerte voneinander verschieden sind und somit
das Modell zu gebrauchen ist!
4.4
Kanonische Diskriminanzfunktionskoeefizienten
|
Funktion |
|
1 |
Einkommen
in DM je Monat |
,000 |
Dauer
als Kunde |
,254 |
(Konstant) |
-2,026 |
Nicht-standardisierte Koeffizienten
4.5
Standardisierte Kanonische Diskriminanzfunktionskoeefizienten
|
Funktion |
|
1 |
Einkommen
in DM je Monat |
,556 |
Dauer
als Kunde |
,874 |
Die Dauer als Kunde nimmt den meisten Einfluss auf die abhängige Variable
4.6
Korrelation
Eine weitere Analyse ist hier nicht notwendig, da sich die Werte der letzten Analyse von 3.7 nicht verändert haben.
Mit der Signifikanz von 0,617 wurde sichergestellt, das sich der Test für H0 entscheidet und das somit keine Korrelation
zwischen diesen Variablen besteht!
4.7
Fallweise Statistiken
Erklärung
zu den wichtigsten Punkten:
Tatsächliche Gruppe: In welcher Gruppe der Fall
tatsächlich eingeordnet ist.
Höchste Gruppe: In welcher Gruppe der Fall mit der höchsten Wahrscheinlichkeit durch die Diskriminanzanalyse
eingeordnet wird.
Zweithöchste Gruppe: Ist die abhängige Variable in zwei Gruppen unterteilt und der Fall wurde in der Höchsten Gruppe
z.B. als gut bewertet, so entspricht die Zweithöchste Gruppe der noch verbleibenden Gruppe.
Werden mehr als zwei Gruppen betrachtet, so steht hier die Gruppe mit der zweithöchsten
Wahrscheinlichkeit.
Vorhergesagte Gruppe: Hier stehen die Gruppen, der dieser Fall von der Diskriminanzanalyse zugeordnet worden ist.
** vor den Gruppen bedeutet, das dieser Fall in Wirklichkeit der anderen Gruppe zugeordnet ist.
P(G=g | D=d): Hier wird die Wahrscheinlichkeit angegeben mit der dieser Diskriminanzwert d in der Gruppe g ist!
Diskriminanzwerte: Werte die durch die Diskriminanzfunktion für jeden einzelnen Fall errechnet Wurden.
Normalerweise liegen die Werte der einen Gruppe im negativen Bereich und die der anderen
Gruppe im positiven Bereich.
Ergebnis: Das Model
3 mit der abhängigen Variablen = Rückzahlung und den unabhängigen Variablen wie
Einkommen und Dauer als Kunde lässt sich für unsere
Fragestellung gebrauchen!