Dieser Test soll aufzeigen, wie sich ein abhängiges Merkmal (Kredit Rückzahlung) durch Einfluss eines unabhängigen
Merkmales ( Alter der Kunden) am besten unterscheidet!
Man versucht hier die Objekte in guter und schlechter Kunde aufzuteilen um Entscheidungen z.B.
fürs Management treffen zu können!
Beispiel: Abhängiges
Merkmal: Rückzahlung; unabh. Merkmal: Alter
+ Arbeitsdauer
Alter: Knoten [18;38] Die Kunden zwischen 18 und 38
Jahren sind haben eher Probleme ihre Kredite
rechtzeitig zurück zuzahlen! Der grüne Balken ist viel größer!!! Knoten [38;43] In diesem Intervall bezahlen die
Kunden fast immer ihre Kredite zurück! Knoten [43;50] In diesem Intervall könnte die midlife- Krisis eine Rolle für die Mehrzahl an nicht
zurückgezahlten Krediten spielen Knoten [50;68] Hier werden die Kredite wieder
fast völlig zurückgezahlt! Arbeitsdauer: Hier ist die Arbeitsdauer bei der schlechten Kategorie
des Alters- Knoten [38;43] angesetzt, da man hier
einen schlechten Wert der Rückzahlung errechnet hat! Knoten [4;6;8] Man sieht hier, das in dieser
Alterskategorie die Rückzahlung der Kredite besonders schlecht ist,
während in der Kategorie [10;20]
alle Kredite zurückgezahlt werden. Was ein Grund sein kann: Wer länger
arbeitet, verdient mehr und hat auch mehr Zeit den Kredit zurück zuzahlen! Dieser Balken gibt an ca. 50% schlechte Kunden Dieser Balken gibt an ca. 50% gute Kunden
Für jede der unabhängigen Merkmale wird überprüft, ob sich die Menge der Objekte anhand dieses
Merkmals sehr gut separieren lässt (bezogen auf das abhängige Merkmal).
Wir
nehmen das Beispiel der Seite 1 und gehen es Schritt für Schritt durch!
Beschreibung: Der Chef einer Bank möchte wissen wie
er seine zukünftigen Entscheidungen
bezüglich „schlechte und guter
Kunden“ bei der Rückzahlung von Krediten , besser
treffen kann!
Man entscheidet sich als
erstes für das Geschlecht als unabhängiges Merkmal.
Um zu überprüfen ob es überhaupt einen Zusammenhang zwischen den beiden Variablen
gibt, was sehr sinnvoll wäre, benutzen wir hier nicht die Korrelation (Die Korrelation
vergleicht strenggenommen nur metrische Werte), sondern die Kreuztabelle!
Nachdem wir die Variablen eingetragen und die
Einstellungen vorgenommen haben,
können wir nun die Ergebnisse, die uns SPSS liefert
interpretieren!
(Rückzahlung * Geschlecht)
|
Wert |
df |
Asymptotische Signifikanz (2-seitig) |
Chi-Quadrat nach Pearson |
|
|
|
|
,250 |
1 |
,617 |
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5.
Die minimale erwartete Häufigkeit ist 14,85.
ACHTUNG:
Der CHI- Quadrat- Test
ist nur sinnvoll, wenn mehr als 5 Werte in einer Spalte vorkommen!
Thesen: H0: Merkmale unabhängig (Rückzahlung hat nichts
mit dem Alter zutun)
H1: Merkmale abhängig (Rückzahlung hat was mit dem Alter zutun)
Errechnen wir uns die Wahrscheinlichkeit, das das Geschlecht „männlich“ ist und der Kredit zurückgezahlt wird!
Das ein Kunde männlich ist und einen Kredit zurückzahlt kommt
also mit 35,1 % Wahrscheinlichkeit vor!
Was wird hier getestet?
1. Wir errechnen einen Chi- Quadrat-Wert für unsere Stichprobe von 0,250. Um nun eine
Entscheidung treffen zu können, müssen wir uns für ein Signifikanzniveau entscheiden.
2. Legen wir dieses mal auf 0,05 fest. D.H. durch ablesen des Chi- Quadrat- Wertes, bei einem
Freiheitsgrad von 1und 1-0,05 Signifikanzniveau bekommen wir den Wert = 3,841.
3. Dieser Wert besagt, das sich der Test im Intervall von 0 bis 3,841 für H0 entscheidet und ab
3,8412 für H1 entscheidet. Wie in der folgenden Formel zu sehen.
Wir
haben hier zwei Werte, die wir uns näher anschauen sollten.
1. Den Wert 0,250 der auch als T-Wert bezeichnet wird
2. Den Wert 0,617 der die Signifikanz darstellt
Schauen wir uns nun den Test selbst an:
r = Zeilenanzahl
s = Spaltenanzahl
Auf unser Beispiel bezogen:
r = wir haben in obiger Tabelle 2 Zeilen
s = wir haben in obiger Tabelle 2 Spalten
T
= der T-Wert = 0,250 (Der
errechnete Test-Wert,wo die Entscheidung zwischen H0
und H1 kippt)
a =
0,05 (Dies ist nicht von SPSS vorgegeben, sondern
so festgelegt)
Nun einsetzen:
Diesen Wert müssen wir jetzt aus der Tabelle
auslesen
- Wir haben (2-1)*(2-1) = 1
Freiheitsgerade
- 1-0,05 = 0,95 = a
Das
ergibt ein c2
von 3,841
0,250 < 3,841 ® H0
Das ist nicht nach
der Methode der Vorlesung berechnet, da hier ein a von 0,05
angenommen wurde!
Möchte man die Signifikanz zu dem T-Wert
per Hand errechnen, so geht man
folgendermaßen vor:
Wie schon oben
angegeben, haben wir den T-Wert von 0,250 und
dazu errechnet SPSS die Signifikanz von
0,617
Wie
errechnet man nun diesen Signifikanzwert?
Im vorangegangenen Beispiel hatten wir die Freiheitsgrade mit 1
bestimmt, was sich nicht verändert hat.
Nun haben wir den Wert von 0,250 als Chi-Quadrat
Wert und suchen dazu die Signifikanz!
Schauen wir uns dazu die Tabelle der Chi-
Quadrat- Verteilung an:
Nun
sieht man in der obigen Tabelle, in der Reihe der Freiheitsgrade = 1, das der Chi- Quadrat- Wert, den SPSS
errechnet
hat, zwischen zwei Werten liegt.
0,00158 und 2,706
und diese Werte zu den g (1- a) von
0,9 = 2,706
0,1 = 0,00158
gehören.
Man sucht den Wert von g, wo man ein Chi- Quadrat von 0,25 hat.
Der Wert ist hier 0,383 und rechnet man nun 1- 0,383, so erhält man 0,617!
NICHT KLAUSUR RELEVANT!!!
Auf das Beispiel bezogen kommen wir nun zum Ergebnis:
Der Signifikanzwert von 0,617 sagt aus, das die
Irrtumswahrscheinlichkeit 61,7% groß ist, das man sich für eine
stochastische Abhängigkeit entscheidet. Diese Irrtumswahrscheinlichkeit
ist viel zu hoch und aus diesem Grund
kann H0 nicht verworfen werden, das aussagt, das dieses Merkmal
stochastisch unabhängig ist!
Das Geschlecht hat keinen Einfluss auf die
Rückzahlung der Kredite!
Nächster Versuch: Das Alter
Beim Alter taucht das Problem auf, das es sich hier um prinzipiell metrische skalierte Werte handelt und bei
einer großen Datenmenge völlig unübersichtliche Bäume ergeben werden.
Man
muss also die Werte klassieren: Hier
etwa ca Klassen = 10 Klassen
[18;22], [22;27], [27;31], [31;33], [33;38], [38;43], 43;50], [50;59], [59;68]
mit
in etwa gleich vielen Stichproben Elementen!
Aber
selbst hier werden die Bäume noch zu unübersichtlich dargestellt!
Wichtig: Man versucht nun mehrere Klassen zu einer Kategorie
zusammen zufassen, bei denen keine signifikanten Unterschiede bezogen auf
das abhängige Merkmal (Rückzahlung) bestehen. Man sucht hier Klassen,
die sich gut Unterscheiden, damit man auch eine Entscheidung treffen kann.
Teilt sich die abhängige Variable in „gut und Schlecht“ so sollen auch die
Klassen der unabhängigen Variablen dies gut unterscheiden! -
Auch hier wird ein Signifikanzniveau von
0,05 selbst vorgegeben! -
Natürlich fasst man hier nur solche
Klassen zusammen, die auch nebeneinander liegen.
Nimmt man hier die ersten beiden Intervalle und untersucht, ob sie sich signifikant bzgl. Der Rückzahlung
unterscheiden, so erhält man folgende Tabelle:
Um auf die erwartete Anzahl zu kommen errechnet man:
|
Wert |
df |
Asymptotische Signifikanz (2-seitig) |
Chi-Quadrat nach Pearson |
|
|
|
|
,023 |
1 |
,879 |
d.h. es macht keinen Sinn, diese beiden Klassen beizubehalten, da sie sich bzgl. Des Merkmals Rückzahlung nicht signifikant
unterscheiden. Bei CHAID werden aber im ersten Schritt alle Klassen betrachtet, die in Frage kommen könnten und die
beiden zusammengefasst, die den höchsten Signifikanzwert haben.
Kategorie 1 |
Kategorie 2 |
Chi- Quadrat- Wert |
Signifikanz |
|
|
|
|
|
|
18;22 |
22;27 |
0,023 |
0,879 |
schlecht |
22;27 |
27;31 |
2,329 |
0,127 |
|
27;31 |
31;33 |
1,698 |
0,193 |
|
31;33 |
33;38 |
1,698 |
0,193 |
|
33;38 |
38;43 |
18,333 |
0,000 |
gut |
38;43 |
43;50 |
6,7669 |
0,009 |
|
43;50 |
50;59 |
7,287 |
0,007 |
|
50;59 |
59;68 |
1,81 |
0,179 |
|
Man sieht also, dass die ersten beiden Intervalle sich am
wenigsten unterscheiden und deshalb
zusammen gefasst werden können!
Kategorie 1 |
Kategorie 2 |
Chi- Quadrat- Wert |
Signifikanz |
|
|
|
|
|
|
18;27 |
27;31 |
2,523 |
0,112 |
|
27;31 |
31;33 |
1,698 |
0,193 |
schlecht |
31;33 |
33;38 |
1,698 |
0,193 |
|
33;38 |
38;43 |
18,333 |
0,000 |
gut |
38;43 |
43;50 |
6,7669 |
0,009 |
|
43;50 |
50;59 |
7,287 |
0,007 |
|
50;59 |
59;68 |
1,81 |
0,179 |
|
Jetzt werden die Intervalle [27;31]
und [31;33] zusammengefasst!!!
Kategorie 1 |
Kategorie 2 |
Chi- Quadrat- Wert |
Signifikanz |
|
|
|
|
|
|
18;27 |
27;33 |
1,142 |
0,285 |
|
27;33 |
33;38 |
0,732 |
0,392 |
schlecht |
33;38 |
38;43 |
18,333 |
0,000 |
gut |
38;43 |
43;50 |
6,7669 |
0,009 |
|
43;50 |
50;59 |
7,287 |
0,007 |
|
50;59 |
59;68 |
1,81 |
0,179 |
|
Jetzt werden die Intervalle [27;33]
und [33;38] zusammengefasst!!!
Kategorie 1 |
Kategorie 2 |
Chi- Quadrat- Wert |
Signifikanz |
|
|
|
|
|
|
18;27 |
27;38 |
2,358 |
0,125 |
|
27;38 |
38;43 |
24,662 |
0,000 |
gut |
38;43 |
43;50 |
6,7669 |
0,009 |
|
43;50 |
50;59 |
7,287 |
0,007 |
|
50;59 |
59;68 |
1,81 |
0,179 |
schlecht |
Jetzt werden die Intervalle [50;59]
und [59;68] zusammengefasst!!!
Bevor dies durchgeführt wird, müssen wir noch etwas beachten!
Die Intervalle [27;31], [31;33] und [33;38] wurden zusammengefasst, es sind aber nur
[27;31] gegen [31;33] und [27;33] gegen [33;38] getestet worden. Es fehlt also noch der Test zwischen
[27;31] und [31;38]!!!
Es sollte sich hier eine hohe Signifikanz herausstellen, damit
man auch diese Intervalle zusammen
führen kann!!!
|
Wert |
df |
Asymptotische Signifikanz (2-seitig) |
Chi-Quadrat nach Pearson |
|
|
|
|
,059 |
1 |
,809 |
Wie erhofft haben wir eine große Signifikanz und können nun auch die Klassen so lassen wie wir es vorher
angenommen haben!
Jetzt werden die Intervalle [50;59]
und [59;68] zusammengefasst!!!
Kategorie 1 |
Kategorie 2 |
Chi- Quadrat- Wert |
Signifikanz |
|
|
|
|
|
|
18;27 |
27;38 |
2,358 |
0,125 |
schlecht |
27;38 |
38;43 |
24,662 |
0,000 |
gut |
38;43 |
43;50 |
6,7669 |
0,009 |
gut |
43;50 |
59;68 |
7,552 |
0,006 |
gut |
Jetzt müssen wir noch die ersten beiden Intervalle zusammenführen, allerdings auch wieder aufpassen, da hier wieder
mehrere Intervalle zusammengeführt werden!
Die Intervalle [18;22] bis [33;38] wurden zusammengefasst, es sind aber nur
[18;22] gegen [22;27] und [27;31] alle bis gegen [33;38] getestet worden. Es fehlt also noch der Test zwischen
[18;27] und [27;31]!!!
Es sollte sich hier eine hohe Signifikanz herausstellen,
damit man auch diese Intervalle zusammen führen kann!!!
|
Wert |
df |
Asymptotische Signifikanz (2-seitig) |
Chi-Quadrat nach Pearson |
|
|
|
|
1,329 |
1 |
,249 |
Dieser Wert ist auch ein
Hinweis dafür, das wir die Intervalle zusammenlassen
können!
Jetzt werden die Intervalle [18;27]
und [27;38] zusammengefasst!!!
Kategorie 1 |
Kategorie 2 |
Chi- Quadrat- Wert |
Signifikanz |
|
|
|
|
|
|
18;38 |
38;43 |
22,032 |
0,000 |
gut |
38;43 |
43;50 |
6,7669 |
0,009 |
gut |
43;50 |
59;68 |
7,552 |
0,006 |
gut |
Übrig bleiben nun die Unterteilungen, wie im Baum zu sehen sind!
Das Projekt kann hier noch umbenannt werden und dann auf das Symbol des Baumes klicken
Die abhängige Variable in das Feld Ziel eintragen und das Feld Prediktoren frei lassen, damit er alle Variablen
übernimmt (es sind nach der Auswahl der abhängigen Variablen alle Anderen unabhängig)
Auf erweiterte Optionen klicken
Mit rechtem Mausklick kann man nun „Prediktor auswählen“. D.h. das man die abhängige Variable durch eine
unabhängige Variable erklären lassen kann.
Nachdem man das Alter ausgewählt hat, kann man sich noch anschauen, wie das Programm die Intervalle in
Kategorien
zusammenfasst! „Trennung
definieren“
Hier sieht man nun, das die Werte
hier automatisch berechnet werden. Mit Weiter bestätigen und auf Aufbau
und man erhält den dazugehörigen Baum!
Um nun auf das Anfangsbeispiel einzugehen, wollen wir wissen,
was die „Arbeitsdauer in Jahren“ uns zum Knoten
[38;43] zu sagen hat! Hier gehen wir
wie in den letzten beiden Schritten vor und wählen den Knoten und dann
Prediktoren auswählen usw.
Bildet
man eine Kreuztabelle mit den zuvor errechneten Werten erhält man folgendes:
Bildet
man nun eine Kreuztabelle mit den ursprünglichen Klassen erhält man folgendes:
Man sieht bei beiden Kreuztabellen, das eine sehr kleine Signifikanz heraus kommt. Aber,
0,00000001580 ist um
ein vielfaches kleiner
als 0,0000003030 und deshalb ist die erste Kreuztabelle die richtig Lösung für
die Variable Alter!
Gewinnübersicht
Zielvariable: Rückzahlung Zielkategorie: einwandfrei zurückgezahlte Kredite
Statistiken
Knoten Knoten: Anzahl % Knoten: Fälle: Anzahl% Gewinn (%) Index (%)
2 11 10,89 11 22,00 100,00000 202,00000
6 6 5,94 6 12,00 100,00000 202,00000
4 19 18,81 18 36,00 94,73684 191,36842
1 58 57,43 14 28,00 24,13793 48,75862
5 7 6,93 1 2,00 14,28571 28,85714
1.Spalte Baumübersicht der Knoten
2. Spalte Anzahl in diesem Knoten bezogen auf die gesamte Stichprobe (die 3. Spalte die %)
4.
Spalte Anzahl der Fälle in diesem Knoten,
die den Kredit zurückgezahlt haben
5. Spalte Anzahl an
zurückgezahlten Krediten an der Gesamtstichprobe
6. Spalte Man sieht
hier, das es sich lohnt neue Kunden aus den Knoten 2,6 und 4 zu werben!
7. Spalte Der Index
misst die durchschnittliche Trefferquote für einen Knoten bezogen auf die
durchschnittliche
Trefferquote aller Fälle!
Beispiel: Knoten
6: Insgesamt sind unter den ganzen
Fällen ein Anteil von 50/101
das ist
0,4950495 mit einwandfrei zurückgezahlten Krediten; in dieser Klasse hat
man einen Antel
von 0,9473684; das Verhältnis von 0,9473684 zu 0,4950495 ist
gerade 1,9136842....
Würde man wissen, das durch einen gekündigten Kredit 2000DM
Verlust und durch einen zurückbezahlten
Kredit 5000DM Gewinn gemacht werden können, kann man sich dies
über zwei Einstellungen anschauen!
Man befindet sich unter „Gewinne“ und unter Menüpunkt „Format
– Gewinne“ stellt man „Durchschnittlicher
Nutzen ein“, danach unter „Analyse – Nutzen“ gibt man für
gekündigte Kredite 2000 und bei zurückgezahlten
Krediten 5000 ein!
Gewinnübersicht
Zielvariable:
Rückzahlung
Statistiken
Knoten Knoten:
Anzahl Knoten: %
Gewinn Index (%)
2 11 10,89 5000,00 341,22
6 6 5,94 5000,00 341,22
4 19 18,81 4631,58 316,07
1 58 57,43 -310,34 -21,18
5 7 6,93 -1000,00 -68,24
Hier sieht man, das die Kategorien 1
und 5 nicht lohnenswert sind!
Unter Risiko
Fehlklassifizierungsmatrix
Tatsächliche Kategorie
gekündigte
Kredite einwandfrei zurückgezahlte
Kredite Gesamt
Vorhergesagte
Kategorie
gekündigte
Kredite 50 15 65
einwandfrei
zurückgezahlte
Kredite 1 35 36
Gesamt 51 50 101
Resubstitution
Risikoschätzung 0,158416
Std.f. der
Risikoschätzung 0,0363318