CART
Die Beispieldaten
liefert die Datei Kochbuch_Klausur:
Ziel der Cart
- Methode ist
es, Endknoten zu erhalten, die möglichst einer Kategorie der Zielvariablen entsprechen.
In unserem Beispiel müßten sich im Idealfall
Endknoten bilden, in denen entweder das Buch gekauft oder nicht gekauft wird.
Die CART Methode ist unter Answer Tree zu finden. Im zweiten Schritt muß ein neuer Baum
erstellt werden
unter à Datei/neuer Baum... . Hier
wird nun die CART Methode ausgewählt.
Im zweiten
Schritt des Baum Assistenten müssen nun die Variablen ausgewählt werden,
denen wir eine Bedeutung zuordnen.
Das ist natürlich zu aller erst die Zielvariable,
für die man Segmente finden möchte, in denen die Kaufwahrscheinlichkeit relativ
hoch ist und zum Zweiten die Variablen mit denen
segmentiert werden soll.
Zielvariable: Kauf
Prediktoren: Familienstand,
Geschlecht, Altersklasse, Haushaltseinkommen, Berufsgruppe, Aufmachung
Begründung
warum wir diese Prediktoren gewählt haben:
Familienstand: Der Familienstand läßt vermuten,
das allein lebende nicht dazu neigen Kochbücher zu kaufen, im Gegensatz zu
Familien.
Geschlecht: Läßt vermuten das Frauen mehr
Kochbücher kaufen als Männer, da der Anteil der Hausfrauen größer ist, als der
Hausmänner.
Altersklassen: Man wird wohl vermuten, das die
ältere Generationen keine Kochbücher mehr kauft, da diese nach ihrem eigenen
Stil kochen.
Haushaltseinkommen: Wer
nichts hat kann auch keine Kochbücher kaufen.
erufsgruppe: Man erwartet das die
Kaufentscheidung bei Hausfrauen/-männern höher ausfällt als bei den anderen
Berufsgruppen.
Aufmachung: Als Blickfang, Werbemaßnahme.
Den Variablen Wohnort und Social Class würde ich
keine Bedeutung zuordnen.
Im
Validierungs
– Menü wählen wir Baum nicht validieren.
Hätten wir zum Beispiel „Daten in Unterstichproben
aufteilen“ gewählt, dann würde die erste Stichprobe meinen Baum entwickeln
(Trainingsdaten), und die zweite
Stichprobe(Testdaten) den Baum testen. So könnten wir herausbekommen, ob die
Stichprobe
unbrauchbar ist, in Bezug auf die Grundgesamtheit.
Erweiterte
Optionen:
Hier sind die Abbruchregeln von Bedeutung.
Bei den Abbruchregeln
ist beschrieben, wann der Baum seinen Endzustand erreicht hat.
Wenn zum Beispiel die Maximale Baumtiefe auf 5 gesetzt wurden ist, dann gibt es im Baum
maximal 5 Hierarchiestufen.
Mindestanzahl
an Fällen
beschreibt die Fälle, die mindestens in dem Knotentyp vorhanden sein müssen. Mindeständerung in
der
Inhomogenität gibt
an, wie die Verbesserung der Impurity mindestens
sein soll damit die Variable zur Segmentierung
verwendet werden kann.
Unter C&RT
wählen wir Gini aus.
Unter Kosten
wählen wir „für alle Kategorien gleich aus“.
à Hier könnten Kosten für die Fehlklassifizierung hinterlegt werden(es
gibt 2 Möglichkeiten der Fehlklassifizierung). In der
Fehlklassifizierung Matrix steht dann unter
Risikoschätzung nicht mehr die Wahrscheinlichkeit der Fehlklassifizierung,
sondern
die durchschnittlichen Kosten. à Summe der Kosten durch
Summe der Fälle.
Wenn wir im Baum Menü sind, sehen wir nur den Root -
Knoten, den wir segmentieren wollen. Um dies zu erreichen, klicken
wir den Root – Knoten mit der rechten Maustaste an
und wählen à Prediktor auswählen. Nun öffnet sich uns dieses Fenster.
Wie zu sehen, ist für jeden Prediktor ein Trennungstyp festgelegt worden, für uns ist hier nur der Typ Standard von Bedeutung.
Willkürlich bedeutet, dass diese Variable nicht zur Segmentierung verwendet werden soll. Der Typ Standard ändert sich in
Benutzerdefiniert, wenn ich für eine Variable die Trennung selber definiere, das bedeutet in welchen Knoten der Datensatz
eingeordnet wird (Knoten links o. Knoten rechts). Diese Option ist mit Vorsicht zu genießen, da ich eventuell zwei Ausprägungen
zusammensetze, die sich hochgradig in der Zielvariablen unterscheiden(kauf nicht kauf).
à es werden, zum Beispiel bei der Berufsgruppe, nur die Berufsgruppen
zusammengefaßt, die sich auf die Zielvariable Kauf, am
wenigsten unterscheiden(die Berufsgruppen die eine
Tendenz zum kaufen haben, werden zusammengefaßt und umgekehrt).
Vom Grundprinzip sollte man nun den Prediktor
auswählen, der die beste Verbesserung (größte Wert) hat. In Anbetracht der
Interpretation sollte man sich aber nicht steif
danach richten.
Einschub:
Dabei ist der maximal Wert der Impurity = 0,5. à 1 – (0,5^2 + 0,5^2) = 0,5
Der minimale Wert der Impurity = 0,0 à 1-(0^2 + 1^2) = 0
Verbal ausgedrückt, ist die Verbesserung der
Impurity, der Wert der sich ergibt, wenn ich die Impurity des Knoten Null um
die
gewichtete Impurity des linken und rechten Knotens
verringere. Die Gewichte kommen durch die Stärke des Knoten im Verhältnis
zum Ausgangsknoten zustande(K Null).
Eine mögliche Lösung könnte dann wie folgt aussehen:
Interpretation
Hier sieht man eindeutig, dass es einen Knoten gibt, bei dem man schon eine recht hohe Kauf- wahrscheinlichkeit im unteren
linken Knoten ermitteln konnte, mit 35,65 %.
à Das bedeutet, dass die Zielgruppe, um die ich mich bemühen sollte, der
Berufsgruppe Hausfrau/-mann angehören muß, und
jünger als 55 Jahre ist und das Design des ersten
Umschlages bevorzugt.
Aus betriebswirtschaftlicher Sicht
bedeutet das nun aber nicht, dass ich mich nur auf diesen einen Knoten
versteifen muß und
die anderen Knoten ganz außer Acht
lasse.
Wenn ich nun zum Beispiel wüßte,
dass eine Kaufentscheidung einen Gewinn von 30 DM mit sich bringt und ein nicht
Kauf
Kosten von 2 DM verursacht, dann
sollte ich mir für jeden Knoten anschauen, ob es sich lohnt hier tätig zu
werden oder nicht
(z.B. Werbung).
Um sich die Gewinne/Verluste der
einzelnen Knoten anschauen zu können, muß als erstes unter à
Analyse/Nutzen...
Der Nutzen der einzelnen Kategorien
angegeben werden.
Unter à Format/Gewinne sollte man
„kumulative Statistiken anzeigen“ ausschalten und den Radio Button auf
„Durchschnittlichen Nutzen setzen“.
Als Ergebnis unter Gewinne(unterer Fensterrand) ist
dann folgende Übersicht zu sehen.
Interpretation:
(durchschnittlichen Gewinn des Knoten x an,
im Verhältnis zum durchschnittlichen Gewinn aller
Fälle) * 100
für Knoten 5 ergibt sich:
durch. Gewinn des Knoten5 = 9,41
durch. Gewinn aller Fälle = ((79*30)+(602*(-2))) / 681 = 1,7121879
(9,41 / 1,71) * 100 = 549,51
Unter Risiko à Wert Risikoschätzung ist die Wahrscheinlichkeit zu sehen, dass der
Baum eine Fehlklassifizierung macht,
allerdings nur auf die Stichprobe bezogen.
à Mit einer W. von 11.60%
wird falsch klassifiziert.
Unter Regeln kann ich mir einen Knoten selektieren und
mir die DB-Abfrage ausgeben lassen, um die Elemente(Personen)
dieses Knotens zu erlangen.
Dies würde dann für Knoten 5 so aussehen:
Der Autor dieser
Zusammenfassung ist Frank Tisserand!