CART

 

Die Beispieldaten  liefert die Datei Kochbuch_Klausur:

 


Ziel der Cart - Methode ist es, Endknoten zu erhalten, die möglichst einer Kategorie der Zielvariablen  entsprechen.

In unserem Beispiel müßten sich im Idealfall Endknoten bilden, in denen entweder das Buch gekauft oder nicht gekauft wird.

Die CART Methode ist unter Answer Tree zu finden. Im zweiten Schritt muß ein neuer Baum erstellt werden

unter à Datei/neuer Baum... . Hier wird nun die CART Methode ausgewählt.

 

Im zweiten Schritt des Baum Assistenten müssen nun die Variablen ausgewählt werden, denen wir eine Bedeutung zuordnen.

Das ist natürlich zu aller erst die Zielvariable, für die man Segmente finden möchte, in denen die Kaufwahrscheinlichkeit relativ

hoch ist und zum Zweiten die Variablen mit denen segmentiert werden soll.

 


 

Zielvariable:        Kauf

Prediktoren:       Familienstand, Geschlecht, Altersklasse, Haushaltseinkommen, Berufsgruppe, Aufmachung

 

 

Begründung warum wir diese Prediktoren gewählt haben:

 

Familienstand:              Der Familienstand läßt vermuten, das allein lebende nicht dazu neigen Kochbücher zu kaufen, im Gegensatz zu Familien.

Geschlecht:                  Läßt vermuten das Frauen mehr Kochbücher kaufen als Männer, da der Anteil der Hausfrauen größer ist, als der Hausmänner.

Altersklassen:               Man wird wohl vermuten, das die ältere Generationen keine Kochbücher mehr kauft, da diese nach ihrem eigenen Stil kochen.

 

Haushaltseinkommen:     Wer nichts hat kann auch keine Kochbücher kaufen.

 

erufsgruppe:                 Man erwartet das die Kaufentscheidung bei Hausfrauen/-männern höher ausfällt als bei den anderen Berufsgruppen.

Aufmachung:                Als Blickfang, Werbemaßnahme.

Den Variablen Wohnort und Social Class würde ich keine Bedeutung zuordnen.

 

 

Im ValidierungsMenü wählen wir Baum nicht validieren.

Hätten wir zum Beispiel „Daten in Unterstichproben aufteilen“ gewählt, dann würde die erste Stichprobe meinen Baum entwickeln

(Trainingsdaten), und die zweite Stichprobe(Testdaten) den Baum testen. So könnten wir herausbekommen, ob die Stichprobe

unbrauchbar ist, in Bezug auf die Grundgesamtheit.

 

 

Erweiterte Optionen:

 

Hier sind die Abbruchregeln von Bedeutung.

 

Bei den Abbruchregeln ist beschrieben, wann der Baum seinen Endzustand erreicht hat.

Wenn zum Beispiel die Maximale Baumtiefe auf 5 gesetzt wurden ist, dann gibt es im Baum maximal 5 Hierarchiestufen.

Mindestanzahl an Fällen beschreibt die Fälle, die mindestens in dem Knotentyp vorhanden sein müssen. Mindeständerung in

der Inhomogenität gibt an, wie die Verbesserung der Impurity mindestens sein soll damit die Variable zur Segmentierung

verwendet werden kann.

 

Unter C&RT wählen wir Gini aus.

 

Unter Kosten wählen wir „für alle Kategorien gleich aus“.

à Hier könnten Kosten für die Fehlklassifizierung hinterlegt werden(es gibt 2 Möglichkeiten der Fehlklassifizierung). In der

Fehlklassifizierung Matrix steht dann unter Risikoschätzung nicht mehr die Wahrscheinlichkeit der Fehlklassifizierung, sondern

die durchschnittlichen Kosten. à Summe der Kosten durch Summe der Fälle.

 

Aufbau des Baumes

 

Wenn wir im Baum Menü sind, sehen wir nur den Root - Knoten, den wir segmentieren wollen. Um dies zu erreichen, klicken

wir den Root – Knoten mit der rechten Maustaste an und wählen à Prediktor auswählen. Nun öffnet sich uns dieses Fenster.

 


 

Wie zu sehen, ist für jeden Prediktor ein Trennungstyp festgelegt worden, für uns ist hier nur der Typ Standard von Bedeutung.

Willkürlich bedeutet, dass diese Variable nicht zur Segmentierung verwendet werden soll. Der Typ Standard ändert sich in

Benutzerdefiniert, wenn ich für eine Variable die Trennung selber definiere, das bedeutet in welchen Knoten der Datensatz

eingeordnet wird (Knoten links o. Knoten rechts). Diese Option ist mit Vorsicht zu genießen, da ich eventuell zwei Ausprägungen

zusammensetze, die sich hochgradig in der Zielvariablen unterscheiden(kauf nicht kauf).

à es werden, zum Beispiel bei der Berufsgruppe, nur die Berufsgruppen zusammengefaßt, die sich auf die Zielvariable Kauf,  am

wenigsten unterscheiden(die Berufsgruppen die eine Tendenz zum kaufen haben, werden zusammengefaßt und umgekehrt).

 

Vom Grundprinzip sollte man nun den Prediktor auswählen, der die beste Verbesserung (größte Wert) hat. In Anbetracht der

Interpretation sollte man sich aber nicht steif danach richten.

 

Einschub:

 

Dabei ist der maximal Wert der Impurity = 0,5.  à 1 – (0,5^2 + 0,5^2) = 0,5

Der minimale Wert der Impurity = 0,0                à 1-(0^2 + 1^2) = 0

 

Verbal ausgedrückt, ist die Verbesserung der Impurity, der Wert der sich ergibt, wenn ich die Impurity des Knoten Null um die

gewichtete Impurity des linken und rechten Knotens verringere. Die Gewichte kommen durch die Stärke des Knoten im Verhältnis

zum Ausgangsknoten zustande(K Null).

 

 

Eine mögliche Lösung könnte dann wie folgt aussehen:

 


 

Interpretation

 

Hier sieht man eindeutig, dass es einen Knoten gibt, bei dem man schon eine recht hohe Kauf- wahrscheinlichkeit im unteren

linken Knoten ermitteln konnte, mit 35,65 %.

à Das bedeutet, dass die Zielgruppe, um die ich mich bemühen sollte, der Berufsgruppe Hausfrau/-mann angehören muß, und

jünger als 55 Jahre ist und das Design des ersten Umschlages bevorzugt.

 

Aus betriebswirtschaftlicher Sicht bedeutet das nun aber nicht, dass ich mich nur auf diesen einen Knoten versteifen muß und

die anderen Knoten ganz außer Acht lasse.

Wenn ich nun zum Beispiel wüßte, dass eine Kaufentscheidung einen Gewinn von 30 DM mit sich bringt und ein nicht Kauf

Kosten von 2 DM verursacht, dann sollte ich mir für jeden Knoten anschauen, ob es sich lohnt hier tätig zu werden oder nicht

(z.B. Werbung).

Um sich die Gewinne/Verluste der einzelnen Knoten anschauen zu können, muß als erstes unter à Analyse/Nutzen...

Der Nutzen der einzelnen Kategorien angegeben werden.

 


 

Unter à Format/Gewinne sollte man „kumulative Statistiken anzeigen“ ausschalten und den Radio Button auf „Durchschnittlichen Nutzen setzen“.

 

Als Ergebnis unter Gewinne(unterer Fensterrand) ist dann folgende Übersicht zu sehen.

 


 

 

Interpretation:

 

Wie zu sehen, wird nur in Knoten 1 ein Verlust erwirtschaftet.

Der Gewinn in Knoten 5 kommt folgendermaßen zustande:

((41*30)+(74*(-2))) / 115

 

Die Index Spalte gibt den

(durchschnittlichen Gewinn des Knoten x an,

im Verhältnis zum durchschnittlichen Gewinn aller Fälle) * 100

 

für Knoten 5 ergibt sich:

durch. Gewinn des Knoten5 = 9,41

durch. Gewinn aller Fälle =  ((79*30)+(602*(-2))) / 681 = 1,7121879

 

(9,41 / 1,71) * 100 = 549,51

 

 

Unter Risiko à Wert Risikoschätzung ist die Wahrscheinlichkeit zu sehen, dass der Baum eine Fehlklassifizierung macht,

allerdings nur auf die Stichprobe bezogen.

 


à Mit einer W. von 11.60% wird falsch klassifiziert.

 

Unter Regeln kann ich mir einen Knoten selektieren und mir die DB-Abfrage ausgeben lassen, um die Elemente(Personen)

dieses Knotens zu erlangen.

 

Dies würde dann für Knoten 5 so aussehen:


            Der Autor dieser Zusammenfassung ist Frank Tisserand!