In diesem Artikel soll auf die wichtigsten Entscheidungsfaktoren von unseren Schätzern eingegangen werden. Ein nahelegende Interpretation der Ergebnisse wird bereitgestellt.
Bei der Vielzahl von potentiellen Determinanten, die wir in unser Modell einfließen lassen, möchten wir hier einen kleinen Überblick über die wichtigsten Faktoren geben. Wie in unserer gesamten Arbeit hier, ist uns Transparenz und Verständlichkeit wichtig. Wir zeigen daher im Ansatz, wie jeder einzelne Schätzer zu seinen Vorhersagen kommt.
Wir möchten jedoch nicht nur das tun, sondern euch auch eine Hilfestellung zur Interpretation leisten. Vorne weg, kein einziger Faktor kann kausal interpretiert werden. Das bedeutet eine Aussage wie, „Eine höhere Anzahl von Arbeitslosen verringern die Stimmen aller Kandidierenden, vermutlich weil sie nicht so oft zur Wahl gehen“, ist grob fahrlässig. Der einzige Schätzer potentiell zu kausalen Aussagen fähig wäre, ist der LASSO. Die drei anderen können, bei Definition, keine kausalen Zusammenhänge feststellen.
Der LASSO, wie alle linearen Modelle, kann der Theorie nach zwar kausale Zusammenhänge zeigen, jedoch nur unter sehr strengen Annahmen. Diese Annahmen sind:
1. Es gibt keinen anderen Faktor, der die Anzahl der Stimmen für einen Kandidaten beeinflusst und gleichzeitig mit relevanten Faktoren korreliert ist. Einzige Ausnahme, wir haben den Faktor in unserem Modell explizit erwähnt. Auf das frühere „Anzahl der Arbeitslosen“-Beispiel bezogen, könnten wir z.B. das durchschnittliche Bildungsniveau anführen, das wir schwer akkurat messen können.
2. Es gibt keinen Einfluss von Wählerstimmen eines Kandidaten auf die „Anzahl der Arbeitslosen“. Die implizite Annahme hierbei ist, dass es völlig egal ist, wer im Stadtrat sitzt. Sprich, jeder Delegierte im Stadtrat denselben (oder keinen) Einfluss auf die Arbeitslosigkeit hat.
3. Keine Messfehler. Darüber hat Chris bereits ausführlich geschrieben.
4. Kein Arbitrage von Faktoren bei Lasso. Diese Besonderheit teilen alle Schätzer, die nach und nach Variablen aus der Regression ausschließen, um die Präzision zu steigern. Wenn zwei Faktoren sich stark ähneln, entscheidet der LASSO sich für eine der beiden Variablen auf eine für uns unbekannten Art und Weise. Wir müssten sicher gehen können, dass das nicht der Fall ist, um kausale Interpretationen zuzulassen.
Während man bei den Punkten 1-3 theoretisch diskutieren kann (wir hier beim Wahlorakel sind aber alle einer Meinung, was selten genug vorkommt), müssen spätestens bei Punkt 4 jeglich Hoffnung unter den Granitvorkommen des Harz begraben werden. Stand meines Wissens, gibt es da keine Möglichkeit.
„Aber… was wird man dann noch sagen dürfen ?!“ Nun, wir können die relative Wichtigkeit von Einflussfaktoren beurteilen. In Zeile 1 steht der wichtigste Faktor des jeweiligen Schätzers, unten der 10. wichtigste.
Bei Gradient Boosting und Random Forest darf man da an einen Entscheidungsbaum denken. Wie wir hier sehen können ist die erste und damit die wichtigste Frage, ob wir einen Donut möchten oder nicht (Ja!). In unserem Fall, wäre das die Anzahl der Sitze, die eine Partei davor im Rat hatte. Allerdings müssen Entscheidungsbäume immer mit ja oder nein beantwortet werden können. Wie soll das bei „Sitze letzte Wahl“ gehen? Ganz einfach, wir nehmen einen konkreten Wert als Trennlinie, also zum Beispiel 10. Woher wissen wir, ob 10 eine gute Trennung ist. Geraten – aber der Computer kann es durch ständiges Probieren und Rechnen herausfinden. Doch aufgemerkt, da wir den Durchschnitt von bis 170 Entscheidungsbäumen haben, gibt es diese konkreten „Cut-offs“ nicht, es gibt den Durchschnitt.
# | Grad. Boosting | Random Forest | SVM | LASSO |
1 | Sitze letzte Wahl | Sitze letzte Wahl | CSU | FDP Stimmen letzte Wahl |
2 | SPD | Grüne | Linke Stimmen letzte Wahl | Grüne |
3 | Anzahl Asyl-hilfeempf. | Anzahl Arbeitslose | Anzahl Langzeit- arbeitslose | Anzahl Arbeitslose |
4 | FDP Stimmen letzte Wahl | Preis Bau-land (qm) | Anzahl Ausländer | Sitze letzte Wahl |
5 | Anzahl Frauen | Linke Stimmen letzte Wahl | Amtsinhaber | Anzahl Studierender |
6 | Anzahl Studierender | Listenplatz | BP | Anzahl Asyl-hilfeempf. |
7 | Anzahl 65+ | Grüne Stimmen letzte Wahl | Anzahl Arbeitslose | SPD Stimmen letzte Wahl |
8 | CSU | CSU Stimmen letzte Wahl | FDP Stimmen letzte Wahl | ödp |
9 | Steuer- aufkommen | Anzahl Ausländer | BP Stimmen letzte Wahl | Anzahl Kapital-verbrechen |
10 | Listenplatz | BP Stimmen letzte Wahl | Anzahl Studierender | FDP |
Bei Support Vector Maschinen darf man, sofern linear, auch eine Rangfolge erstellen, jedoch gibt es keine elegante Interpretation. Man kann hier mit den eigentlichen Koeffizienten wenig anfangen, da sich, weiter als die Summe aller Abweichungen von einem fiktiven Vektorraum im Koordinatensystem, keine schlüssige Interpretation finden lässt. Was wir allerdings sagen könnten, ist ob die Faktoren prinzipiell positiv oder negativ auf die Stimmanzahl wirken. Wen das Interessiert, der sei hier auf GitHub verwiesen. Die relative Wichtigkeit gilt auch hier.
Aber was wir wirklich daraus mitnehmen sollten ist: falls Faktoren bei mehreren Schätzern (und damit voneinander unabhängig) auftreten, sollten wir davon ausgehen, dass eine interessante Geschichte dahinter steckt. Falls, wie im Fall „Sitze-im-Rat“-Variablen, das intuitiv offensichtlich erscheint – um so besser! Denn wenn Computer und Mensch unabhängig zum selben Eindruck gelangen liegt meistens ein Funken Wahrheit drin.
Doch bei allem, sollten wir uns über die Grenzen unserer Vorhersage und Interpretation bewusst sein, denn frei nach unserem (Namens-)Herrn und Meister: „Nichts im Übermaß“
