Einführung in die genaue Vorgehensweise zu Berechnung unserer Vorhersagen. Welche Machine Learning Algorithmen verwenden wir? Was machen wir mit den Daten?
Der ein oder andere mag sich noch dunkel an eine Vorlesung unter dem Titel „Einführung in die quantitativen Methoden“ oder ähnlich erinnern und haben daher noch eine grundlegend Vorstellung von Regression. Vielleicht haben sich ganz Verwegene sogar unseren Artikel zur Frage „Regression oder Klassifizierung“ durchgelesen. Uns alle eint, dass wir jetzt wissen, wann man Regression und wann Klassifizierung benutzen sollte. Das ist die vielleicht wichtigste Entscheidung, die wir als Menschen machen müssen und die uns kein Computer abnehmen kann.
Doch Regression allein ist eine unvollständige Entscheidung, sozusagen der erste Schritt. Vielleicht denken sich einige von euch, dass wir mit Regression schon unseren Schätzer ausgewählt haben, nämlich eine lineare Regression, so wie sie in der ersten oder zweiten Statistikvorlesung examiniert wird. Doch tatsächlich haben wir immer mehr als 50 verschiedenen Möglichkeiten, eines davon die lineare Regression.1 Die Zahl 50 ist da eher eine untere Schätzung von mir, denn so viele Modelle werden ungefähr in dem Buch „Elements of Statistical Learning“ erwähnt.
Wer die Wahl hat, hat die Qual
Nun ist die Auswahl aus dieser Fülle an möglichen Algorithmen kaum zu bewältigen, denn das kostet viel Zeit und Arbeitseinsatz. Von einem pur wissenschaftlichen Standpunkt müssten wir alle möglichen Algorithmen testen, um dann den besten zu nehmen. Was wir machen, ist einen Repräsentanten für eine Gruppierung von Algorithmen zu nehmen. Dabei achten wir auf Effizienz, Genauigkeit und Fähigkeit mit Datensätzen unter 100.000 Observationen auszukommen. Konkret haben wir einen linearen Schätzer (LASSO2 https://en.wikipedia.org/wiki/Lasso_(statistics) ), einen Entscheidungsbaum basierenden (Random Forest3 https://de.wikipedia.org/wiki/Random_Forest )4 Tatsächlich ist ein Random Forest eher ein Mix-Modell als ein Entschiedungsbaum, aber es gibt meines Wissens nach keine strikten Gruppen. , einen nicht-linearen Schätzer (Support Vector Machine5 https://de.wikipedia.org/wiki/Support_Vector_Machine ) und ein Ensemble Modell (Gradient Boosting6 https://machinelearningmastery.com/gentle-introduction-gradient-boosting-algorithm-machine-learning/ ).
Aber selbst nach dieser Vorauswahl, wissen wir noch nicht, welches jetzt das richtige Modell ist. Glücklicherweise kann das in diesem Rahmen der Computer übernehmen, in dem wir jeweils berechnen, wie gut das jeweilige Modell die Wahlergebnisse von vergangenen Wahlen erklären kann. Dabei schlagen sich traditionell entscheidungsbaumbasierte Modelle wie Random Forests oder Gradient Boosting besser, da einige (fundamentale) Annahmen über die Daten nicht gemacht werden müssen, bei lineare Regressionen jedoch schon. Darüber hinaus stellen diese Modelle den menschlichen Entscheidungsprozess besser dar, als nicht-parametrische Modelle wie Support Vector Machines.
Um auf Nummer sicher zu gehen, dass wir auch nicht einen Zufallstreffer gelandet haben, teilen wir unsere Daten nochmals in Untergruppen auf und vergleichen die Güte unserer Modelle. Erfahrungsgemäß zeigen sich hier schon deutlich Unterschiede, denn unterschiedliche Methoden können unterschiedliche Bereiche besser erklären.
Im letzten Schritt überprüfen wir dann, ob eine Kombination aus unseren Algorithmen sich vorteilhafter verhält, als die einzelnen. Oftmals stellt sich recht schnell heraus, dass einer der Schätzer einem anderen, oder einer Kombination aus den anderen, in jedem Fall unterlegen ist. Der wird dann natürlich nicht in unseren Cocktail aufgenommen. Natürlich machen wir auch da den Test mit verschiedenen Teilen unseres Datensatzes. Der klare Vorteil dieser Methode ist, dass die Standardabweichung sinkt – es weniger extreme Fehleinschätzungen gibt.

Dieses eher aufwändige Verfahren macht unsere Vorhersage windfester und exakter, aber „there is no such thing as a free lunch“ (Milton Friedman7https://www.youtube.com/watch?v=WC0elAPyXhU ). Bei fast allen dieser Schätzer, kann man jedoch nicht mehr sagen, Faktor A hat einen Einfluss von X% auf die Anzahl der Stimmen eines Kandidierenden. Wir opfern unsere Einsichten über einzelne Faktoren auf dem Altar der Genauigkeit. Das heißt jedoch nicht, dass wir überhaupt keine Interpretation zu einzelnen Faktoren haben – wir müssen jedoch mit Vorsicht vorgehen und dürfen keine voreiligen Schlüsse ziehen. Das bedarf jedoch eines eigenen Beitrags.