Wir sind froh unser Modell für (Ober-)Bürgermeister:inwahlen zu veröffentlichen und erste Prognosen in einem späteren Artikel vorstellen zu können. Dazu möchten wir in diesem Beitrag unsere Herangehensweise erklären.
Im Groben verläuft unsere Prognose für Bürgermeister:inwahlen ähnlich zu unserem bereits bestehenden Verfahren ab. Im Herzen steht ein statistischer Algorithmus, der zuvor mit Daten gefüttert wird. Im Nachgang wird evaluiert, welcher Algorithmus den vielversprechendsten Ansatz hat. Der Algorithmus lernt mit Daten aus der Vergangenheit, für die wir die Wahlergebnisse kennen, und wird dann angewandt um die Zukunft vorauszusagen.
Zunächst ein kurzer Blick auf die Daten, die wir nutzen. Wenn auch öfters stiefmütterlich behandelt, sind Daten doch der wichtigste Faktor einer datenbezogenen Vorhersage – sind die Daten Mist, ist es das Ergebnis auch. Den Einfluss beliebiger Faktoren können wir nur mit einbeziehen, wenn wir entsprechende Daten haben. Wir benutzen mehr als 70 Vorhersagefaktoren, die sich grob in 3 Gruppe sortieren lassen, personenbezogene Daten, stadtspezifische Daten und „globale“ Variablen. Dabei steht der Gedanke dahinter, dass Wähler verschiedene Gründe haben können für Kandidierende zu stimmen. Ein Beispiel für einen personenbezogenen Grund sind das Geschlecht oder Alter, aber auch persönliche Bekanntschaft oder ob die Person zugezogen ist. Selbstverständlich können wir nicht alle Faktoren dieser Kategorie erfassen und in unsere Vorhersage einbauen – und das ist auch gut so, denn der Gedanke jeden potentiellen Bürger in seinem Sozialverhalten zu überwachen ist beängstigend.
Stadtvariablen sind beispielsweise ökonomische oder demographische Trends die sich über einen längeren Zeitraum abspielen. Darüber hinaus fallen auch lokale Wahlergebnisse in diese Kategorie.
Die übergreifenden „globalen“ Variablen sind Faktoren, die über Städte hinweg gleich sind wie zum Beispiel die inhaltliche Ausrichtung von Parteien oder die aktuelle Beliebtheit eben dieser Parteien in Bundesumfragen.
Um es kurz zu fassen: Die Wählerlandschaft ist heterogen, unsere Daten sind es auch. Um volle Transparenz zu ermöglichen, können alle Daten auf der GitHub Seite unseres Projekts eingesehen, gedownloaded und überprüft werden.

Wenn die Daten das Herz unseres Projektes sind, dann ist der Algorithmus der Kopf. Wie bereits bei unseren Ratsvorhersagen wenden wir ein statistisches Verfahren an, das, grob verallgemeinert, aus drei Teilen besteht. Zunächst wird für eine Vielzahl von Algorithmen der jeweils optimale ausgewählt. Optimal bedeutet in diesem Fall, dass eine gewisse Kombination aus Parametern die Wahlergebnisse der Vergangenheit am besten erklären kann. Je nach Schätzer sind das bis zu 20000 Simulationen historischer Wahlen. Dadurch kann die Wichtigkeit gewisser Faktoren für eine Entscheidung gelernt werden. Im zweiten Schritt wird nach möglichen Kombinationen aus den Algorithmen gesucht, denn vielleicht ist die kombinierte Vorhersagekraft noch höher – auch hier mit einer großen Zahl an Berechnungen. Um auf Nummer Sicher zu gehen, wiederholen wir diesen Schritt noch etliche Male, um eventuelle Zufallstreffer zu vermeiden – insgesamt also mehrere Hunderttausend Simulationen.
In einer zweiten, gesonderten Abfolge, wiederholen wir den Vorgang, aber haben Umfrageergebnisse mit integriert, sofern vorhanden. Im Optimalfall sind sich beide Vorhersage ähnlich, jedoch kann gerade bei Kandidat:innen mit ungewöhnlichem Hintergrund die nötige Erfahrung unserer Methode Unsauberkeiten aufweisen. Klassische Beispiele sind Einzelkandidat:innen mit herausgehobenem Profil oder auch Kandidat:innen der AfD, bei denen in einigen Regionen noch keine historischen Daten vorlegen. Umfragen können dies teilweise integrieren, jedoch sind eben diese Umfragen immer nur eine Momentaufnahme und auch mit gewisser Unsicherheit verbunden. In einer „Vorhersageutopie“ hätten wir gerne regelmäßige Umfragen von verschiedenen Instituten über einen Zeitraum von einigen Monaten – in der realen Welt haben wir vielleicht eine oder zwei Umfragen insgesamt. Es entstehen zwei Unsicherheitsaspekte, die Genauigkeit der Umfrage und die Zeit, die vergeht bis zum Wahlabend.
Wir werden daher beide Ergebnisse gesondert veröffentlichen und ermutigen die Leser:innen, die Schätzungen als Schranken zu betrachten. Enge Schranken sprechen für wenig Unsicherheit, weite Schranken für große Unsicherheit.
Darüber hinaus veröffentlichen wir eine Vorhersage zur Wahrscheinlichkeit einer Stichwahl. Diese Ergebnisse sind natürlich stark zur obigen Vorhersage korreliert. Eine Vorhersage für einen Kandidaten von 70% und gleichzeitig eine prognostizierte Wahrscheinlichkeit für eine Stichwahl von 80% ist ein Stück weit gegensätzlich.
Vorhersagen zwischen den Kandidierenden einer Stichwahl werden wir natürlich erst nach dem ersten Wahlgang veröffentlichen – sollte ein zweiter Wahlgang überhaupt nötig sein. Bis dahin schaut euch doch unsere Vorhersagen an und gebt uns Feedback!