In diesem Abschnitt soll in aller Kürze erklärt werden, was unser Modell auszeichnet und warum wir glauben, dass es einen Beitrag zur politischen Landschaft leisten kann.
Wer sich in der aktuellen datenorientierten, politischen Analyse umsieht und jetzt diese Website entdeckt, fragt sich fast zwangsläufig, braucht es überhaupt weitere Wahlvorhersagen? Bei der großen Zahl an Umfrageinstituten lautet die Antwort in fast allen Fällen: nein. Dennoch haben wir eine Nische gefunden, in der die Antwort ganz klar ja lautet. In den folgenden Absätzen soll erklärt werden, warum dem so ist.
Warum nicht einfach Umfragen nehmen?
Dafür muss zuerst ein Blick in die Methodik der Umfrageinstitute geworfen werden. Bei dieser Methode wird eine repräsentative Stichprobe aus der wahlberechtigten Bevölkerung gezogen. Auf Grundlage dieser Stichprobe wird auf die Allgemeinheit geschlussfolgert. „Repräsentativ“ bedeutet, dass die Befragten zufällig ausgewählt werden. Das Gesetz der großen Zahl 1 limn->∞ P( |Yn‘- E(Y)| <ε ) = 1 besagt, dass der Wert eines Zufallsereignis oft wiederholt dem „wahren“ Wert entspricht.2https://de.wikipedia.org/wiki/Gesetz_der_gro%C3%9Fen_Zahlen Dadurch kann man schlussfolgern, dass die Stichprobe im Großen und Ganzen der gesamten Bevölkerung gleicht.
Umfragen stoßen daher bei lokalen Wahlen stellenweise an ihre Grenze, denn zwei Grundannahmen sind kritisch zu sehen. Das ist einerseits die Zufälligkeit der Umfrage und andererseits die Anzahl der Befragten. Die Annahme der Zufälligkeit kann insbesondere im urbanen Milieu verletzt werden. Klassische Festnetztelefone, die zuverlässigste Quelle von Umfragen 3Yeager, David S., et al. „Comparing the accuracy of RDD telephone surveys and internet surveys conducted with probability and non-probability samples.“ Public opinion quarterly 75.4 (2011): 709-747., nehmen in der Popularität ab. Insbesondere Studierende, junge Berufstätige und Geringverdienende haben kein Festnetztelefon.4 Infas Telekommunikationsmonitor 2010 Diese Bevölkerungsgruppe findet sich verstärkt im urbanen Umfeld. Durch diese unfreiwillige Vorauswahl wird es schwerer Repräsentativität herzustellen und die Genauigkeit der Vorhersage sinkt. In ländlichen Gebieten, im speziellen in kleinen Dörfern, wird es schwer, eine ausreichend große Zahl an Befragten zu erreichen. Dadurch wird es wahrscheinlicher, dass eine nicht repräsentative Gruppe befragt wurde. Das Resultat ist ebenfalls weniger genau.
Ein weiterer, eher technischer Grund ist die Verhältniswahl mit offenen Listen. Oftmals haben Wähler mehrere Stimmen, in manchen Bundesländern sogar so viele Stimmen wie Sitze und können diese auf KandidatInnen unterschiedlicher Listen verteilen (panaschieren) sowie einem Kandidaten mehr als eine Stimme geben (kumulieren). Allein das Abfragen einer Präferenzfolge von mehr als 3 Stimmen gestaltet sich als etwas schwieriger, da jedes einzelne Interview mehr Zeit braucht und damit Kosten verursacht. In Nürnberg beispielsweise müssten Interviewer die voraussichtliche Wahlentscheidung von 70 Stimmen pro Wähler abfragen. Dabei ist es schwer vorstellbar, dass ein Wähler sich über alle Stimmen im Klaren ist, diese am Telefon erklärt und sich bereits, sofern relevant, alle Listen angeschaut hat und sich seines Wahlverhalten bezüglich Panaschierens und Kumulierens bewusst ist. Wem das noch nicht schwierig genug erscheint, der sollte den knappen Zeitplan für so ein Unterfangen betrachten. Der Großteil der Listen wird ungefähr einen Monat vor der Wahl veröffentlicht, was bedeutet, dass Umfrageinstitute auch nicht früher mit ihren Umfragen anfangen können. Dadurch ist es beinahe unmöglich, die nötige Anzahl an Wiederholungen der Umfrage zu generieren, die für deren Zuverlässigkeit notwendig wäre.
Zwar können einige dieser Verzerrungen durch statistische Korrekturen wieder ausgeglichen werden, doch erfordert dies Personaleinsatz und Zeit. Damit sind wir bei dem letzten und entscheidenden Punkt, weshalb Umfragen für Kommunalwahlen schwierig sind: die Kosten-Nutzen-Rechnung. Da Stadt- oder Gemeinderatswahlen eine geringere Zielgruppe haben, fallen potenzielle Umsätze ebenfalls geringer aus. Um es kurz und konkret zu machen: Umfragen für beispielsweise München sind möglich und vielleicht auch gewinnbringend. Für eine Stadt wie Pegnitz vermutlich eher nicht.
Aber was machen wir anders, dass wir diese Probleme nicht haben? Nun, wir versuchen die Stimmen eines Kandidaten anhand von ökonomischen, demographischen und tagespolitischen Faktoren vorherzusagen. Dabei nutzen wir eine statistische Methode namens Regressionsanalyse. Um die Regressionsanalyse intuitiv zu erklären, möchte ich ein fiktives Szenario darstellen.
Wir haben drei Kandidierende, die bei der letzten Wahl angetreten sind und jetzt ebenfalls wieder kandidieren. Glücklicherweise wissen wir auch, wie viel Minuten jeder Kandierende auf dem Marktplatz Werbung gemacht hat. Stimmen und Minuten können sich in einer Tabelle darstellen lassen.
Kandidierende | Stimmen bei der letzten Wahl | Minuten auf dem Marktplatz | Erwartete Stimmen | Fehler |
---|---|---|---|---|
A | 1000 | 180 | 900 | 100 |
B | 500 | 90 | 450 | 50 |
C | 900 | 150 | 750 | 150 |
Intuitiv vermuten wir, dass die Werbung auf dem Marktplatz das Stimmenergebnis positiv beeinflusst. Wir könnten annehmen, dass eine Minuten auf dem Marktplatz 5 Stimmen bringt und dadurch eine Erwartung über die resultierende Stimmverteilung formulieren. Das erwartete Ergebnis, basierend auf unserer Hypothese, lässt sich in Spalte 4 ablesen. Und, voilà, wir haben unsere erste statistische Vorhersage getroffen. Wenig überraschend war die Vorhersage nicht perfekt, wie der Fehler in Spalte 5 zeigt. Hier geht Regressionsanalyse noch einen Schritt weiter. Der Vorfaktor (die „5“) wird so optimiert, dass der Fehler geringstmöglich wird.
Was benötigten wir, um unsere Vorhersage zu formulieren? Lediglich historische und charakteristische Daten, aber genau darin liegt der große Vorteil unserer Methode. Wir sind nicht darauf angewiesen, Umfragen durchzuführen, und können auch in kleineren Gemeinden mit geringem ökonomischen Einsatz Vorhersagen erstellen. Doch kein Huhn scharrt umsonst. Woher wissen wir, welche Daten relevant sind und welche nicht? Woher bekommen wir Daten, die wir für relevant erachten? Welche Methode der Regressionsanalyse benutzen wir? Absolut richtige Antworten, die zu garantierten Ergebnissen führen, gibt es darauf nicht, aber in den nächsten Artikeln werden wir unsere Versuche etwas detaillierter erklären.