In diesem Artikel möchte ich in aller Kürze auf die Daten eingehen, die unseren Vorhersagen zugrunde liegen. Dabei sollen auch Dimension und Herkunft der Daten beleuchtet werden.
Bei allen empirischen, also datenbasierten Unterfangen machen die Daten und deren Management den Unterschied zwischen Erfolg und Misserfolg, Lob und Kritik und manchmal sogar zwischen Ruhm und Häme.1 https://www.zeit.de/2013/27/staatsverschuldung-rechenfehler-thomas-herndon/komplettansicht Daher ist es uns ein Anliegen, möglichst transparent mit unseren Daten umzugehen. So zwingen wir uns selbst zu sorgfältigem und qualitativem Arbeiten. Außerdem vertrauen wir der Schwarmintelligenz, Fehler zu entdecken.
Um Vorhersagen mit maschinellem Lernen zu tätigen, ist ein großer Datensatz zum Trainieren des Algorithmus notwendig. Dieser Datensatz besteht aus bereits vollständig vorhandenen Beobachtungen. In unserem Fall sind das historische (kommunale) Wahlergebnisse. Um eine ausreichend große Datenmenge zu gewähren, berücksichtigen wir die letzten drei Kommunalwahlen.
Struktur der Daten
Eine grundsätzliche Frage, die sich beim empirischen Forschen sehr früh stellt, ist die nach der Struktur der Daten. Welche Variablen sind überhaupt messbar, betrachten wir Abfolgen über eine Zeitspanne hinweg oder einmalig und wie sehen potenzielle Hierarchien in den Daten aus. Dies sind ein paar grundlegende Fragen, die beantwortet werden sollten.
In unserem Fall lässt sich die zweite Frage am leichtesten beantworten. Wir haben keine Zeitreihe sondern betrachten jede Wahlperiode als einzelnes Ereignis. Selbstverständlich wäre es wünschenswert, wenn wir alle Kandidaten über einen längeren Zeitraum verfolgen könnten – ein paar Fakten machen das aber schwer möglich. Es gibt wenige Personen, die über den gesamten Zeitraum unserer Beobachtungen (seit 2000) für jede Kommunalwahl zur Wahl standen. In unserem historischen Datensatz zu den bayerischen Kommunalwahlen sind ca. 75% aller Kandidaturen von Personen, die entweder nur ein Mal, ihr letztes oder erstes Mal kandidiert haben. Eine Betrachtung als Zeitreihe wäre damit einhergehend mit einer Verzerrung, da AmtsinhaberInnen tendenziell eher ein weiteres Mal kandidieren als nicht gewählte Kandidierende. Dadurch würden unsere Vorhersagen an Genauigkeit verlieren. In diesem Zusammenhang soll auch noch erwähnt werden, dass viele Gemeinden nicht alle historischen Wahlergebnisse auf KandidatInnen-Ebene veröffentlichen. Oftmals wird nur die letzte Wahl detailliert im Archiv beschrieben, was die Erstellung einer Zeitreihe auf die Schnelle unmöglich macht.
Die Antwort auf die erste Frage ist etwas schwieriger. Sie hängt damit zusammen welche Einflussfaktoren wir für Wahlergebnisse auf kommunaler Ebene als wichtig und entscheidend betrachten. Die einfache (und unkonkrete) Antwort ist: sicherlich eine ganze Menge. Die ausführliche Antwort ist etwas komplizierter. Aus der Vogelperspektive können wir alle Variablen, hypothetische und tatsächliche, in drei Kategorien einteilen.
-
- Persönliche Faktoren
- Lokale Faktoren
- Nationale Faktoren
Persönliche Faktoren sind Eigenschaften, die ein Kandidat hat. Beispielsweise können wir hier Geschlecht oder Listenplatz anführen (wie auch in der folgenden Tabelle aufgezeigt). Da sich das Geschlecht nicht so ohne weiteres mathematisch ausdrücken lässt, verwenden wir eine so genannte Dummy Variable. Diese ortet einer qualitativen Größe entweder die Zahl „1“ oder „0“ zu. Konkret bedeutet das, dass wir allen Männern die Zahl „1“ zugeordnet haben und allen Frauen die Zahl „0“. Damit können wir untersuchen ob es einen systematischen Einfluss des Geschlechts auf die Wahlergebnisse gibt, da es eine Variable gibt, die für alle Männer den Wert „1“ annimmt, die bei Frauen aber nicht ins Gewicht fällt, da sie den Wert „0“ annimmt (der geschätzte Parameter multipliziert mit der Variablengröße ergibt für Frauen 0, da die Variable für jede Frau den Wert 0 hat). Dass in der Tabelle das Minimum bei 0 liegt und das Maximum bei 1, ist daher nur logisch. Der Durchschnitt liegt bei 0.68, was man so deuten kann, dass ungefähr 2/3 aller Kandidierenden Männer sind.
Lokale Faktoren sind Messungen auf Stadt- und Listenlevel. Auch hier sind in der Tabelle einige Beispiele aufgeführt. Die Variable „CSU-Liste“ beispielsweise gibt an, ob eine KandidatIn auf der Liste der CSU antritt – gemessen als Dummy Variable (sprich Wert „1“ wenn sie/er auf der CSU Liste steht, Wert „0“ wenn nicht) . Durch den Faktor „Neueinsteiger“ können wir berücksichtigen, ob eine Liste zum ersten Mal bei einer Wahl antritt, was sich sowohl positiv als auch negativ auf das Wahlergebnis auswirken könnte. Als letztes Beispiel in dieser Gruppe haben wir das Steueraufkommen einer Gemeinde. Alle drei Beispiele haben gemein, dass mehreren KandidatInnen dieselben Werten einer Variable zugeteilt werden, denn beispielsweise das Steueraufkommen einer Gemeinde ist für alle KandidatInnen gleich, egal für welche Liste sie kandidieren. Das heißt, sie profitieren in gleichem Maße von dieser Variable. Bei persönlichen Variablen dagegen kann es sein, dass mehreren KandidatInnen derselbe Wert einer Variable zukommt (z.B. wenn beide weiblich sind), aber es muss eben nicht der Fall sein. Dadurch erhalten wir Varianz zwischen unseren KandidatInnen.
Letztlich bleiben noch nationale Faktoren. Alle KandidatInnen sind davon pauschal gleich betroffen und durch Kombinationen mit anderen Variablen können wir beispielsweise feststellen, wie sich die aktuelle politische Bundeslage einer Partei auf den Wahlerfolg ihrer VertreterInnen vor Ort auswirkt.
Faktor | Durchschnitt | Varianz | Minimum | Maximum |
---|---|---|---|---|
Stimmen | 8994 | 24907 | 0 | 323168 |
Listenplatz | 21 | 16 | 1 | 80 |
Geschlecht | 0.68 | 0.46 | 0 | 1 |
CSU-Liste | 0.16 | 0.36 | 0 | 1 |
Neueinsteiger (Liste) | 0.08 | 0.27 | 0 | 1 |
Steueraufkommen (in Millionen) | 265.7 | 512 | 0.6 | 1632.3 |
Anteil der über 65-Jährigen | 20.2 | 2.6 | 13.7 | 34.7 |
Politische Stimmung | -0.26 | 2.12 | -5.9 | 5.4 |
Natürlich war das nur ein kleiner Ausschnitt aus unseren Daten. Aber alle haben gemein, dass sie frei zugänglich und kostenlos sind, so dass jeder die Daten zum Vergleich einsehen kann. Die obere Tabelle kann so problemlos reproduziert werden.

Eine vollständige Auflistung und Erklärung aller Variablen sowie deren Modifizierungen geht allerdings weit über den Sinn und Zweck dieses Artikels hinaus. Wer will, kann allerdings auf diesem Link zu meinem GitHub Account weitere Informationen erhalten.