Estadística y fraude electoral: lo que el teorema central del límite nos revela acerca del régimen de Putin

Fuente: Arseny Khakhalin
@ampanmdagaba

Este domingo se celebrarán en Rusia elecciones locales. Es fácil anticipar lo que ocurrirá. La oposición denunciará, una vez más, la existencia de fraude electoral y divulgará multitud de videos incriminatorios. Sin embargo, la comisión electoral ignorará las protestas y proclamará la victoria holgada de los candidatos pro-gubernamentales. La comunidad internacional desconfiará de los resultados oficiales. No inspira mucha confianza un régimen donde los opositores tienden a ser encarcelados, envenados o son asesinados a tiros a las puertas del Kremlin pero, en ausencia de observadores independientes y prefiriendo no incomodar a Putin, seguramente se reconocerá rápidamente la nueva victoria electoral del régimen.

No es fácil probar la existencia de fraude electoral. Cómo podemos saber con seguridad desde la distancia si las elecciones son tan limpias como aseguran las autoridades rusas o si los resultados electorales han sido manipulados, como sostiene la oposición. Afortunadamente, en este mundo de la post-verdad y las fake news, todavía nos queda una forma de comprobar quien tiene razón: ¡la estadística! Como mostramos a continuación, las falsificaciones electorales de la administración rusa son tan burdas que dejan un rastro estadístico muy visible.

Examinemos los resultados del referéndum que tuvo lugar en Junio de 2020 para eliminar el límite de mandatos, permitiendo la reelección de Putin hasta el año 2036. Si echamos un ojo a los resultados electorales por colegio electoral (fuente oficial, datos en formato electrónico y do file), llama la atención que el porcentaje de votos a favor de la reforma propuesta por Putin tiende a ser prácticamente idéntico en muchos colegios electorales de cada distrito electoral. Por ejemplo, en el distrito de Akushinsky, que cuenta con unos 52 colegios electorales de unos 500 votantes cada uno, votó a favor de la propuesta de Putin exactamente el 93.0% de los votantes en la práctica totalidad de los colegios electorales.

Fuente: Elaboración propia a partir de los datos oficiales.

A primera vista, tal grado de homogeneidad parece poco plausible. Por un lado, esperaríamos que existiese cierta segregación espacial. La gente con distintos niveles de renta suele vivir en distintas áreas y suele votar de manera diferente. Pero incluso si considerásemos el supuesto extremo de que los habitantes de este distrito han sido distribuidos al azar entre los distintos colegios electorales, independientemente de su orientación política, es fácil comprobar que es inverosímil que la proporción de votantes favorables a Putin sea idéntica en todos los colegios electorales.

Para calcular cuál es la probabilidad de que realmente la distribución de voto haya sido tan comprimida podemos realizar una simulación utilizando la distribución binomial. Por simplicidad, supongamos que (i) el apoyo a Putin en la población general es similar a la media observada (un 93%) y (ii) que la distribución de la población a lo largo de los distintos colegios electorales es independiente de su ideología. (Si relajamos estos supuestos la distribución resultante tendría una varianza aún mayor.) Imaginen una enorme urna con N bolas (o votantes), de las que un 93% son bolas negras (o votos a favor de Putin) y el resto son blancas. De esta enorme urna extraemos una y otra vez grupos de 500 bolas (el número de votos en cada colegio electoral), hasta completar los 52 colegios electorales y, en cada colegio electoral, calculamos el porcentaje de bolas negras. La siguiente gráfica muestra los resultados de esta simulación:

Como cabía esperar, en la simulación se observa una mayor variación en el voto de los distintos colegios electorales. Mientras que en los resultados oficiales la desviación estándar es igual al 0.3% (es decir, la diferencia media en el porcentaje de voto recibido por Putin en dos mesas distintas), en la simulación la desviación estándar es igual al 1.3%. Para comprobar que estas diferencias no se deben únicamente al azar, repetimos la simulación 1 billón de veces, pero no conseguimos ni una sola vez obtener una distribución tan comprimida como la observada en los resultados oficiales de este distrito.

Otra forma quizás más elegante de llegar a esta misma conclusión es utilizar el teorema central del límite (TCL). Este maravilloso teorema nos indica cual es la distribución de la media muestral de una determinada población. En el contexto de la simulación y bajo los supuestos anteriores, según el TCL los votos recibidos por Putin en los distintos colegios electorales deberían seguir una distribución normal con una desviación estándar igual a:

Es decir, la desviación estándar debería ser de un 1.1%, una cifra muy por encima de la dispersión observada en los resultados oficiales. Se trata naturalmente de un límite inferior, la cifra sería mucho mayor si se incorporase al cálculo la heterogeneidad asociada a la segregación espacial de los votantes.

Algunos burócratas rusos se han vuelto más creativos, pero siguen dejando rastros. Por ejemplo, en el distrito de Klintsovsky, los resultados oficiales indican que en los colegios electorales impares la participación electoral fue exactamente del 90.0% y, en cambio, en los colegios electorales pares, votaba exactamente el 91.0% de los votos. Si siguen así, los encargados de la manipulación electoral cualquier día dejarán un mensaje escrito en la gráfica.

Fuente: Elaboración propia a partir de los datos oficiales.

Como han señalado diversos académicos rusos, la excesiva falta de dispersión en los datos se observa a lo largo de toda la geografía rusa, no sólo en las cifras de apoyo a Putin sino también en las cifras de participación electoral (varios ejemplos aquí). Además, esta falta de dispersión está normalmente asociada a una clara preferencia por los números redondos. La participación electoral suele ser exactamente del 75%, 80%, 85%, 90%, 95% o 100% y votan a favor de Putin exactamente el 75%, el 80%, el 85%, 90%, 95% o 100% de los votantes de cada mesa. La distorsión que el fraude generalizado provoca en la distribución del voto puede ser observada fácilmente si visualizamos conjuntamente los resultados electorales de todas las mesas electorales de Rusia. En la siguiente gráfica cada punto representa una mesa electoral en la que ha habido una determinada participación electoral (eje horizontal) y de voto favorable a Putin (eje vertical). Lo que debería ser una nube puntos parece más bien un tablero de ajedrez, donde los números múltiplos de 5 representan las rayas.

Fuente: Arseny Khakhalin

La inverosímil distribución de los resultados oficiales refleja tanto la dificultad que tienen los burócratas rusos para simular procesos de generación de datos con algún componente estocástico como, sobre todo, la impunidad con la que se comete el fraude electoral. Otros regímenes autoritarios, como la Bielorrusia de Lukashenko, evitan divulgar datos desagregados de voto que podrían resultar muy embarazosos. Sin embargo, el régimen de Putin no tiene pudor en seguir utilizando burdos métodos de manipulación electoral y publicar datos que son manifiestamente falsos. Por desgracia, en Rusia sigue siendo cierto aquel dicho de Stalin: lo que cuenta no es quien vota, sino quien cuenta los votos.

Hay 4 comentarios
  • Muy bien explicado, enhorabuena por el artículo. Por más que la manipulación sea esperable en un caso como éste, no salgo de mi asombro por lo burdo y evidente de la misma……. Una sugerencia: ¿sería posible usar técnicas similares para comprobar la fiabilidad de estudios del CIS en España, o tal vez aquí tampoco se publican datos suficientemente desagregados? Gracias y saludos

    • Gracias por el comentario Eduardo. El CIS es transparente y publica todos sus datos a nivel individual, pero no creo que su problema sea la falsificación de los datos. Las principales controversias creo que han estado en torno a las preguntas que elige, que a veces son capciosas, y a los modelos que utilizan (o no) para predecir los resultados electorales a partir de los datos originales.

Los comentarios están cerrados.