- Nada es Gratis - https://nadaesgratis.es -

Encuestas en la Era del Multipartidismo

Internet está llena hoy de discusiones sobre la última encuesta electoral de El País. Muchos analistas discuten las implicaciones políticas de la misma. Otros dudan sobre la estabilidad de la intención de voto o sobre como Metroscopia imputa intención de voto estimada a partir de intención de voto declarada.

Mientras que todos estos comentarios son importantes, algo que no he visto discutido es una propiedad de las encuestas cuando nos movemos de una situación de bipartido a una de tripartidismo (o, si se consolida el éxito de Ciudadanos en esta encuesta, al cuatripartidismo).

Realizar un muestro en una situación donde solo dos opciones son relevantes (¿vas a votar al partido A o al partido B?) es mucho más fácil que realizar muestro cuando varias opciones son relevantes (¿vas a votar al partido A, al partido B, o al partido C?). Si empleamos el lenguaje de la teoría de la probabilidad, al realizar una encuesta estamos obteniendo una muestra de una distribución multinomial, donde el número de pruebas son las entrevistas realizadas y los parámetros de la distribución son la verdadera intención de voto. No quiero aburrir al lector con los detalles de esta distribución (la página de wiki los explica) pero ¿qué ocurre, de manera simplificada, cuando tenemos más partidos competitivos con la precisión de nuestra estimación de voto?

Para ilustrar este fenómeno sin recurrir a las matemáticas voy a presentar una pequeña simulación (por cierto, a mi me gusta enseñar estadística de esta manera; es mucho más intuitivo) ([1]).

Voy a simular, bajo dos escenarios, 5.000 encuestas de 1.000 entrevistas (el mismo número de entrevistas que la de El País). Es decir, estamos imaginando que existen 5.000 “Españas paralelas” y en cada una de ellas se realiza una encuesta de 1.000 entrevistas. En Matlab, el código de la simulación son 30 líneas que se escriben en menos de 5 minutos y se corre en menos de 1 segundo (incluídos los gráficos).

En el primer escenario solo existen dos partidos, A y B. La verdadera intención de voto es 55% para el partido A y 45% para el partido B. En las 5.000 encuestas, el partido A obtiene entre el 48.9% y el 60.2% del voto estimado mientras que el partido B obtiene entre el 39.8% y el 51.1%. Mientras que el rango de porcentaje de votos esperado es relativamente amplio (como un 11%), la victoria de A es clara: en 4.997 de las 5.000 encuestas simuladas, el partido A gana las elecciones.

Mirando las 5.000 encuestas una a una, lo que se ve es que casi todas ellas te dan 53-57% vs. 43%-47%, excepto en unas poquitas, donde o A sale un poco mejor parado (y se te a va al 60.2%) o B lo hace francamente bien (y se te va al 51.1%). El histograma de respuestas lo cuelgo en la siguiente figura, donde en azul dibujo al partido A y en magenta al partido B. Los histogramas apenas se solapan. Incluso si redujésemos la distancia de voto real a 52%-48%, los histogramas aun se distinguirían fácilmente.

Figure1-page-001

Este seria el caso de Estados Unidos, donde solo existen dos partidos relevantes (el Republicano y el Demócrata). En cuanto tienes una muestra relativamente grande y la diferencia de voto no es muy, muy ajustada, las encuestas bien hechas (hay muchas muy malas o simplemente manipuladas) aciertan casi siempre. Este solía ser el caso también, en cierta medida en España, ya que a nivel nacional teníamos un bipartidismo muy acusado, con una IU y UPyD muy pequeños. De manera muy simplificada, el primer escenario era España en 2008 o 2012 si nos centrábamos en el PP y PSOE: dos opciones con cierta distancia entre ellas (en favor del PSOE en 2008, en favor del PP en 2012).

En el segundo escenario existen tres partidos, A, B y C. La verdadera intención de voto es 36%, 32% y 32%. Es decir tenemos más opciones y las distancias son más reducidas (como parece ser el caso ahora en España). En las 5.000 encuestas, el partido A obtiene entre el 29.9% y el 42.4% del voto estimado, el partido B entre el 26.8% y el 36.7% y el partido C entre el 26.8% y el 37.4%. Y a pesar de tener una ventaja de 4%, el partido A solo gana en 4.439 de las 5.000 encuestas.

De nuevo esto se ve en la figura, donde azul sigue siendo A, magenta es B y ahora tenemos en amarillo a C. Claramente, los histogramas se solapan uno encima del otro. En otras palabras, cuando tenemos tres partidos relativamente cercanos unos al otro, las encuestas tienen un rango de posibilidades muy amplio, con victorias de C, victorias de B y victorias de A.

figure2-page-001

El añadir a estas simulaciones a Ciudadanos, IU, UPyD y los partidos nacionalistas, y con ello incrementar las varianzas estimadas, solo hace que reforzar mi mensaje: con 1.000 entrevistas, el nivel de incertidumbre de una encuesta en España, sin ni siquiera incluir muchos otros problemas estadísticos (como la calidad del muestreo cuando el votante de la tercera nueva opción puede ser sistemáticamente diferente por ejemplo en su distribución geográfica o en su disposición a contestar al encuestador), es muy alto.

De hecho donde este fenómeno se veía ya era en las encuestas a las elecciones autonómicas del Pais Vasco y Cataluña (y en menor medida Galicia y Valencia), en los que la superposición de un sistema de partidos nacional con un sistema de partidos local incrementaba notablemente las posibilidades y donde se veían resultados electorales finales algunas veces alejados de las predicciones ([2]).

¿Es la encuesta de El País informativa? Sí, pero con muchísima incertidumbre. En mi opinión, el 95% del comentario en internet hoy es por ello irrelevante.([3])

1. El aumento de la incertidumbre se produce por el aumento de la entropía en la muestra cuando el número de eventos relevantes crece. Este aumento aparece por dos mecanismos (recogidos en mis simulaciones). El primero es que con las mismas 1,000 observaciones tenemos que estimar más parámetros y por tanto los intervalos de confianza (frecuentistas) o las posterioris (Bayesianos) serán más amplios. Una manera trivial de pensarlo es imaginar una muestra con 1,000 entrevistas y 1,000 partidos con posibilidades de obtener votos. La información que contiene la muestra sobre la intención de voto para el partido 347 ha de ser a la fuerza muy reducida. Pero además asumo que multipartidismo también supone que las distancias entre los partidos se reducen de media. Si tenemos tres partidos en disputa, es más complejo que haya diferencias de 16 puntos como hubo entre el PP y el PSOE en 2011. No solo se incrementa el rango del intervalo de confianza, sino que además crece como porcentaje de la estimación puntual de intención de voto y de las diferencias de intención de voto.

2. Mi afirmación sobre los problemas relativos de las encuestas en ciertas elecciones autonómicas está basada en una impresión personal de haber leído encuestas en España y seguir la política en detalle por 25 años; desconozco si alguien ha realizado una investigación detallada de esta impresión y reconozco que la misma puede ser claramente refutada por los datos. Desafortunadamente carezco de los medios o del tiempo para recopilar estos datos para esta entrada del blog.

3. He modificado la entrada un poco unas horas después de haberla publicado por primera vez. Me ha tocado hoy esperar 45 minutos para cenar y mientras estaba en la cola del restaurante, he tenido tiempo de refinar los argumentos con respecto a la primera versión. Si alguno está por San José y no le importa esperar o comer en un sitio bastante cutre, las gambas con salsa sha-bang mild merecen la pena.