Por Manuel Bagues y Carmen Villa
A principios de los años ochenta España era, según los datos oficiales, el país del mundo con la mayor proporción de niños por niña al nacer, con unos 109 niños por cada 100 niñas. Esta cifra contrastaba con lo que ocurría en la mayoría de países, donde se observaba una proporción en torno a los 105-106 niños por cada 100 niñas, una cifra que históricamente ha sido notablemente estable entre países y a lo largo del tiempo, hasta la aparición en décadas recientes de abortos selectivos en función del sexo del feto en algunos países asiáticos. La desviación española era tan llamativa que se convirtió en objeto de estudio académico durante décadas. En un artículo reciente mostramos que el misterio tiene una solución mucho más prosaica de lo que cabía sospechar. Las niñas nunca faltaron: la anomalía es el resultado de errores sistemáticos en el procesamiento de datos por parte del Instituto Nacional de Estadística (INE), no un fenómeno demográfico real.
Figura 1 - Niños nacidos por cada 100 niñas, Naciones Unidas, 1982.

El puzle
Como muestra la Figura 2, la proporción de niños por niña en los datos oficiales del INE experimentó un brusco aumento a partir de 1975, alcanzando su pico en 1981, y después disminuyó gradualmente hasta retornar a los niveles esperados hacia el año 2000.
Figura 2 – Niños nacidos por cada 100 niñas, España 1960-2020.

En un contexto en el que parece descartable la existencia de abortos selectivos, para explicar esta anomalía en la literatura académica se han propuesto factores como cambios en la edad materna, el orden de nacimiento y la intensidad de la radiación solar. Sin embargo, la evidencia acumulada en otros países sugiere que estos factores, en caso de que importasen, solo podrían explicar variaciones muy pequeñas en la proporción de niños por niña, difícilmente por encima de los 107 niños por cada 100 niñas. Más recientemente, se ha planteado que la introducción de técnicas de detección del sexo fetal en los años ochenta permitió a las madres conocer el sexo del feto con antelación, y aquellas que esperaban una niña habrían sido menos cuidadosas durante la gestación, aumentando la supervivencia masculina en detrimento de los fetos femeninos. Sin embargo, la plausibilidad biológica de este mecanismo también es limitada. El sexo fetal no podía determinarse de forma fiable por ecografía hasta al menos las 12 semanas de gestación, y apenas el 1-5% de los embarazos terminan en aborto espontáneo a partir de ese momento. Incluso bajo los supuestos más extremos sobre diferencias en los cuidados prenatales, unas tasas de pérdida fetal tan bajas no bastarían para generar una desviación de 3 puntos porcentuales respecto a la proporción biológicamente esperada.
Los datos cuentan otra historia
Nuestro análisis sugiere una explicación más sencilla: las anomalías observadas en España entre 1975 y 2000 se deben a problemas en el procesamiento de los datos de nacimientos por parte del INE, no a fenómenos demográficos reales. El primer indicio proviene de la comparación entre las cifras de nacimientos y los datos del censo, que mide cada diez años la población residente en España. Para las mismas cohortes de nacimiento, el censo muestra proporciones de sexo completamente normales — entre 105 y 106 niños por cada 100 niñas — sin ningún repunte durante el periodo anómalo (ver la Figura 3). Ambas fuentes coinciden antes de 1975 y después del año 2000; la divergencia afecta exclusivamente a la ventana 1975–2000. En principio, las divergencias entre ambas fuentes deberían reflejar únicamente diferencias por sexo en mortalidad o migración entre el nacimiento y el año del censo, pero el patrón observado apenas cambia cuando tenemos en cuenta estos factores. El censo muestra que la proporción de niños por niña en España durante este período se sitúa en torno a 1,06, en línea con lo observado en otros países occidentales.
Figura 3 – Proporción de niños en el registro de nacimientos y en el censo, 1960–2020

El segundo indicio proviene del análisis de los microdatos de las estadísticas de nacimientos del INE, que ofrecen información individual para todos los nacimientos registrados desde 1975. Sorprendentemente, observamos que, dentro de cada provincia, la proporción de niños y niñas nacidos varía de forma inverosímil de un mes a otro (ver la Figura 4). Por ejemplo, en Teruel en 1978, los datos del INE registran más de 3 niños por niña en algunos meses — un resultado cuya probabilidad es inferior a uno entre diez mil millones si tomamos como referencia la proporción observada en el resto de provincias — para después volver repentinamente a proporciones normales. En Barcelona — una provincia grande donde las fluctuaciones deberían ser mínimas — habrían nacido 4 niños por cada 3 niñas a principios de 1984, un evento que tiene una probabilidad inferior a 1 entre 10.000 millones de ser cierto, para volver de nuevo a niveles normales en los meses siguientes. El caso más extremo es el de Valladolid, donde según el INE habrían nacido hasta 8 niños por cada niña en algunos meses de 1982. La probabilidad de que esto haya ocurrido realmente es similar a la de que alguien gane el Gordo de Navidad catorce años seguidos comprando un único décimo cada año (una probabilidad inferior a 10⁻⁷⁰). Y no se trata de casos aislados: un análisis sistemático muestra que las observaciones anómalas son más de veinte veces más frecuentes de lo que cabría esperar por azar y se concentran en una sola dirección - demasiados niños - consistente con una codificación errónea sistemática de nacimientos femeninos como masculinos. Ninguna de estas anomalías aparece sin embargo en los datos del Censo, o en los datos de nacimientos a partir del año 2000.
Figura 4 - Variación mensual en la proporción de varones nacidos, INE, varias provincias.
Teruel, 1977-1979

Barcelona, 1983-1985

Valladolid, 1980-1982

Un tercer indicio proviene de las cifras provisionales que publicaba el propio INE en su Anuario Estadístico (ver Figura 5). Entre 1975 y 1982, estas cifras se publicaron aproximadamente un año después del período de referencia y muestran una proporción de niños nacidos por cada niña sustancialmente más baja que las cifras definitivas, a pesar de registrar prácticamente el mismo número de nacimientos. Aunque inferiores, las cifras provisionales también superan ocasionalmente los 107 niños por cada 100 niñas, lo que sugiere que los errores pudieron comenzar antes y agravarse en la etapa final.
Figura 5 – Datos provisionales y datos definitivos de nacimientos, INE 1975-1982.

El origen del error
Tenemos algunas pistas sobre el origen del problema, pero no podemos explicar con certeza su mecánica. La cronología apunta a la introducción del procesamiento informático de los registros de nacimientos en el INE en 1975, y la divergencia entre las cifras provisionales y las definitivas sugiere que los errores se amplificaron durante la fase de finalización de los datos. La anomalía también parece intensificarse hacia 1980, posiblemente coincidiendo con un cambio en el formulario estadístico de registro, que pudo haber alterado la codificación del sexo de forma incompatible con el sistema de procesamiento existente. El carácter asimétrico de los errores — sistemáticamente sesgados hacia registrar niñas como niños, en lugar de introducir ruido aleatorio en ambas direcciones — apunta a un fallo de codificación específico y direccional, quizás una asignación errónea de un valor concreto durante la entrada o conversión de datos. Cabe señalar que los problemas no se limitan a la variable de sexo: investigaciones previas han documentado grandes inconsistencias en la variable de orden de nacimiento (Devolder et al., 2016), y nosotros también observamos anomalías en la variable del peso, lo que apunta a fallos más generales en el procesamiento de los datos durante este período. Responder a estas preguntas, y potencialmente recuperar las cifras originales, requeriría acceso a la documentación interna y archivos intermedios del INE.
Un problema con consecuencias globales
España reporta sus estadísticas de nacimientos a la Organización Mundial de la Salud, a Eurostat y a Naciones Unidas, donde están clasificadas como datos de «alta calidad». No es de extrañar, por tanto, que ni los investigadores españoles ni los numerosos estudios internacionales que han utilizado estas cifras detectaran el problema: pocos tendrían motivos para sospechar que los datos de un organismo con la reputación del INE pudieran esconder errores sistemáticos de esta magnitud. Decenas de estudios sobre este tema se han basado, sin saberlo, en datos erróneos.
Este caso ofrece una lección más general: los datos administrativos, por muy fiables que parezcan, no están exentos de errores sistemáticos. Es conveniente que los investigadores verifiquen la consistencia interna de los datos utilizados y, si es posible, los contrasten con fuentes alternativas. Pero en última instancia, la principal responsabilidad recae sobre los propios organismos estadísticos, que son quienes tienen acceso a los datos, los recursos técnicos y el deber institucional de detectar y corregir estos problemas. Cuando hemos trasladado nuestros resultados al INE, la respuesta ha sido que los datos publicados «constituyen la información oficial disponible para ese periodo» y que su revisión «no resulta viable en la práctica». Lo entendemos — corregir registros de hace décadas no es sencillo. Pero si la corrección no es posible, sí lo es la transparencia: una simple advertencia en los datos publicados bastaría para que los usuarios supieran a qué atenerse.
Referencias:
Bagues, M. y C. Villa, "Sex, Lies and Birth Statistics: The Mysterious Case of the Spanish Missing Women," CEPR Discussion Paper 21227.
Devolder, D., Ortiz, E. & Zeman, K. (2016), ‘Human Fertility Database Documentation: Spain’.