El acceso a los microdatos administrativos: la nueva frontera

En promedio, los alumnos nacidos en enero tienen una nota media de educación primaria de 7,2 sobre 10, mientras entre los nacidos en diciembre es de 6,4. La mitad de los primeros se matricula en bachillerato, pero solo el 44% de los segundos. Y una vez se tienen en cuenta las características de los alumnos, sus padres y sus colegios, resulta que los nacidos en la segunda mitad del año tienen peores notas, mayores tasas de abandono escolar, menores transiciones al bachillerato y mayores problemas de aprendizaje que los nacidos en la primera mitad. Chocante, ¿no?

Son resultados de un estudio de Caterina Calsamiglia y Annalisa Loviglio para los cursos 2009-10 a 2013-14 en Cataluña. Si la madurez afecta tanto a los resultados escolares, seguramente los profesores deberían prestar más atención a los más pequeños de la clase y quizá se deba otorgar alguna flexibilidad a los padres al elegir la edad de inicio de la escolarización de sus hijos.

A este estudio se refirió mi colega Manuel Arellano en la charla titulada "El acceso a los microdatos administrativos públicos: la nueva frontera de la investigación económica y social", que tuvo lugar el mes pasado en la XVIII Aula de Verano "Ortega y Gasset" de la Universidad Internacional Menéndez Pelayo, en la que me baso en esta entrada. Ahora bien, no todo lo que digo aquí está en su presentación y también dejo fuera buena parte de ella, así que les recomiendo su lectura.

Los datos administrativos y el análisis económico

Analizar de forma rigurosa asuntos tan importantes como la educación requiere contar con mucha información individual ("microdatos") sobre los estudiantes, sus familias, sus colegios y, si se puede, sus profesores. De esta forma pueden estudiarse los resultados académicos y asegurarse de que uno no los atribuye a un factor, como la edad, cuando en realidad puedan deberse a otros aspectos.

Hasta hace unos años, contar con esta información era casi imposible, pero la situación ha mejorado mucho. La información individual que rutinariamente recogen las administraciones públicas sobre todos nosotros está a menudo en bases de datos electrónicas y es técnicamente posible utilizarla para el análisis estadístico. Esta mayor capacidad de almacenamiento, acceso y tratamiento de la información ha revolucionado la ciencia económica. Hoy en día, cuatro de cada cinco artículos publicados en las mejores revistas académicas de economía son empíricos (según un estudio de Daniel Hamermesh) y entre estos la investigación puntera se basa en datos administrativos.

Los datos administrativos tienen ventajas con respecto a otro tipo de datos como las encuestas: el número de observaciones es mucho mayor, tienen menores errores de medida y menos datos ausentes para algunas variables, y permiten seguir a cada persona o empresa a lo largo del tiempo. Al abarcar a una fracción mucho mayor de la población, la mera descripción de patrones básicos resulta más representativa del conjunto de la población, lo que favorece un mayor impacto en el debate público. Por ejemplo, la investigación de Thomas Piketty y Emmanuel Saez sobre la participación en la renta total de quienes están en la parte superior de la distribución ha tenido gran influencia en el debate sobre la desigualdad en Estados Unidos, centrado hace unos años en el 1% más rico.

Los datos administrativos: cuestiones del acceso

No obstante, los datos administrativos conllevan sus propios problemas. Por una parte, no se recogen con fines de investigación y por ello a menudo se necesita un gran esfuerzo para ponerlos en un formato adecuado para esos fines. Por otra parte, a diferencia de las encuestas, su explotación suele requerir el cruce de datos que poseen distintos organismos. Por ejemplo, estudiar el efecto de la educación sobre el desempeño laboral requiere cruzar datos de una consejería de educación con los de la Seguridad Social.

La creación de bases de datos que cruzan varias fuentes puede generar dudas en los ciudadanos sobre el mantenimiento de su privacidad. Como es sabido, estamos en un momento de desconfianza de los ciudadanos en sus gobiernos. Y la cesión a los investigadores puede aumentar la desconfianza. Por tanto, dar ese acceso exige salvaguardar la confidencialidad con estándares muy rigurosos. Como mínimo, exige anonimizar los datos, es decir, suprimir el nombre y reemplazar el NIF por un número aleatorio que identifique al individuo.

Por suerte, la experiencia internacional demuestra que esto es posible. En Dinamarca, Statistics Denmark proporciona datos anonimizados que combinan información de distintas fuentes. Los investigadores solicitan el acceso a través de centros acreditados en las principales universidades y este se proporciona tras un proceso competitivo basado en el mérito científico. Entonces pueden acceder a los datos desde cualquier ordenador a través de un servidor seguro. Alternativamente, en otros países como Francia se ha creado un centro de acceso seguro a los datos.

Como resultado, frente al tradicional predominio de la investigación económica sobre Estados Unidos (EEUU), ahora se está investigando y conociendo mejor la situación de países como Alemania, Austria, Dinamarca, Francia, Noruega, Portugal o Suecia. De hecho, las barreras existentes en EEUU llevaron a destacados economistas académicos a redactar un libro blanco para ampliar el acceso a datos administrativos para la investigación.

Mientras tanto en España...

España está muy retrasada en este aspecto. No partimos de cero, pues los investigadores tenemos acceso a algunos datos administrativos. Por ejemplo, desde 2004 la Seguridad Social proporciona la Muestra Continua de Vidas Laborales (MCVL), una muestra aleatoria del 4% de quienes tienen relación con la Seguridad Social como cotizantes (asalariados, autónomos) o beneficiarios (parados, pensionistas) cada año.

La explotación de la MCVL ha generado valiosos conocimientos sobre asuntos como el efecto de las prestaciones por desempleo sobre la duración del paro, el paro de larga duración o la desigualdad salarial. Pero al ser una muestra individual, no permite tener información de todos los trabajadores de una misma empresa, por lo que no se puede analizar el empleo en ellas con datos detallados de sus trabajadores. Este acceso palidece en comparación, por ejemplo, con el existente en Portugal, donde están disponibles los datos de empleo (Quadros de Pessoal) de todos los trabajadores. Por su parte, la Agencia Tributaria proporciona una muestra del 14% de los declarantes del Impuesto sobre la Renta a través del Instituto de Estudios Fiscales y datos fiscales de las personas incluidas en la MCVL, la Encuesta de Población Activa y la Encuesta de Condiciones de Vida.

Al nivel de las comunidades autónomas (sin ánimo de exhaustividad), en la Comunidad de Madrid están disponibles datos de los resultados individuales en pruebas académicas estandarizadas. En Cataluña, el DataResSS, una iniciativa conjunta de la Barcelona Graduate School of Economics y el Institut d'Estadística de Catalunya, pone datos administrativos de Cataluña a disposición de los investigadores. El sistema de acceso es parecido al danés antes descrito y es el que permitió la realización del estudio sobre madurez y resultados educativos descrito al inicio de esta entrada.

Hay que facilitar el acceso a los microdatos administrativos

La evidencia empírica es vital para el diseño y la evaluación de las políticas públicas en educación, empleo, justicia, protección social, sanidad y otras áreas. En palabras de Manuel Arellano, en la medida en que las nuevas tecnologías nos ofrecen la oportunidad de tener más y mejor evidencia, sería irresponsable desaprovecharla.

Arellano también menciona otro aspecto, lo que en física se denomina el efecto del observador o en ciencias sociales el efecto Hawthorne: la mera observación de un fenómeno puede cambiar el fenómeno observado. Cabe esperar que el análisis riguroso de los datos administrativos por los investigadores redunde en mejoras de la propia actividad de la administración pública. El acceso a estos datos implica un nuevo tipo de control sobre la calidad y la limpieza de las administraciones públicas y por ello una mejora de calidad de nuestra democracia. De hecho, esto podría suponer un obstáculo para que se facilite ese acceso.

España no cuenta con infraestructuras estables de acceso −ya sea de tipo remoto o en centros de acceso seguro− que permitan un análisis estadístico de datos administrativos acorde con las posibilidades tecnológicas de nuestro tiempo. Pero existe abundante experiencia internacional en la que apoyarnos para crearlas.

Algunos responsables del sector público que se han percatado de la necesidad de avanzar en este sentido. El Presidente de la Autoridad Independiente de Responsabilidad Fiscal (AIReF) destacó en un artículo reciente la importancia de desarrollar políticas basadas en la evidencia. Y manifestó su voluntad de abrir a la comunidad científica los datos que la AIReF ha obtenido para revisar el gasto en subvenciones de las administraciones públicas (Spending Review).

Por su parte, el Gobernador del Banco de España (BE) declaró la semana pasada en un discurso que el acceso de investigadores independientes a datos de alta calidad es necesario para avanzar en el conocimiento económico, señalando que cada vez más países están relajando los requisitos para acceder a datos administrativos y que España no debe quedarse atrás. Tras recordar que el BE ya proporciona los microdatos de algunas de las encuestas que realiza, se comprometió a ampliar la disponibilidad de los balances de las empresas no financieras y de algunos datos bancarios, y a esforzarse para que otras instituciones públicas se unan al BE en esta iniciativa.

La materialización de estas iniciativas sería muy útil para favorecer la investigación sobre asuntos clave. Y podría coadyuvar a iniciar el camino hacia lo que debe ser el objetivo final: el acceso de los investigadores a los datos administrativos de toda la población, con la estricta salvaguardia de su confidencialidad.


Fe de erratas. He corregido el porcentaje de cobertura de la muestra de declarantes del Impuesto sobre la Renta de las Personas Físicas que difunde el Instituto de Estudios Fiscales. En el texto decía que era del 4%, pero en realidad, según me han indicado desde el IEF, para el año 2015 (último año de MICRODATOS disponible), el total de declaraciones ha sido de 1.9480.423 y el tamaño de la muestra ha sido de 2.700.593, lo que supone exactamente un 13,86% del total. Para un análisis técnico de la muestra se puede consultar el documento de trabajo nº 4 del año 2018 del IEF. Muchas gracias al IEF por el aviso y mis disculpas a los lectores de NeG por el error.

Hay 4 comentarios
  • En el artículo se habla poco de los problemas de seguridad que supone disponer públicamente de datos de individuos. Sustituir el NIF por un código aleatorio es insuficiente. Hoy en día existen técnicas para identificar individuos por otros patrones existentes en los datos. Incluso sin identificar a nadie, este tipo de datos personales pueden ser delicados de tratar, y usarse maliciosamente. Debemos tener cuidado con lo que pedimos y cómo lo pedimos. Pero en líneas generales, estoy de acuerdo en que españa se beneficiaría de disponer más datos disponibles de los que tiene el gobierno.

    • Javier, menciono repetidamente el asunto de la confidencialidad porque en efecto es importante y no basta con reemplazar el NIF. A menudo se toman medidas adicionales, como agregar la ubicación geográfica para evitar la identificación u otras medidas similares. Estos problemas también los tienen otros países y han logrado superarlos.

      Por otra parte, un filtro importante es entregarlo a investigadores y no a empresas. Los investigadores se juegan su reputación si no custodian bien los datos. El objetivo de los investigadores es entender problemas y no identificar a personas. En todos los años en que se han estado proporcionando datos de la Muestra Continua de Vidas Laborales no me consta que haya habido filtraciones. Tampoco en datos de encuestas, como los de la EPA.

    • Javier, otra idea importante es la que apuntó Arellano en su charla, que consiste en ver este asunto como una custodia compartida entre las administraciones públicas y los investigadores. Nunca se puede garantizar la confidencialidad de forma absoluta, tampoco en la propia administración por cierto, pero se puede minimizar mucho el riesgo. Y el coste del riesgo residual compensa a mi juicio por los enormes beneficios que se derivan de una investigación mucho mejor sobre un gran número de problemas sociales y políticas públicas.

  • Muchas gracias por la entrada, Samuel. Parece que en estos últimos meses esta cuestión se está abriendo paso en el debate público. Ojalá no decaiga el impulso y sobre todo dé pie a cambios.

    Un argumento adicional para facilitar los datos administrativos es que podría contribuir al cambio cultural en la manera de trabajar de la administración en varios sentidos, como indicas en tu post. Primero, la rendición de cuentas sería mayor. Segundo, la gestión de los servicios y las políticas públicas podría mejorar más a través de los datos sobre el rendimiento pasado y apoyar las evaluaciones cualitativas. Tercero, la colaboración entre académicos y funcionarios aumentaría, con beneficios para ambos colectivos.

    El mero acceso a los datos administrativos no va a desencadenar por si solo todos los cambios organizativos que hacen falta en la administración española (la gestión de recursos humanos también debe cambiar, y debe potenciarse la formación cuantitativa de los funcionarios si de verdad queremos evidence-based policies), pero es un paso necesario. Gracias de nuevo por contribuir al debate

Los comentarios están cerrados.