Llevo una semana en Estocolmo, donde estoy trabajando en un estudio sobre restricciones financieras y mercado de trabajo que he comenzado Andrea Caggese y Daniel Metzger. El estudio utiliza varias bases de datos, pero la fuente principal de información son los datos sobre cotizaciones sociales en Suecia. En la entrada de hoy querría hacer una pequeña reflexión sobre sobre las ventajas que tendría mejorar calidad de los datos individuales de empleo que están disponibles para los investigadores en España. En particular, aquellos que permiten trabajar con la población completa de trabajadores. La entrada tiene mucha relación con esta entrada reciente que escribimos hace unos meses Miguel Almunia y yo sobre datos fiscales.
Los datos oficiales suecos, (y en general los datos nórdicos) sobre mercado de trabajo son particularmente buenos. La bondad de los datos no viene tanto por el hecho de que el estado recopile muchos más datos que en otros países, sino por el esfuerzo en cruzar diversas bases de datos y ponerlas a disposición de los investigadores. En el estudio que estamos realizando podemos utilizar datos cruzados de la seguridad social, censo de individuos, censo de establecimientos, notas de selectividad, tests psicotécnicos del servicio militar y las cuentas anuales depositadas por las empresas. Esto nos permite entre otras cosas seguir el historial laboral de un trabajador cuando es despedido, o abandona voluntariamente una empresa y relacionarlo con sus características personales, las condiciones financieras en las que operan las empresas en las que trabaja y las empresas de su entorno. Sobre los resultados del trabajo podemos hablar otro día. Hoy querría hablar sobre las ventajas que le reporta a un país como Suecia poner a disposición de los investigadores unos datos tan buenos y sobre cómo se organiza este acceso.
Para entender estas ventajas correctamente, hay que entender en qué condiciones se habilita el uso de los datos en Suecia. En primer lugar, como investigadores pagamos por los datos. Pagamos una cantidad nada despreciable que compensa con creces (de hecho yo diría que multiplica por varias veces) el coste de personal que le supone a Statistics Sweden permitirnos utilizar los datos. En otras palabras, al sistema nacional de estadística le reporta beneficios vendernos los datos. En segundo lugar, los datos están totalmente anonimizados. Como investigadores, no nos interesa lo más mínimo saber quién es quién en los datos, pero aunque quisiésemos, tendríamos serias dificultades para identificar a nadie. En tercer lugar, los datos nunca abandonan Statistics Sweden. Nosotros mandamos programas que funcionan remotamente en un servidor, pero nunca tocamos los datos ni estos salen de los servidores de Statistics Sweden. Los programas hay que “lanzarlos” desde un ordenador que pertenezca a un investigador autorizado basado en Suecia (de ahí mi visita y el título de la entrada). Los investigadores nunca ven los datos originales, solo gráficos y tablas. Ningún cálculo estadístico basado en menos de 50 observaciones.
No hace falta hacer muchos cálculos para entender que el negocio es redondo para Suecia como país. Estamos estudiando el mercado de trabajo sueco sin coste alguno para el contribuyente sueco y de hecho estamos financiando parcialmente su sistema nacional de estadística. Los políticos suecos, en general, si hacen caso de la evidencia empírica por lo que los resultados servirán a la hora de tomar decisiones de política económica. Gracias a los datos Suecos hemos podido estudiar efectos tan importantes y tan difíciles de medir como por ejemplo, la importancia en el orden de nacimiento de los hijos, la transmisión intergeneracional de la propensión a delinquir o muchísimos estudios sobre movilidad intergeneracional.
Esto contrasta con la situación de muchos países, entre ellos España, donde frecuentemente es un calvario encontrar buenos datos públicos. Especialmente cuando se trata de datos que cubran el total de la población, que son importantísimos para evitar problemas de representatividad de la muestra. El resto de la entrada lo dedicare a desmontar tres excusas y dos motivos inconfesables frecuentemente utilizados para justificar la ausencia de datos disponibles.
Excusa frecuente número uno. “En España los datos existentes no son muy buenos, esos datos no existen…”. Esto no es cierto, los datos que estamos utilizando para Suecia provienen de la seguridad social, el censo y el registro mercantil. Nada que no exista en España y que no se pueda cruzar mediante una simple correspondencia de dnis o nifs. Frecuentemente datos administrativos muy sencillos permiten un análisis en profundidad.
Excusa frecuente número dos. “No hay personal, no hay presupuesto”. De nuevo, una pobre excusa. Los sistemas nacionales de estadística nórdicos han conseguido generar beneficios por la vía de vender el uso de los datos.
Excusa frecuente número tres. “No los podemos dar por problemas de confidencialidad”. Tampoco es muy convincente. En primer lugar, a los investigadores no nos intereresan en absoluto los datos individuales. En segundo lugar, hay multitud de soluciones técnicas, sencillas y baratas para garantizar la confidencialidad de los datos.
A estas excusas frecuentes hay que añadir dos motivos inconfesables.
Motivo inconfesable número uno. “No nos interesa dar los datos porque perdemos el control de los estudios que se hacen con ellos”. Esta visión de los datos como algo que se puede utilizar con motivos políticos es lamentable. Ahora enseño los datos ahora no, o los cocino a mi gusto sin dar oportunidad de réplica, son actitudes por desgracia familiares en nuestro entorno.
Motivo inconfesable número dos. “Tenemos un chiringuito montado en el que los estudios los hacemos nosotros”. Ejercer un cierto celo a la hora de compartir datos que uno se ha trabajado o ha generado es comprensible y hasta cierto punto un buen incentivo para crear bases de datos. Compartir datos privados con la comunidad académica es deseable, pero no es en ningún caso una obligación, Sin embargo, cuando se trata de datos administrativos el propietario de los datos es la administración, y no el funcionario que los gestiona.
En definitiva, no nos cansaremos de repetirlo. Necesitamos dar mejor acceso a los investigadores a los datos administrativos existentes. Los beneficios potenciales son muy altos y los costes muy bajos.
Hay 6 comentarios
Buena descripción de una experiencia sueca que puede ser muy enriquecedora. Yo veo una gran ventaja política. Cruzando el mayor número posible de datos podemos obtener una buena base de datos para hacer estimaciones de los propios datos proporcionados por la estadística oficial para conjuntos de individuos en un momento del tiempo en función de un conjunto de variables. Las desviaciones entre el valor que se estima, en base a la teoría y los otros datos proporcionados por la oficina estadística, y el dato ofrecido por la oficina estadística pueden deberse a causas previstas en el modelo econométrico, como las perturbaciones aleatorias, pero puede haber otras causas. Una causa podría ser que el dato ofrecido por la Administración no es correcto, lo que contribuiría a mejorar el control de calidad de la oficina estadística y la propia transparencia (porque podría ser una medida contra los posibles intentos de manipulación). Otro caso en que la desviación entre el dato oficial y el estimado podría ser muy útil es en el caso de que la desviación se corresponda a comportamientos irregulares en ese conjunto de individuos que se escapan a los datos de los que se dispone. Podría ser una señal de alarma de que hay un ámbito específico que sea propicio para la corrupción.
Un cordial saludo.
Yo creo que se te olvida un motivo inconfesable importante: si damos los datos se puede detectar que contienen errores y podríamos sufrir críticas.
Amén a todo, con el matiz introducido por Fulano
Muy interesante Vicente! Buena entrada!
Y buena aportación de Fulano.
Hagamos que en Economía sea obligatorio hacer públicos los datos utilizados para artículos de investigación publicados y se acabó el "motivo inconfesable número dos", así como las sospechas de no replicabilidad de muchos estudios.
Hola, quizás suene medio raro pero en Catalunya una de las cosas que está impulsando el Idescat es justamente esto. Por un lado la integración de los datos de registros y por el otro lado poder ponerla a disposición de los investigadores. Los recursos no sobran y por lo tanto esto tarda mucho más de lo ideal, cierto. Además, como mucho de los datos son del INE o de Seguridad Social, que muy amablemente los ceden al Idescat, tampoco es tan directo el uso que se pueden hacer de estos datos. Pero creo que es un modelo a seguir en el resto del estado.
Los comentarios están cerrados.