Una buena noticia: los datos de salarios de la EPA sí están disponibles

logoine2Querido Sr. INE, le pido disculpas. En mi entrada anterior cometí un error. Dije que no se podían hacer estimaciones con datos individuales de salarios de la Encuesta de Población Activa (EPA) porque no estaban disponibles y le/me pregunté por qué. Un par de colegas me han sacado del error.

Los datos individuales de salarios en la EPA sí están disponibles. Estrictamente hablando no son datos como los demás de la EPA, es decir, declarados por los encuestados, sino imputaciones a partir de una explotación estadística de los registros de la Seguridad Social y de las agencias tributarias. A mi juicio esto reduce su validez, pero el INE ha decidido hacerlo así (entiendo que para no preguntar por los salarios en la EPA), a diferencia de otros institutos nacionales de estadística. En todo caso, en comparación con la situación previa, es una buena nueva que el INE haya decidido hacer accesibles estos datos.

No obstante, quiero matizar la bondad de la noticia por dos razones. Primero, porque los datos no se pueden descargar directamente de la página web del INE, si bien los investigadores sí los pueden solicitar y obtener. No obstante, aunque lo he buscado en la página web del INE, no he encontrado dónde se informa expresamente de la disponibilidad de estos datos en particular. En la sección de Microdatos de la EPA, dice al pie:

Los ficheros de microdatos incluidos en este apartado para su descarga gratuita tienen anonimizadas sus variables de forma estándar. En caso de que la información de los mismos no sea suficiente, los usuarios pueden solicitar un fichero anonimizado con mayor desglose en alguna de las variables. Cuando esta desagregación sea posible, se facturará un cargo económico derivado del tiempo de estudio y programación; será necesaria, además, la firma de las pertinentes condiciones de uso.

No interpreté que esto se aplicara a los datos salariales, que hasta hace poco no estaban disponibles. Tampoco sé por qué estos datos se tienen que cobrar y otros no, sospecho que la restricción viene más bien por el lado de "la firma de las pertinentes condiciones de uso", pues aparentemente la información sobre salarios es más sensible que otras. En fin, aunque me haya equivocado, no hay mal que por bien no venga, pues al menos esto me da pie para publicitar que los datos se pueden conseguir del INE.

La segunda matización proviene de que la información individual que se proporciona junto con los datos salariales es más limitada que la disponible en los microdatos estándar de la EPA. Por un lado, muchas variables se han suprimido, entre ellas algunas cruciales como la comunidad autónoma. Es decir, que si queremos ver hasta qué punto la variación temporal de los salarios se debe a cambios de composición de los empleados, estaremos limitados por no poder observar dimensiones como la geográfica.

Por otro lado, algunas variables que sí se proporcionan están agregadas por tramos. Por ejemplo, Pedro Hernández decía en un comentario a la citada entrada que, a diferencia de los datos por deciles de salarios de la EPA, en la Encuesta de Estructura Salarial (EES) no se observa un aumento de la desigualdad durante la crisis si el salario se mide por hora en vez de por mes o año. Pues bien, en los datos de salarios de la EPA las horas de trabajo se proporcionan por tramos (de 1 a 10 horas semanales, de 10 a 20 horas semanales, etc.), así que en realidad no se puede calcular el salario por hora, salvo haciendo algún supuesto heroico sobre el valor medio en cada intervalo (lo que podría llevar a errores de medida elevados). Por tanto, no se puede saber si la EPA confirma lo que indica la EES en relación con la desigualdad. Tampoco se puede saber realmente si los reducidos salarios mensuales de los empleados a tiempo parcial que mostraba en mi entrada se deben solo al menor número de horas trabajadas o también a que cobran un menor salario por hora que los empleados a tiempo completo.

En fin, Sr. INE, que muchas gracias, son muy bienvenidos los nuevos datos, pero mejor si en el futuro nos los da completos.

Hay 5 comentarios
    • Sigo. Es muy llamativa la diferencia en el comportamiento por deciles entre el salario diario y el salario diario equivalente a tiempo completo. Debe estar detrás por tanto la jornada a tiempo parcial.

      Y, de paso, gracias por avisarme de la disponibilidad de los datos.

  • ¿Por qué crees que es menos válida la información de salarios obtenida de registros administrativos que de las respuestas en una encuesta? Yo, a priori, opino al revés.

    De hecho, en la ECV también se usan registros administrativos para los ingresos desde hace algunos años. Y las diferencias entre ambas fuentes no eran pocas: Más de 2.071€ en media, sobre le 10% de desviación (ver página 9, http://www.ine.es/ss/Satellite?L=0&c=INEDocTrabajo_C&cid=1259944417750&p=1254735839320&pagename=MetodologiaYEstandares%2FINELayout ).

    Gracias y un saludo!

    • Raül, es una muy buena pregunta. En ambas fuentes hay error de medida. En la respuesta directa en la EPA puede haber infladeclaración y redondeo, lo que se puede mitigar pidiendo a la persona que responda con la(s) nómina(s) a mano (y seguramente con alguna pregunta adicional sobre la posible irregularidad de los salarios a lo largo del año). Por otra parte, ninguna de las fuentes administrativas recoge la variable de salario deseada. El propio INE reconoce estas limitaciones (p. 11 del documento enlazado en la entrada), tanto en los datos de la Seguridad Social (topes máximos y mínimos, colectivos no cubiertos, horas extraordinarias) como en los fiscales. En realidad es una imputación y por ello hay un error que debería llevar a proporcionar varios valores imputados por persona (como se hace en la Encuesta Financiera de las Familias, que da 5 valores, aquí). Tiendo a pensar que si se hace bien el valor de la pregunta directa sería mejor, pero es una cuestión empírica.

Los comentarios están cerrados.