El problema con los programas piloto de la semana laboral de cuatro días

Por Hugo Cuello

La idea de una semana laboral de cuatro días, o la reducción de las horas de trabajo por el mismo salario, ha ganado mucha atención a nivel mundial y se ha vuelto cada vez más popular. Varias investigaciones han indicado que la reducción de las horas de trabajo puede tener impactos positivos en el bienestar, el empleo, la economía y la productividad, pero también que presenta desafíos y no es adecuada para todo tipo de negocios.

En los últimos años se ha desarrollado una nueva ola de programas piloto a pequeña escala que supuestamente ofrecen mejor comprensión del concepto en el terreno. Sin embargo, para que ofrezcan información creíble y valiosa, los pilotos deben estar bien diseñados, implementados y evaluados. Con el objetivo de estudiarlos en detalle, recientemente He redactado un informe publicado esta semana para el Joint Research Centre de la Comisión Europea, enfocado en investigar detalladamente sus resultados, alcance y limitaciones.

Es importante mencionar que el objetivo del informe no es cuestionar la validez de la semana laboral de cuatro días, sino analizar las características cuantitativas de los proyectos piloto, sus indicadores de impacto y los principales problemas metodológicos, proporcionando información para que futuros pilotos mejoren el conocimiento en el campo.

Utilizando algunos de los más recientes y destacados como casos de estudio (los pilotos publicados en 2022 del 4 Day Week Global en Irlanda y Estados Unidos, los de Islandia de 2015 y 2017 y el de la neozelandesa Perpetual Guardian en 2018) he podido investigar más a fondo sus principales características y reconocer las limitaciones que afectan a la validez de sus resultados, que resumo a continuación.

1. Un deficiente análisis causal del impacto del programa

El principal problema de los pilotos es que no incluyen ningún análisis experimental o cuasi-experimental que permita medir el impacto causal del programa. En su gran mayoría, los que involucran al sector privado utilizaron comparaciones antes y después (pre-post) de introducir la intervención. Como bien saben los lectores asiduos de este blog, establecer causalidad es un gran desafío en la investigación en ciencias sociales y requiere la creación de un contrafactual válido.

Este enfoque tan débil de medir causalidad ha llevado a que cambios no relacionados con el impacto del programa puedan estar incluidos erróneamente como parte del efecto de la semana laboral de cuatro días. Por ejemplo, como se ilustra en el gráfico con datos de Perpetual Guardian, las variables observadas aumentaron significativamente durante los cuatro meses previos al inicio del piloto, desde noviembre de 2017 hasta febrero de 2018, justo antes de introducir el programa.

El autor del informe lo justificó sugiriendo que el impacto positivo del programa se podía observar incluso antes de su puesta en marcha, porque los empleados ya eran conscientes del cambio que les venía. Sin embargo, es muy poco probable que solo con un cambio en las percepciones algunos indicadores, como la conciliación entre vida laboral y familiar, aumentaran más cuando aún trabajaban cinco días que cuando pasaron a trabajar cuatro.

En realidad, este inusual escenario apunta a que otros factores externos al piloto fueron capturados en el análisis. Por ejemplo, durante esos meses previos al piloto, la recién elegida Primera Ministra de Nueva Zelanda, Jacinta Ardern, anunció una subida del salario mínimo y un cambio sustancial en la Ley de Relaciones Laborales que fortalecería los derechos de negociación colectiva para los trabajadores. Esto pudo aumentar el empoderamiento de los trabajadores y haber sido capturado en las encuestas, pero nada tiene que ver con la semana laboral de cuatro días. Como este, muchos otros factores pudieron influir en el análisis, sesgando los resultados.

Por su parte, los pilotos que se realizaron dentro del sector público sí hicieron un mayor esfuerzo en incluir un contrafactual más elaborado. Por ejemplo, en Suecia e Islandia se eligieron algunos centros públicos de trabajo, como enfermerías o centros de día que no introdujeron la reducción de jornada, actuando como grupo de comparación. Sin embargo, los tamaños de las muestras eran muy pequeños, los grupos de comparación no fueron seleccionados aleatoriamente ni se introdujo ningún tipo de estrategia cuasi-experimental para medir los impactos.

En otras palabras, los grupos eran significativamente diferentes entre sí, tanto en características observables como en no observables. Como resultado, la comparación se ve sesgada debido a estas diferencias preexistentes. Por ejemplo, en los centros de trabajo públicos incluidos en el grupo de tratamiento podía haber empleados más motivados, con mayor compromiso de equipo y mejores sistemas de gestión, que los haría más propensos a informar resultados positivos.

2. Falta de profundidad en el estudio e información reportada

Los pilotos también tienen otros problemas en cuestiones de datos y transparencia. En realidad, sólo unos pocos ofrecen información contrastable y ninguno ha sido publicado en una revista académica, por lo que no han estado sujetos a los mismos estándares de rigurosidad que se exige en publicaciones científicas.

En algunos casos se echa en falta la información estadística más básica, incluyendo si el resultado es estadísticamente significativo o no. Es decir, si el resultado es causa de un error por variaciones aleatorias de la muestra. También falta información que cualquier investigador riguroso consideraría esencial, como tablas de comparación en la línea de base, tests de robustez o tests de sensibilidad.

Como ningún proyecto presentó públicamente un plan previo de análisis antes de lanzar el piloto, no sabemos si los indicadores que reportaron son todos los que tenían pensado utilizar en un principio o sólo se quedaron con aquellos que mostraron efectos deseados. Al analizar demasiados indicadores, la probabilidad de encontrar resultados positivos por casualidad es alta.

Por otro lado, los pilotos se basan principalmente en encuestas, concentrándose en las percepciones de los empleados, que son muy vulnerables a sesgos y errores de informe. Algunas preguntas utilizan enfoques retrospectivos (poco recomendables en la elaboración de encuestas) para medir productividad o satisfacción en el trabajo, pidiendo al empleado que recuerde el ritmo de trabajo antes del piloto y lo compare con el de después. Algunas de las preguntas reportadas ni siquiera son pertinentes para medir lo que supuestamente tratan de observar.

Falta un amplio acceso a datos administrativos que proporcionen una imagen más completa. En aquellos donde han sido incluidos, por ejemplo con datos de productividad o empleo, las muestras son demasiado pequeñas porque cerca de la mitad de empresas no compartieron la información. Las muestras de las encuestas tampoco son particularmente grandes y se ven aún más reducidas por bajos niveles de adopción y cumplimiento. Por ejemplo, en el piloto de Perpetual Guardian, de los 240 empleados solo acabaron respondiendo a las encuestas el 50% de ellos.

Sin embargo, ningún piloto ha explicado las razones de estas ausencias. Esto no solo limita significativamente la validez estadística del análisis, sino que puede indicar un sesgo de muestreo donde solo contestaron aquellos más beneficiados por la semana laboral de cuatro días. Así ha ocurrido con las empresas que abandonaron el piloto en Reino Unido y solo sabemos de ellas gracias a las declaraciones que ofrecieron a medios británicos.

3. Falta de referencias para escalar el programa

Ni las empresas participantes ni sus trabajadores son una representación completa del tejido empresarial del país. Por ejemplo, en los pilotos del 4 Day Week Global, las empresas participantes provienen principalmente de IT, telecomunicaciones y servicios profesionales. Además, tienden a estar mucho más convencidas, motivadas y abiertas al cambio, lo que hace que probablemente ya estuvieran en una senda de crecimiento.

En realidad, los pilotos están siendo desarrollados por empresas más o menos comprometidas con la causa. Esto es lógico, desde el momento que deciden participar voluntariamente. Saber qué funciona para ese grupo tan específico puede aportar valor, pero nos dice muy poco sobre las posibilidades de escalar la política a nivel nacional: Que les funcione a ellas no significa que vaya a funcionar para las demás. Tampoco nos informa sobre posibles efectos heterogéneos ni sobre el efecto en otros sectores, tamaños o modos de gestión.

Por último, los pilotos tampoco ofrecen información sobre los costes reales de la intervención. Las empresas pasaron meses recibiendo entrenamiento y mentorías para introducir la semana laboral de cuatro días. Todos estos apoyos tienen costes, además de en los que incurre la empresa para cambiar sus sistemas internos.

Sin esta información, es imposible conocer la rentabilidad real del programa para saber si es viable escalarla y comparar su coste-beneficio en contraposición a otras políticas de conciliación familiar, como fomentar el teletrabajo o dar más acceso a excedencias.

En conclusión, faltan pilotos que aporten información valiosa

Hay muchas variables que pueden influir en la posibilidad de éxito de la semana laboral de cuatro días, desde el liderazgo empresarial hasta las condiciones del mercado. Sin embargo, los pilotos no ofrecen información valiosa que nos permita saber cuáles son esas claves. En realidad, parecen haber estado diseñados con el objetivo de convencer, no de explicar.

El problema es que, desde un punto de vista empírico, su diseño es tan deficiente que los resultados no son creíbles. A no ser que uno le ponga muchas ganas. Pero como decía Tyrion Lannister en Juego de Tronos, “jamás se debe creer en algo solo por querer creerlo”.

Con todo, los primeros pilotos ofrecieron algo de valor, especialmente sobre el proceso de implementación y en señalar la dirección de algunos efectos, especialmente gracias al trabajo cualitativo. Pero una vez ha quedado establecido, seguir ejecutando pilotos así sería contraproducente y un malgasto de dinero: Dejarían sin resolver las preguntas aún abiertas sobre la semana laboral de cuatro días.

En España estamos cayendo en el mismo problema, tanto a nivel nacional como regional. El Ministerio de Industria aparcó su proyecto piloto durante meses, redujo su presupuesto y se apresuró a lanzarlo recientemente con un plan muy cuestionable: Ofrecer hasta €200.000 a 50 o 60 pymes industriales que quieran implementar la semana laboral de cuatro días. Sin grupo de control, ni muestras significativas ni representativas. El Ministerio tenía los recursos, el tiempo y la oportunidad de haber diseñado un experimento mucho más riguroso. Pero no era su prioridad y ahora está por ver si los 10 millones de euros que costará el piloto aportarán valor añadido.

Personalmente, creo que la semana laboral de cuatro días es una idea que merece la pena seguir investigando ya que podría brindar soluciones innovadoras a desafíos existentes. Sin embargo, aún queda mucho para saber hasta qué punto es viable. Si somos honestos, tardaremos años (y muchos experimentos) en obtener evidencia sólida sobre los impactos reales.

Por su parte, para que futuros pilotos sean útiles y puedan tomarse en serio, tienen que dejar de ser una herramienta de propaganda orquestada por los ya convencidos y convertirse en un instrumento de aprendizaje real. Es necesario que mejoren el diseño, aumenten la transparencia y la calidad, además de cambiar el enfoque: Dejar de preguntarse si funciona o no y empezar a preguntarse para quién, bajo qué condiciones y en qué contextos funciona mejor. Existen suficientes investigadores y recursos para hacer experimentos más rigurosos, pero es necesario que sus promotores abandonen la autocomplacencia y enfoquen la investigación de la manera más científica posible.

Hay 1 comentarios

Juan dice:

26/04/2023 a las 17:40

A mi me parece que esto nos lleva a un mercado laboral dual, los trabajos que puedan ser de 32 horas (ya de por sí mejor pagados) versus los que no.
Los que proponen esto hablan de productividad cuando muchas actividades son presencialistas: conserjes, policías, turnos de enfermería, etc, y estas propuestas 32 horas com mismo salario obligarían a un sobrecoste laboral de un 25% que de entrada las AAPP no se pueden permitir y muchas actividades privadas (seguridad) que dependen de contratos públicos tampoco.

Si es cierto que hay un productividad mayor en general esta debería "gastarse" en tratar de no prolongar la edad de retiro al mismo tiempo que la esperanza de vida crece