Como Interpretar la Evidencia Empírica I

El viernes pasado, como respuesta a una entrada de Florentino, hubo una discusión sobre cómo las diferencias en desempleo entre comunidades autónomas indicaban sí había o no un efecto importante de la legislación laboral en la tasa de paro.

De la lectura de la discusión me ha venido la idea de escribir unas líneas sobre cómo se puede interpretar la evidencia empírica y qué se aprende de ella. La vida moderna está llena de situaciones en las que hay que emplear métodos estadísticos para dilucidar los efectos de ciertas políticas públicas. Las ideas básicas de cómo se infiere en estadística no son difíciles de entender. Pero dado que no se explican demasiado bien en nuestro sistema educativo, las mismas algunas veces no están claras entre el público general (y tristemente, ni en muchos economistas que han convertido la ignorancia de la econometría en medalla de distinción).

Para ello, voy a emplear un ejemplo distinto del de la tasa de paro, para que nadie se distraiga con temas colaterales, pero que ilustra los diferentes temas en cuestión (y para nuestros lectores econometras, donde voy a tener problemas de selección y endogeneidad a mogollón, por eso lo escojo, a todo llegaremos).

Imaginémonos que quiero entender qué explica la nota que sacan mis estudiantes de macro en su examen final (que pongamos va desde 0 hasta 10). Para ello, obtengo datos de su nota final, de la cantidad de horas que estudian, de su capacidad cognitiva (medida con un test estándar) y similares.

Entonces, postulo que la nota de un estudiante es una función de las horas de estudio (el “esfuerzo”), de su capacidad cognitiva (“lo listo que es”) y de factores que no especifico en detalle (la “suerte” que tuvieron en el examen, lo “bien” que se les da la macro, etc.)

Esta relación la puedo asumir muy general, sin imponer mucha estructura (esto se llama utilizar “métodos no paramétricos”) o mucho mas restrictiva, por ejemplo lineal (la nota es una función lineal de las horas de estudio, de la capacidad cognitiva y de la “suerte” como un error aleatorio). Ambas especificaciones tienen ventajas e inconvenientes. La primera me da más libertad, pues impongo menos cosas y por tanto me equivoco menos, pero al imponer menos también puedo decir menos cosas, al menos con una muestra como la de mis 70 estudiantes. La segunda impone más hipótesis (que pueden estar equivocadas), pero si acierto con ellas, aprendo mucho más deprisa de los datos. Como todo en la vida, nada es gratis, y esto también se aplica en estadística y en econometría.

Bueno, pues ahora voy y “estimo” el modelo, que no quiere decir nada más que busco los valores de la función (los “parámetros”) que satisfacen ciertos criterios (“mejor ajuste”, “máxima verosimilitud”, “moda de la distribución a posteriori”) que tienen sentido pero que no viene a cuenta explicarlos ahora.

Una vez que tengo el modelo estimado, puedo responder preguntas cómo, ¿cuál es el efecto de estudiar una hora más en la nota? ¿Y de tener un punto más en capacidad cognitiva en la nota?

Imaginémonos, por decir algo, que cada hora que se estudia de más, la nota sube 0.1 puntos y por cada punto de capacidad cognitiva, la nota sube 0.2 puntos.

De repente vemos como afirmaciones del estilo “las horas de estudio no importan porque Pepe, que estudió 10 horas, sacó mejor nota que Juan, que estudió 20” o “las horas de estudio no importan porque Juan y Pepe estudiaron los dos 20 horas y sacaron notas muy diferentes” no tienen mucho sentido.

En primer lugar, porque hay un componente aleatorio (que habíamos llamado “suerte” pero que puede ser muchas otras cosas, como la facilidad comparativa de Pepe y Juan por la macro). Uno debería demostrar, antes que nada, que aquellos estudiantes que estudiaron 10 horas, de manera sistemática, sacaron la misma o mejor nota que los que estudiaron 20. Una desviación arriba o debajo de una observación no demuestra nada. Tiene que haber un patrón regular en los datos.

Pero imaginémonos incluso que pudiésemos demostrar que los estudiantes que estudiaron 10 horas sacaron mejor nota de media. Aun nos queda la pregunta ¿Y cuál es su capacidad cognitiva? Si esta es mucho más alta, bien pudiera ser todavía que estudiar sea importante para la nota. Con la "estimación" que supuse antes: si los estudiantes que estudian solo 10 horas tienen seis puntos más de capacidad cognitiva de media, sacaran también de media mejor nota que los que estudiaron 20 horas pero tienen menos capacidad cognitiva (0.2* 6 puntos = 1.2 puntos marginales> 0.1* 10 horas = 1 punto marginal).

O en otras palabras, si los estudiantes que estudiaron 10 horas hubieran estudiado 20, habrían sacado incluso mejor nota (1 punto más de media) y si los que estudiaron 20 hubieran estudiado 10, estos habrían sacado incluso peor nota (1 punto menos de media). Lo que los métodos estadísticos modernos intentan encontrar es el efecto sistemático en la nota de estudiar una hora más una vez que controlamos por la capacidad cognitiva, y al revés, el efecto sistemático de la capacidad cognitiva una ve que controlamos por las horas de estudio.

Uno puede ver, y en general verá, una gran dispersión en notas incluso entre todos aquellos alumnos que estudian las mismas horas. Esto no debe ser empleado, sin más, para concluir que estudiar no importa. Hay que trabajar mucho más duro para demostrar que las horas de estudio no influyen en la nota.

Volvamos ahora a nuestra discusión de la tasa de desempleo. Cuando decimos que la tasa de desempleo de una comunidad autónoma depende de la legislación laboral, nunca negamos que esta tasa también dependa del nivel de demanda agregada (sí, la demanda agregada importa para el desempleo e importa mucho), de la estructura productiva de la misma, de su demografía, del nivel medio de educación de sus habitantes y de más cosas, incluida la suerte (por ejemplo, una comunidad tiene como actividad principal la producción de sardinas y de pronto se descubre que las sardinas producen cáncer y la demanda mundial de sardinas cae a cero, lo que deja en la calle de la noche a la mañana a muchísimos trabajadores).

Mientras que la legislación laboral es (básicamente) la misma entre Navarra y Andalucía (por coger dos comunidades abajo y arriba en la tasa de desempleo), todas las demás variables que mencionábamos anteriormente son diferentes y por tanto debemos esperar tasas de desempleo medias diferentes y respuestas del desempleo a las fluctuaciones cíclicas de la economía también diferentes. Por eso decir que la legislación laboral no importa para el desempleo porque Navarra tiene mucho menos desempleo que Andalucía es lo mismo que decir que estudiar no importa porque Pepe, que estudió menos horas, sacó mejor nota que Juan, que estudió mucho más.

La pregunta es “¿cuál sería la tasa de desempleo en Navarra con otra legislación laboral?” Bien pudiera ser que fuera la misma, que fuera más alta o que fuera más baja. Yo creo que la legislación laboral importa e importa un montón, pero quién sabe, lo mismo estoy equivocado, esto es investigación, no dogma, y no sería ni la primera ni la última vez que he tenido que cambiar de idea en la vida. Pero en realidad esto da lo mismo en este post. Mi mensaje es de pura lógica de lo que podemos o no inferir, no sobre si la legislación laboral importa o no (lo cual, por cierto, es difícil, porque al no haber variación entre comunidades reduce nuestra capacidad de identificación, pero esto es otro tema distinto). Construir un argumento contra el efecto de la legislación laboral sobre las diferencias de desempleo entre Andalucía y Navarra es sencillamente muy endeble.

Y como esto pasa en mil contextos. Uno no puede decir “los impuestos no importan, porque Suecia los tiene más altos que España y va como una moto” (típico ejemplo de lo que uno lee en Publico, por meterme con los de un lado) o “la política fiscal no tiene efecto porque mira en EE.UU. como el estimulo de Obama no ha sacado a la economía del pozo” (típico ejemplo de lo que uno lee en Libertad Digital, por meterme con los del otro). Tanto unos como otro ignoran que la pregunta de verdad es “¿cómo iría Suecia con impuestos más bajos?” o “¿cómo iría la economía americana sin estímulo?” Puede ser que la respuesta sea mejor, igual o peor. No es lo que estamos discutiendo aquí. Lo único que importa es darse cuenta que si un columnista hace estas afirmaciones de manera sistemática sin más cuidado es alguien que no es particularmente serio o, peor, no es honesto (o, si lo hizo solo una o dos veces, que no ha sido cuidadoso, que todos hemos pecado de ello alguna vez).

El lector atento tendrá, sin embargo, mil preguntas. La primera y más clara es: todo esto que has discutido documenta correlación, pero, ¿dónde está la causación? A fin de cuentas, los accidentes de tráfico correlacionan con la presencia de ambulancias pero la presencia de ambulancias no causa los accidentes de tráfico. Esto es particularmente relevante porque mi clase no es un experimento controlado como el que tendríamos en un laboratorio.

Otras preguntas, y sin hacer una lista completa, incluyen:

1) ¿pero son las horas de estudio y la capacidad cognitiva independientes la una de la otra? (en el caso de las comunidades autónomas, ¿es la estructura productiva independiente de la legislación laboral?)

2) ¿cómo puedo realmente controlar por todas las variables?

3) ¿Es la gente que coge macro similar a la que coge otras asignaturas?

4) ¿Es el efecto de estudiar una hora más el mismo cuando coges la clase conmigo que cuando la cogen con otro compañero del departamento que da la macro en el segundo semestre?

5) ¿Es el efecto de estudiar una hora más el mismo en Pepe que en Juan?

6) ¿Podemos medir las horas de estudio o la capacidad cognitiva?

7) ¿Y si nos dejamos alguna variable clave?

Y muchas otras más.

En próximas entregas intentaré explicar algunas de estas cuestiones.

Hay 17 comentarios
  • Francamente, en caso de tener unos cuantos años menos -muchos por desgracia- y estudiar economía, me gustaría que fueses mi profesor.
    Lo que dices salta a la vista y supongo -por lo menos yo sí- que todos lo tuvimos en cuenta; aparte que en uno de los comentarios ya lo explicaste con suficiente claridad.

    "Yo creo que la legislación laboral importa e importa un montón, pero quién sabe..."
    Sinceramente, yo también, pero quizá no tan montón. Creo, más bien, que los demás condicionantes también tienen que ver, y sin solucionarlos difícilmente se podrá exigir cambiar el mencionado. Pero, como bien dices, eso ahora no importa y espero las próximas entregas para aprender algo más y mejor.

  • Por seguir con lo de Navarra , Andalucia y la tasa de paro tan desigual: ¿No tendrá alguna relación con el "concierto económico" navarro y vasco? Si, ese que tanto desea ahora CIU para Cataluña

  • La variables que definen un modelo siempre suelen ser conocidas por todos ya que si no lo son podemos obtener ciertos absurdos como que el paro de Andalucía tiene una correlación positiva con la producción de bananos en cuba.

    Una vez encontradas esas variables coherentes, lo importante es como y cuanto influyen y ahí es donde la modelización entra con toda la artillería, para conocer las palancas reales y más efectivas de un proceso.

    De todas formas por mi experiencia cualquier buen gestor es capaz de informar cuales son las principales palancas de un negocio o proceso y de que manera influyen, aunque eso sí no con la precisión que nos da un modelo.

  • Imagino que los estudios que llamas no paramétricos son de tipo más cualitativo, con menor (¿aunque hasta qué punto?) intromisión del estudioso en la realidad que estudia -aunque estudiarla ya es entrometerse, la paradoja del observador. No hay estudio ateórico. La cuestión es que las variables que postules no sean meros constructos del investigador que pretendan pasar como estructuras o fenómenos reales.

    Por ejemplo, la capacidad cognitiva del alumno, ejemplo que tú pones. !En ella influyen tantos factores! Ayer a la salida del colegio (público y con gran tasa de paro en las familias) me encontré con una madre preocupada (ella limpiadora, el padre camionero) porque su delicioso (y tercer) hijo de 4 años "no aprendía los números". Intuyo que esa poca capacidad cognitiva se construye en parte en la propia escuela. El niño es curioso y juguetón, pero ahora se ha constituido en problema y lo mandan a la psicopedagoga a repetir "fichas" de números. Qué aburrimiento, y qué stress. Quizás los niños no deberían estar obligados a aprender números a los 4 años. En Suiza empiezan con la lecto-escritura a los siete (mis sobrinos son suizos). La inteligencia de los niños de 4 años se enfoca a otras cosas.

    Por tanto la supuesta menor capacidad cognitiva de este niño puede ser un constructo. Y sin contar con su background familiar, lleno de afecto, pero sin un libro en casa. Y tampoco contando con que la cognición es en sí multidimensional y no equivale completamente a lo que las escuelas consideran un niño "listo".

    Todo esto para decir que una variable puede ser en sí problemática y "loaded".

  • Qué bien explicas Jesús, como yo he sido uno de los implicados en el debate voy a tratar de explicar mi posición al hilo de tu post. Aunque estoy a favor de la reforma laboral no tengo claro que sea la variable exógena con el valor del parámetro más alto de todas las posibles que determinan la tasa de paro, por ejemplo es posible que la distribución de empleo por sectores (que comentaba Florentino en le post de ayer) tenga una beta más alta. En cualquier caso, como defendéis los editores del blog, aunque el efecto sea menor mejorará y, siguiendo el ejemplo, Navarra mantendrá su diferencial de tasa de paro respecto a Andalucía pero ambas comunidades tendrá una tasa menor. Lo comparto.

    Otra cosa es que hay lectores, que piensan que la normativa laboral actual también es variable exógena de otras variables y que aunque mueva algo la tasa de paro, el modificarla puede mover también otras variables con efectos claves en la economía. No me atrevo a poner ejemplos con las opiniones de otros, pero lo podemos poner con el de los estudiantes de Macro: igual tienen claro que cuanto más horas estudien mejores resultados tendrán, pero también saben que las horas que dediquen a esta asignatura no lo harán a Micro (que la imparte un profesor que explica mucho peor y hay que dedicarle más horas para la misma nota) o disminuirá su probabilidad de encontrar pareja o de entrenar en su deporte favorito con el que igual también se gana la vida…

  • Jesus "...Tanto unos como otro ignoran que la pregunta de verdad es..."
    Mayéutica, en este metodo la clave es saber formular las preguntas adecuadas.

  • Jesús, creo que lo que explicas está bastante claro y que una mayoría de los que respondieron antes lo tenían claro, aunque a lo mejor de lo que escribo a continuación se infiere que era yo el que no lo tenía claro. Esperaremos la continuación de este post y perdón por la imprudencia de escribir lo que pongo a continuación demasiado pronto. A mi me da como que la reacción al comentario de Edelmiro fue un poco exagerada ¿por qué tendremos todos la sensibilidad tan a flor de piel? Después de todo, la pregunta de Edelmiro (en la entrada de Florentino) es "¿por qué dicen que EL PROBLEMA es la reforma laboral?" (las mayúsculas son mías) y subrayo el artículo determinado EL. No se cuestiona que la reforma laboral sea necesaria; lo que se cuestiona es que la reforma laboral sea "EL" problema y no UNO de los problemas. Y a lo mejor eso está bien porque para algunos (que no soy yo, yo no me irrito ni cuando pierde el Barça) resulta irritante que se siga poniendo el acento en EL problema y no se hable de LOS OTROS problemas, malgastando toda nuestra artillería dilaléctica contra un único castillo, mientras que en castillos ajenos se yace con extraordinaria placidez. No quiero que se me malinterprete. Está bien que Euskadi consiga bajar del 11 al 4 en los malos tiempos, y todos tenemos que poner nuestro grano de arena para que eso sea posible y puede ser posible con una reforma laboral, pero estaría casi igual de bien que Andalucía fuese "Handalutzia" y bajase del 20 al 11 y ahí quizá la reforma laboral no es tan determinante y quizá incluso, si hay multicolinealidad en las variables, tocar la palanca X también mueve la palanca Y.

  • Muy interesante... aquí va mi pregunta:

    Yo afirmo que "A menor legislación laboral, más empleo (más gente con trabajo)". Entonces hago un "testeo empírico" econométrico que "refuta mi teoría" porque tengo más desempleo en el pueblo A que en el pueblo B, pero resulta que el pueblo A tiene menos regulaciones laborales que el pueblo B.

    Ahora bien, por lo que se expone en el post, la conclusión sería que más allá de ese estudio econométrico, la teoría no queda refutada... no?

    Entonces, ¿cuál es el rol del estudio econométrico?

    Saludos!

  • Gracias, Jesús, por la excelente entrada y por resaltar la importancia de analizar con rigor la evidencia empírica. El principal problema de muchos debates es que suelen ser que está muy ideologizados y, cuando no lo están, hay mucho bla,bla,blá y poco dato. Y la evidencia empírica es lo que permite refutar las teorías.

    Como tú mismo dices “Yo creo que que la legislación laboral importa e importa un montón, pero quién sabe, lo mismo estoy equivocado, esto es investigación, no dogma, y no sería ni la primera ni la última vez que he tenido que cambiar de idea en la vida" Pues eso, a ver si tenemos suerte y alguien realiza un análisis empírico de los determinantes del paro regional para ver cuánto importa realmente la legislación laboral

    El post es muy, muy clarito, pero quizás el ejemplo de las notas no sea el más sencillo posible (Creo que sería más fácil hablar de las exportaciones españolas como función de la actividad mundial y los precios relativos). Como eres consciente, el ejemplo de las notas es un campo de minas (no sólo econométrico) y, como algún lector se te despiste, puede haber bajas 🙂

    Espero las siguientes entradas de esta nueva serie

  • Muy clarificador el artículo

    Si me lo permitís voy a poner algunos ejemplos de correlaciones que pueden o no ser causaciones pero que están muy bien seleccionadas:

    a) Gráfico union membership rate vs share of middle-class income in USA. Probablemente no haya causación ( o mejor, hay causas comunes), pero la verdad es que lo parece...
    http://db.tt/tnrFj0vr

    b) Gráfico evolución de deuda USA y beneficios de su sector financiero. No debería tener que ver, pero....
    http://db.tt/UcUKAKD7

    c) El incremento de las prisiones privadas y el número de reclusos en USA, en particular cuando comenzaron a cotizar sus acciones. No debería haber causación, pero "algo" sucede con el incremento del número de presos alrededor de 1980:
    http://db.tt/BPbWxc6L

    Es que se pueden hacer correlaciones de "casi" todo

  • Bueno en el País Vasco hay muchas sociedades cooperativas en las que la legislación laoral tiene mucho menos peso. Estas cooperativas son muy fléxibles al afrontar crisis y es difícil que quiebren, muchos de ellas se han reducido los salarios entre un 5 y un 30 % sin contestación laboral.

  • Está muy claro, Jesús, y creo que es tan evidente que no se puede ni discutir. Sin embargo, el problema de los modelos econométricos (que es al final de lo que hablas) es que detrás de ellos suele haber una(s) hipótesis de alguien, que puede estar equivocada o acertada, y la clave está en que esa persona que construye el modelo sepa lo que se trae entre manos, no sólo desde el punto de vista matemático, sino económico. En el ejemplo que pones, quizás el autor del modelo ha obviado alguna variable que resulta esencial para comprender la evidencia empírica. Sin embargo, el modelo, incluso sin esa variable, le permitirá obtener conclusiones, que serán publicadas y probablemente muy citadas. Un ejemplo de ello es la cantidad de modelos macro que en nuestros días siguen sin contemplar aspectos financieros esenciales para comprender lo que ocurre: el modelo permite obtener conclusiones, pero probablemente éstas no permitan explicar la evidencia empírica. Así que lo importante es someter el modelo a todo tipo de contrastes para verificar que es capaz de replicar lo que ocurre en el mundo real, y no a tratar de adaptar éste a sus limitadas hipótesis, como habitualmente suele ocurrir.

    Espero que en la próxima entrada abordes estos importantes asuntos.

    Un saludo

  • Por reduccion al absurdo. Como toda la población de un país/comunidad/municipio tiene la misma legislacion laboral, entonces no podríamos ver situaciones en que hubiera personas empleadas y en paro. Todos los individuos tendrían que estar a la vez o en el paro o trabajando.

  • Estás en lo cierto. Lo mismo ocurre con las evaluaciones educativas PISA, aunque las pruebas utilizadas sean comparables, los sistemas educativos de los diferentes países no lo son, existen muchas variables que pueden influir en los resultados (dinero dedicado a educación, tipo de alumnado, etc.) y, por tanto, no pueden compararse.

  • Gracias por el post. Creo que lo que escribes pone de manifiesto la importancia de la capacidad crítica cuando leemos noticias económicas, analizamos datos, estudios, etc. A menudo olvidamos cuestionarnos afirmaciones sin fundamento y automáticamente las damos por buenas sin plantear realmente la lógica de lo que dicen. Afortunadamente, y este post es una muestra de ello, se puede aprender a criticar (con capacidad).

  • Gracias por la instrucción, señor F-V. Está bien que nos ilustre. El día 5 de nov, en El País, salía un artículo de opinión de Luis Martínez Noval en el que parecía no haberlo entendido...

    Aunque supongo que él se refería a que la variable que explicaría mejor las diferencias no son las instituciones laborales, sino a la estructura del empleo por actividades.

Los comentarios están cerrados.