Sexo, belleza y poder (estadístico)

Así se titula un estupendo artículo de Andrew Gelman y David Weakliem cuya lectura recomiendo encarecidamente a cualquiera que tenga interés por la investigación empírica en ciencias sociales (inglés/castellano). Como en otras ocasiones, Gelman y Weakliem ponen en evidencia la carencia de conocimientos estadísticos de muchos científicos sociales. En este caso tratan dos temas claves que, desafortunadamente, no figuran normalmente en los cursos de Econometría: la significatividad de los coeficientes en un contexto de regresiones múltiples y la dificultad de aprender acerca de la realidad a partir de muestras relativamente pequeñas. Gelman y Weakliem ilustran estos problemas utilizando como ejemplo un artículo de Satoshi Kanazawa, experto en psicología evolutiva de la London School of Economics. Partiendo de la hipótesis de Trivers-Willard, según la cual la probabilidad de tener un hijo varón o una hija puede variar en función de qué opción conlleva una mayor descendencia futura, Kanazawa sugiere que los padres atractivos tienen una mayor probabilidad de tener hijas porque, sostiene, la belleza aumenta en mayor medida el éxito reproductivo de las mujeres que de los varones.

Para contrastar esta tesis, Kanazawa utilizó una base de datos donde era posible observar una medida de la belleza de 3,000 individuos, clasificados en 5 grupos por un entrevistador (de mayor a menor belleza), así como información acerca del sexo de sus hijos. Kanazawa muestra que el 52% de los hijos de los individuos que han sido clasificados en el grupo de mayor belleza son de sexo femenino, comparado con únicamente un 44% entre aquellos individuos que han sido asignados a alguno de los cuatros grupos de menor belleza. Esta diferencia sería estadísticamente significativa al 5%, lo que seguramente contribuyó a que el artículo fuera publicado en el Journal of Theoretical Biology y también a que fuera citado repetidamente por la prensa (incluyendo la española).

En realidad, como muestran Gelman y Weakliem, Kanazawa no calcula de manera correcta los errores estándar, porque no tiene en cuenta que está presentando solamente una de las múltiples comparaciones que podría haber realizado (y seguramente realizó). Además de comparar el grupo más atractivo con los cuatro menos atractivos, podría haber comparado (i) los dos más atractivos con los tres menos atractivos, (ii) los tres más atractivos con los dos menos atractivos o (iii) los cuatro más atractivos con el grupo menos atractivo. No hay ninguna teoría que a priori indique cual de estas comparaciones es más adecuada. El problema es que cuando corremos múltiples regresiones aumenta la posibilidad de que encontremos resultados estadísticamente significativos por pura casualidad. Por ejemplo, si realizamos diez estudios estadísticos independientes, cada uno en un pueblo distinto, acerca de la posibilidad de que los humanos tengan percepción extrasensorial, tenemos cerca del 40% de posibilidades de encontrar, con un grado de confianza del 95%, un pueblo cuya población tiene poderes extrasensoriales (¡y de hecho no seríamos los primeros, aunque me temo que estos resultados no han podido ser replicados!). Por lo tanto, es necesario ajustar los errores estándar por el número de tests realizados o, alternativamente, utilizar un único test que tenga en cuenta todas estas posibles comparaciones. Por ejemplo, Gelman y Weakliem proponen normalizar la variable belleza de forma que tenga media cero y desviación estándar un medio. En este caso, el coeficiente que se obtiene al regresar la proporción de hijas respecto a la belleza (normalizada) de los padres es igual a 4.7% con un error estándar de 4.3%.  Con un intervalo de confianza del 95%, el efecto real está entre -3.9% y +13.3%, lo que supone que no podemos rechazar la posibilidad de que en realidad no haya ninguna relación entre ambas variables. (Es decir, si usted tiene hijos varones no tiene por qué preocuparse, no es cierto que tenga una mayor probabilidad de ser feo 🙂 )

Ahora bien, más allá de este error técnico en el cálculo de los errores estándar, también merece la pena analizar por qué a partir de un estudio como el de Kanazawa, con un tamaño muestral relativamente pequeño, es muy difícil aprender gran cosa acerca de la posible relación entre la belleza de los padres y el sexo de los hijos. En primer lugar, conviene preguntarse cómo de grande sería, en caso de existir, dicha relación. La literatura que ha analizado los determinantes del sexo de los hijos utilizando “big data” muestra que factores como la raza, la edad de los padres, fecha de nacimiento, estatus de la pareja, peso de la madre, etc. pueden tener un efecto de entre 0.3% y un 2%, siendo este efecto especialmente grande durante una hambruna (la explicación es que los fetos varones tienen menos probabilidad de supervivencia en situaciones extremas). Gelman y Weakliem concluyen que, en el caso de la belleza, en un contexto económico normal, si existe algún impacto sobre el sexo de los hijos, cabe esperar que este efecto no sea mayor a un 1%.

¿Qué ocurre cuando intentamos detectar un efecto cuya magnitud podría estar entre un 0 y un 1% utilizando una muestra de tamaño relativamente escaso (con un error estándar igual a 4.3%)? Consideremos dos posibles escenarios. En primer lugar, imaginemos que, en realidad, la probabilidad de tener una hija fuera un 0.3% mayor entre los padres más atractivos. Utilizando una muestra como la de Kanazawa, con un error estándar del 4.3%, solamente existe una probabilidad del 3% de que el coeficiente estimado sea positivo y estadísticamente significativo. Además, únicamente serían significativos coeficientes exageradamente grandes, superiores al 8.4%. Por otro lado, cabe la posibilidad, con una probabilidad del 2%, de que observemos en la muestra un efecto significativo de signo negativo que, naturalmente, también tendría una magnitud desmesurada, inferior a -8.4%. Es decir, si encontramos un coeficiente significativo este será de una magnitud absurdamente grande (error de tipo M) y, con una probabilidad del 40%, el coeficiente tendría incluso el signo contrario al real (en la jerga de Gelman y Tuerlinckx 2000, error de tipo S). En segundo lugar, consideremos un escenario en el que, en realidad, los padres atractivos tienen una probabilidad un 1% mayor de tener una hija. En este caso el econometra que realice un estudio con una muestra de tamaño similar a la de Kanazawa tiene una probabilidad de un 4% de obtener un coeficiente positivo significativamente distinto de cero. Además, con una probabilidad del 1% obtendría resultados significativos de signo negativo. De nuevo, la magnitud de los errores de tipo M y de tipo S es preocupante: en caso de ser significativos, los coeficientes serían exageradamente grandes, unas 10 veces superior a su tamaño real y existiría una probabilidad relativamente alta (un 20%) de que el coeficiente estimado sea del signo contrario al correcto. En resumen, cuando el tamaño muestral es relativamente pequeño en relación al tamaño del efecto que intentamos detectar, si obtenemos resultados estadísticamente significativos es muy probable que estos sean desinformativos: demasiado grandes en términos de magnitud y, a menudo, con un signo contrario al efecto real. Esto es particularmente peligroso en un contexto académico en el que únicamente los estudios con efectos significativos se publican.

¿Qué se puede hacer para evitar estos problemas? En primer lugar, quizás sería útil que al diseñar un estudio los investigadores, de manera más o menos explícita, adoptemos un enfoque más bayesiano. Tanto a la hora de diseñar el estudio como a la hora de interpretar los resultados, además de pensar en términos de errores de tipo I (falsos positivos) y de tipo II (falsos negativos), podríamos incorporar a nuestro análisis el concepto de error de tipo M y error de tipo S. Esto exige cierto conocimiento acerca de nuestro grado de ignorancia, quizás basado en algún meta-análisis o guiados por la teoría. Nuestro cálculo de la distribución posterior dará un peso relativamente pequeño a señales que sean poco informativas. Naturalmente, esto podría resultar frustrante en algunas ocasiones, porque incluso con resultados muy “significativos”, no se podrá concluir que existe realmente un efecto, pero ayudaría a eliminar gran parte del ruido que enturbia hoy en día las ciencias sociales. En segundo lugar, en algunas ocasiones deberíamos hacer un mayor esfuerzo en recopilar fuentes de datos adicionales, que permitan refutar o confirmar los resultados sugestivos que podamos haber encontrado inicialmente. Por último, el cálculo de los errores estándar debería reflejar todas las posibles regresiones que hemos contemplado, especialmente cuando no existe una teoría clara que oriente el análisis. De lo contrario, si no somos más prudentes al interpretar la evidencia empírica, corremos el riesgo de que, como ocurriera en la fábula del lobo y el pastorcito, la sociedad se acabe cansando de escuchar noticias sobre resultados absurdos obtenidos por estudios supuestamente científicos y, finalmente, deje de confiar en el valor del trabajo académico.

Fe de erratas (i) (29-9-2014, 13:25): En la versión original del artículo por error se indicaba que "Kanazawa muestra que el 52% de los hijos de los individuos que han sido clasificados en el grupo de mayor belleza son varones", cuando en realidad "Kanazawa muestra que el 52% de los hijos de los individuos que han sido clasificados en el grupo de mayor belleza son de sexo femenino"

Fe de erratas (ii) (29-9-2014, 18:05): La versión original del artículo omitía a uno de los coautores, David Weakliem. Se ha corregido esta omisión.

 

Hay 53 comentarios
  • Una cuestión relevante. Opino que el motor de la investigación empírica debe ser la teoría y mucho más cuando se pretende explicar al público general, que necesitará conocer de una manera sencilla e intuitiva el por qué de la correlación, en qué dirección va la causalidad y qué implicaciones tienen los hallazgos realizados. La teoría puede ser muy útil en esa labor. Por otro lado, los medios de hoy han variado mucho con respecto a los de décadas atrás. En una noticia impresa o que llegue a través de la radio o la televisión tradicionales, no se pueden colocar enlaces, pero en las noticias digitales de hoy se debería colocar un enlace al artículo original, cuando este fuese de acceso libre, que sería lo deseable. Ayudaría a que los lectores con algún mayor conocimiento puedan hacer una crítica enriquecedora de la noticia. Y en los artículos originales debe incluirse siempre un anexo econométrico detallado. Por poner un ejemplo, si se hace una regresión por mínimos cuadrados no nos basta conocer si las estimaciones de los parámetros son estadísticamente significativas, necesitamos saber más, por ejemplo si los residuos son ruido blanco. De este modo se puede combinar la sencillez de la exposición de la noticia, con una análisis econométrico exigente como anexo que no entorpece la lectura de la noticia y que refuerza su credibilidad y la del artículo original.

    Reciba un cordial saludo.

    • Gonzalo,

      Totalmente de acuerdo, la teoría es imprescindible. Los problemas a menudo surgen cuando no disponemos de un marco teórico sólido que guíe nuestro análisis empírico. Kanazawa propone una posible hipótesis pero, como señala Gelman, es fácil utilizar el mismo marco teórico (pseudo-psicología evolutiva) para argumentar exactamente lo contrario. Por ejemplo, alguien podría argumentar que la belleza tiende a estar asociada con una mejor salud, renta, y pertenencia al grupo étnico dominante. Estos rasgos a su vez facilitan el acceso al poder lo que, quizás, resulta más provechoso en términos de una mayor descendencia futura para los varones. Según esta lógica cabría esperar que la gente atractiva tenga más hijos varones (en lugar de lo contrario).
      En palabras de Gelman, este tipo de hipótesis en lugar de ser empíricas son "vampíricas", porque son teorías tan flexibles que es imposible "matarlas" con evidencia empírica.

  • Taking the con out of Econometrics, a sisyphean task.

    En cuanto al segundo --- o sea suficiente grande la muestra para lo que nos interesa investigar --- he oido que en medicina suelen calcular el poder del test lo cual nos da un idea cuan grande tiene que ser el efecto para que podríamos verlo con nuestra muestra actual. Siempre me ha parecido buen idea.

    (Charla sobre el Oregon heath study donde hablan del uso de calcular el poder del test:
    http://www.econtalk.org/archives/2013/05/jim_manzi_on_th.html
    tambien,
    "We can describe the power of an experiment as being how small an effect it can reliably detect given the background variation in all physical health metrics."
    http://www.thedailybeast.com/articles/2013/05/13/how-not-to-cherry-pick-the-results-of-the-oregon-study-ultrawonkish.html )

    • rdk,

      Un comentario al hilo de lo que comentas. En los randomized controlled trials creo que existen incentivos muy buenos para que los autores se tomen en serio la realización de un cálculo del tamaño mínimo de la muestra (si la muestra no es suficientemente grande lo más probable es que no encuentren algún resultado significativo). El tema me preocupa más en los estudios observacionales, donde hay una mayor posibilidad de realizar phising expeditions poco costosas (la tasa de éxito es de un 5%). Un ejemplo interesante son los estudios sobre el impacto del salario mínimo sobre el desempleo, donde se observa que la magnitud del efecto estimado tiende a estar positivamente correlacionado con el tamaño de los errores estándar.

  • Un articulo excelente Manuel.

    En Finanzas, este es un tema recurrente.

    Por ejemplo Alan Timmerman, lleva tiempo trabajando en como calcular los errores estándar cuando buscamos anomalías en el precio de las acciones. Si encontramos, por ejemplo que algo raro ocurre los lunes, hay que calcular los errores estándar teniendo en cuenta que hemos probado los otros cinco días de negociación.
    http://onlinelibrary.wiley.com/doi/10.1111/0022-1082.00163/abstract

    Aun más interesante fue el trabajo de Harvey, Li y Zhu, presentado en la WFA este año sobre factores que explican la sección cruzada de la rentabilidad de las acciones.
    https://wpweb2.tepper.cmu.edu/wfa2014/wfasecure/upload/2014_PA_143861_510551_535439.pdf
    La idea del artículo es que los errores estándar también dependen del número total de artículos intentados/publicados con los mismos datos. El artículo tiene casi 100 páginas, pero una imagen vale más que mil palabras. La Figura 3 de la página 23 muestra cómo va subiendo el t-ratio necesario para demostrar significatividad estadística a medida que se publican más artículos.

    • Vicente,

      Gracias por las referencias, muy útiles ambas. Otro ejemplo muy ilustrativo es aquel artículo, publicado en Social Science & Medicine, que mostraba que el día de San Valentín nacen "significativamente" más niños. Según los autores, la explicación teórica sería que es una fecha "que transmite un simbolismo positivo"). Sin embargo, si se analiza de manera conjunta las 365 posibles preguntas la significatividad del resultado desaparece (páginas 31-36).
      Como dice Gelman, si estás realizando un proyecto en el que tienes que preocuparte por multiple testing, es probable que también tengas que preguntarte si tu pregunta de investigación tiene algún sentido!

  • ¿Y qué pasa con las revistas científicas? Journal of Theoretical Biology es una (muy) buena revista científica si la juzgamos por los criterios habituales (con un factor de impacto de 2,3, está en el primer cuartil en Mathematical and Computational Biology, y en el segundo en Biology). ¿Los revisores de esta revista no debieron advertir de estas anomalías?

    • Hazel,

      Kanazawa no publicó uno, sino cuatro artículos disparatados en el Journal of Theoretical Biology. Los títulos de los artículos hablan por sí solos: “Big and Tall Parents Have More Sons” (2005), “Violent Men Have More Sons” (2006), “Engineers Have More Sons, Nurses Have More Daughters” (2005)... Digo disparatados porque en ningún caso tiene en cuenta al calcular los errores estándar el número total de regresiones posibles (por ejemplo, si hay unas 100 ocupaciones, unas 5 salen significativas aunque no haya ningún efecto real) y porque, no sorprendentemente, la magnitud de los coeficientes es inverosímil.
      El hecho de que Kanazawa haya publicado estos artículos en un journal aparentemente respetable supuso que la prensa se hiciera eco de estos resultados de una manera totalmente acrítica. Esto debería quizás hacernos pensar un poco más acerca de la responsabilidad de los editores y los evaluadores anónimos como "gatekeepers" y, a lo mejor, también nos puede recordar que los "criterios habituales" en ocasiones resultan bastante imprecisos.

  • Manuel, me vas a perdonar pero yo no entiendo que si "Kanazawa sugiere que los padres atractivos tienen una mayor probabilidad de tener hijas...." luego comentes que "Kanazawa muestra que el 52% de los hijos de los individuos que han sido clasificados en el grupo de mayor belleza son varones" salvo que haya algún error, en cuyo caso los comentaristas anteriores parece que no se han leido tu artículo. O yo no he entendido nada.

    • Alberto, mil gracias por tu comentario. En efecto hay una errata que acabo de corregir: “Kanazawa muestra que el 52% de los hijos de los individuos que han sido clasificados en el grupo de mayor belleza son de sexo femenino”

  • Decir que una muestra de 3000 sujetos es pequeña es, como poco, arriesgado. Sorprendente, dados los tamaños muestrales habituales para el campo.
    Realizar una regresión con un predictor categórico de cinco niveles es muy cuestionable.
    Señalar " la carencia de conocimientos estadísticos de muchos científicos sociales" con la crítica a un artículo publicado en el Journal of Theoretical Biology es puro prejuicio. ¿Por qué no hablar de la carencia de conocimientos estadísticos de los de biología (ciencias)?
    ¿Qué tendrá que ver la estadística bayesiana con un análisis mal hecho desde la estadística frecuentista? Hay quien quiere colocar a Bayes a santo de cualquier tema.

    • Unnombrealazar,

      Gracias por tus comentarios. Te contesto a continuación:
      1. Tamaño muestral: Lo siento si no he sido suficientemente preciso, el problema no es que la muestra tenga 3,000 sujetos, sino que dado este tamaño muestral y la variación existente en la variable de interés, el tamaño de los errores estándar (4.7%) es demasiado grande en relación a la magnitud del efecto que intentamos estimar (entre 0 y 1%). Un tamaño muestral mayor ayudaría a reducir el error estándar (el sexo de un hijo es algo prácticamente impredecible, por lo que en este caso añadir controles no ayuda). Es decir, dependiendo del contexto, un tamaño muestral determinado puede ser apropiado o no.
      2. Kanazawa como ejemplo del mal hacer de los científicos sociales: Kanazawa pertenece al Departamento de Management, por lo que me pareció adecuado calificarle de "científico social", categoría en la que me incluyo. De todas formas, permíteme la broma, pero entiendo que nadie quiere que se le asocie con Kanazawa. Ocurre un poco lo que pasó en su día con aquel campeón olímpico de esquí, que tras dar positivo en un control antidoping los períodicos alemanes le llamaban "Juanito" y los españoles "Johann").
      3. Estadística bayesiana: En el caso del múltiple testing tienes razón, se trata simplemente de un análisis mal hecho desde la perspectiva frecuentista. Pero para pensar en términos de errores tipo M o tipo S es imprescindible ser un poco bayesiano: necesitamos tener algún "conocimiento a priori" sobre la magnitud de los efectos que esperamos esperar. Esto podemos hacerlo de una manera más o menos formalizada, asumiendo explícitamente una distribución a priori, o simplemente algunos momentos.

    • La estadistica frecuentista viola una y otra vez el principio de la verosimilitud (Berger, J.O.; Wolpert, R.L. (1988). The Likelihood Principle, 2nd ed., The Institute of Mathematical Statistics). En concreto, toda la contrastacion de hipotesis tiene un fundamento axiomatico cuando menos deficiente y las paradojas (o simplemente absurdos) al que lleva casi infinito. Yo, en clase de econometria, me paso un dia entero explicando algunos de los ejemplos mas famosos (como el hecho de que el analisis frecuentista no respeta el principio de la irrelevancia de la razon de parada).

      En el caso del paper en el JTB, una analisis bayesiano habria demostrado que la razon de verosimilutes marginales no cambia practicamente nada y que por tanto rechazar la nula de no diferencias entre grupos es algo bastante tonto. Asi que si, el analisis bayesiano aqui le salva a uno.

      En el pasado, cuando la implementacion del paradigma bayesiano tenia problemas computacionales, el analis frecuentista podia tener sentido. Hoy en dia, una decada larga despues de la revolucion de los McMc, el frecuentismo, o al menos su version mas naive como la de estos articulos citados, es dispararse en el pie.

      Ah, y por cierto: "Realizar una regresión con un predictor categórico de cinco niveles es muy cuestionable."

      Y por que? Si eres frecuentista, que parte del teorema de consistencia asintotica se te rompe por tener un predictor categorico de cinco niveles? Y no vale responder que los resultados asintoticos no funcionan aqui, pues entonces la afirmacion "Decir que una muestra de 3000 sujetos es pequeña es, como poco, arriesgado" es incorrecta. O lo uno o lo otro, pero ambas afirmaciones son incompatibles.

  • Hola Manuel, Que sorpresa mas agradable ver a Gelman citado en Nadaesgratis. Fue companyero mio de instituto, y con diferencia fue el alumno mas brillante de nuestra promocion. Quiza les gustaria a los lectores de nadaesgratis saber que, a parte del blog suyo que has vinculado en tu entrada, Gelman tambien es uno de los fundadores del blog de ciencia politica de mayor audiencia, The Monkey Cage. Harto recomendable: http://www.washingtonpost.com/blogs/monkey-cage/.

    • Hola Ken,

      Uauh, piccolo mondo! No cometeré el error de sobreestimar la información que proporciona una muestra con dos observaciones, ¡pero vaya instituto!

      Gracias por mencionar The Monkey Cage, un blog excelente!

  • Compro su argumento de "los de ciencias sociales no saben de estadística" si usted acepta el de "los de Mathematical and Computational Biology no saben de estadística". Ese artículo pasó por, al menos, un editor y dos revisores propios de esa área de conocimiento.

    • Vendido! 🙂

      PD: No pretendía menospreciar a los investigadores en Ciencias Sociales, aunque personalmente en alguna ocasión no me importaría tener un mejor bagaje de estadística.

  • El ejemplo un millon por el que el analisis frecuentista de hipotesis lleva a conclusiones "raras". Con lo facil que es ser bayesiano 😉

  • El problema de la multiplicidad de hipótesis creo que es bien conocido. Cuando era pequeño tuve un profesor de econometría, Juan J. Dolado, que nos hablaba siempre de la cota de Bonferroni. Veo que ahora esto está incluso en la Wikipedia:

    https://en.wikipedia.org/wiki/Bonferroni_correction

    El problema práctico es que no se aplica (no aplicamos) ni siquiera este criterio tan simple.

    • Samuel,

      Pues sí, cuesta encontrar papers que se tomen en serio la multiplicidad de hipótesis y yo mismo me incluyo en esta crítica. Constantemente chequeamos multitud de outcomes, probamos diversas interacciones, diferentes formas funcionales (lineal, cuadrática, non-lineal...), dividimos la muestra en N submuestras... y raramente lo tenemos en cuenta a la hora de calcular los errores estándar.
      Una excepción muy interesante es artículo de Anderson en JASA (2008), donde se revisa de manera crítica la evidencia sobre intervenciones tempranas en el ámbito educativo que tanta influencia ha tenido en Economía.

      El problema de Bonferroni es que es demasiado conservador: asume implícitamente independencia pero en general los distintos tests tienden a estar correlacionados positivamente. En la práctica genera demasiados falsos negativos.
      La solución preferida por Gelman sería utilizar "multilevel inference" (slides, video).

  • Son errores muy comunes, y se dan en todas las ramas de conocimiento, incluida economía. Edward Leamer (1983, p36- 37) escribió en su famosa crítica: "The econometric art as it is practiced at the computer terminal involves fitting many, perhaps thousands, of statistical models. One or several that the researcher finds pleasing are selected for reporting purposes. This searching for a model is often well intentioned, but there can be no doubt that such a specification search invalidates the traditional theories of inference. The concepts of unbiasedness, consistency, efficiency, maximum-likelihood estimation, in fact, all the concepts of traditional theory, utterly lose their meaning by the time an applied researcher pulls from the bramble of computer output the one thorn of a model he likes best, the one he chooses to portray as a rose. The consuming public is hardly fooled by this chicanery."
    Por explicarlo de forma sencilla, si uno va a hacer un test de nivel alfa=0.05 (que nos da una seguridad del 95% en contexto de normalidad , o con muestras grandes bajo normalidad asintótica), tomando un cuantil z=1,96, al repetir el experimento K veces uno obtiene una significacion alfa * K, que es mucho mas pequeña, es decir que no rechazamos nunca, para corregirlo hay que modificar el quantil usando las desigualdades de Bonferroni. Pero existe una gigantesca literatura sobre la forma de corregir estos problemas, con métodos mucho mejores.

  • A Jesus Fernandez Villaverde, aunque aparezca una cara sonriente, es frecuente ver este tipo de afirmaciones por parte de investigadores que se auto-incluyen en la escuela Bayesiana. Pero no es cierto en absoluto que utilizando técnicas agrupadas en el paraguas de "estadística Bayesiana" uno no no se enfrente a los mismos problemas que en la estadística mal llamada "frecuentista." Como regla general, ambos métodos de estimacion tienen propiedades de consistencia, y distribuciones asintóticamente normales. Se comportan de forma similar con muestras grandes, y no tienen ningun sentido con muestras pequeñas. En concreto, los métodos bayesianos tambien sufren problemas cuando se hacen multiples tests, y exiten técnicas que permiten corregir y controlar las tasas de rechazo (false discovery rates), esta literatura ha sido impulsada por Bradley Efrom.

    • "Como regla general, ambos métodos de estimacion tienen propiedades de consistencia, y distribuciones asintóticamente normales"

      Si y no. Mi primer paper publicado (en el Journal of Econometrics) era sobre teoria asintotica bayesiana, asi que algo sobre este tema he pensado:

      1) En muchos casos, asintoticamente, ambos enfoques te llevan a la misma respuesta.

      2) Pero no siempre: raices unitarias!!!!!!!!!! La famosa y desconcertante discontinuidad topologica creada por \rho=1 para un frecuentista es irrelevante para un Bayesiano.

      3) Se puede hacer contraste de hipotesis desde el punto de vista bayesiano? Si, pero es como llevarse el Ferrari a la compra. Los bayesianos mas consecuentes no hacen constrastes de hipotesis, hacen comparacion de modelos.

      4) Respetar el principio de verosimilitud es primordial. La estadistica frecuentista no lo respeta.

  • Una duda sobre la estadística bayesiana: ¿de dónde sale la probabilidad a priori del modelo? Tal como lo veo, no es posible estimar una probabilidad a priori a partir de frecuencias observadas, ya que eso se contradice con la idea de probabilidad bayesiana.

  • Manuel,
    Enhorabuena por otro post excelente. Solo una matización en tu contestación a Samuel: en el computo de la cota de Bonferroni, basada en la desigualdad de Boole, no creo que se asuma independencia de los diversos contrastes pues se tiene en cuenta que la probabilidad de la unión de sucesos es la suma de las probabilidades individuales menos la probabilidad de la intersección de dichos sucesos.

    https://en.wikipedia.org/wiki/Boole%27s_inequality

    • Hola Juanjo,

      Gracias por la aclaración y enhorabuena por haber sido un profesor tan espectacular que tus alumnos aún se acuerdan de lo que les enseñaste algunas décadas más tarde, déu n'hi do!

      Yo estaba pensando en la aplicación trivial de Bonferroni donde simplemente se divide el p-value por el número de tests que realizas. Si los tests no son independientes, me da la impresión de que Bonferroni es demasiado conservador (estoy pensando, como ejemplo patológico, en el caso extremo donde realizamos el mismo test N veces, y el p-value que exigiríamos para rechazar sería p/N).

  • Tal vez no he sido muy específico: Joseph L. Doob probó la consistencia de los estimadores Bayesianos, y el teorema de Bernstein-von Mises garantiza que la media a posteriori se distribuye asymptoticamente normal con la misma covarianza que un estimador ML bajo condiciones muy generales. (De hecho, es posible establecer este resultado incluso si la versimilitud no es cierta, pero lo es como límite de una secuencia de experimentos). Como regla general, asymptoticamente NO EXISTEN DIFERENCIAS relevantes entre ambos métodos.

    Naturalmente es posible encontrar casos patológicos donde un método de inferencia falla y otro no. Esto es posible para todos los estimadores que conozco. En el caso concreto de los estimadores Bayesianos, Lucien Le Cam encontró bastantes contraejemplos a la consistencia de los estimadores Bayes, y en el caso infinitodimensional son bien conocidos los resultados de Friedman (1991). Pero los casos patológico no invalidan la consistencia y normalidad asintótica del método Bayesiano en el caso general.

    • No, no estoy hablando de casos patologicos. Estoy hablando de un caso muy comun en macro: la estimacion de un AR(1). Contrastar la nula de que tienes una raiz unitaria causa mil quebraderos de cabeza en un mundo frecuentista. En un mundo bayesiano es trivial. O en otras palabras: SI, SI que existen diferencias asintoticas. Y no lo digo yo: es un paper clasico de Sims y Uhlig.

      El contraste de hipotesis frecuentista, ademas, sufre de decenas de problemas. Solo hace falta leer el libro de Berger y Wolpert que citaba. Y esos fallos no son patologias, son consecuencias de un marco de inferencia que lleva a mil contradicciones. En particular, el violar el principio de la verosimilitud es sencillamente una locura.

      Para mi el argumento mas convincente es que cuando escribo un modelo de teoria de juegos, empleo el equilibrio de Nash bayesiano como solucion de agentes tratando con incertidumbre, pero nadie jamas ha escrito un equilibrio de Nash Neyman-Person. Si los agentes en nuestro modelo son lo suficientemente listos para emplear el teorema de Bayes para solucionar sus problemas de inferencia en el juego, porque no nosotros en nuestra inferencia con datos del mundo real?

      Los problemas de inconsistencia Bayesiana se dan cuando nos vamos a mundo infinitodimensionales. En tal situacion (donde la inferencia frecuentista tambien sufre problemas profundisimos), uno probablemente tiene que empezar a plantearse cosas distintas, pero el inmenso desarrollo de la econometria bayesiana no y semi parametrica me dice que, en general, el enfoque bayesiano es mejor.

      • Pues, sé que no es argumento, pero me parece que la gran mayoría de los programas de econometría que se imparten en la gran mayoría de las universidades, no son bayesianos.

        • Hoy mucho menos que hace 25 años. Por ejemplo, en Princeton y Penn, se da mucha econometria Bayesiana. En otros sitios va creciendo. Y en 10 años se hara mas.

        • En cuanto te pones con R y algo de econometría, Bayes rules!! En la investigación médica, farmacéutica etc...desde la barrera, me ha dado la sensación que es omnipresente.

  • Bayes simplemente aproxima a una máxima verosimilitud regularizada, ni mas ni menos. En ciertos casos esto simplifica y en otros complica, en ma mayoría no afecta asíntoticamente, por eso lleva a los mismos resultados. Pero te veo muy dogmático, así que prolongar el debate es algo estéril, hay mil disputas anti o pro Bayesisnismo. Yo estoy a favor del uso de métodos bayesianos, pero no me gusta la venta exagerada que se hace de los métodos . Finalmente, asociar "learning" con Bayesisnismo se debe a que la gente sabe muy poco de estimación recursiva.

    • 1) "Bayes simplemente aproxima a una máxima verosimilitud regularizada". Esa afirmacion es incorrecta. El objeto fundamental de interes de la inferencia Bayesiana es la posteriori completa, no una estimacion puntual, que es lo unico que se obtiene con una verosimilitud regularizada maximizada. Centrarse es una verosimilutud regularizada es minusvalorar la sutileza del analisis bayesiano y como este plantea, por ejemplo, el calculo de comparacion de modelos con verosimilitud marginales o la gestion de riesgo con funciones de utilidad arbitrarias.

      2) El argumento de que en juegos se emplea inferencia bayesiana y que esto es inconsistente con lo que se hace en estadistica frecuentista (sea o no esta recursiva) no es sobre aprendizaje per se, es sobre la inferencia que realizan los agentes, por ejemplo, sobre un tipo inobservado (por cierto, el argumento no es mio, es de David Kreps). Cuando vea papers en teoria de juegos donde los jugadores emplean metodos frecuentistas para tomar decisiones, apreciare una consistencia entre la teoria economica y la estadistica frecuentista; mientras tanto me preguntare porque las reglas que tan exitosamente aplicamos en juegos parecen tener menos valor en econometria.

      3) El comentario no afronta en ningun momento el tema de la raiz unitaria que yo he resaltado anteriorment: un caso fundamental en macro donde ASINTOTICAMENTE, Bayes y frecuentismo te lleva a pensar acerca de la evidencia de manera muy diferente.

      En lo que si que estoy de acuerdo es que esta conversacion no este siendo de provecho.

  • Para sacarle un poco la cara al LSE solo decir que su Msc Econometrics and Mathematical economics is muy prestigioso. Leen el Amemiya como quien lee, no sé, el menú en un restaurante italiano, tampoco es tan difícil...
    Ah y otra cosa que la mayoría que lee este webpage ya sabe, pero que a mucha gente no le entra en la cabeza, la econometría es una teoría, una herramienta poderosa si se usa bien, pero siempre una teoría que se aplica con buen juicio. Si no ni es econometría ni es nada.

  • Sr Fernandez Villaverde.

    Le contesto brevemente, sobre (1) basta considerar la moda de la distribución a posteriori maximiza

    lnπ(θ)+ln f_{θ}(X)

    donde π(θ) el la prior y donde f_{θ}(X) es a verosimilitud de la muestra. La moda se aproxima a maxima verosimilitud (con regularizacion determinada por la prior, aunque su influencia eventualmente se debilita). Bajo condiciones de regularidad (por ejemplo las del teorema de Schwartz), la distribucion a posteriori degenera en el parámetro θ₀ que ha generado los datos, es decir el mismo límite de ML (en realidad es posible incluso que la verosimilitud sea incorrecta, entonces se converge al parametro para el cual la distancia de Hellinger entre f_{θ}(x) y la densidad del proceso generador de los datos se hace mínima, al igual que en ML). Si el modelo es relativamente regular la posteriori se colapsa en rutas próximas a las que sigue maxima verosimilitud, que es la razon por la que la media a posteriori es asymptoticamente normal N( θ₀,V) siendo V la matriz de covarianzas de ML.

    2) A mi siempre me ha gustado el ingenio de los juegos Bayesianos en todas sus variantes, juegos de señalizacion, juegos Markovianos, etc. No es una crítica a lo que hacen. Pero tienen muy poca flexibilidad, el aprendizaje es un proceso de estimacion donde se actualiza la estimacion cuando llega informacion. La regla de Bayes puede hacerse facilmente recursiva, pero hay muchísimos otros estimadores recursivos que pueden usarse en contextos de aprendizaje. Hay ramas de investigación operativa mucho mas abiertas a ello, como el control adaptativo. En todo caso, la "popularidad" entre los economistas especializados en teoría de juegos no me parece una virtud que sirva para defender la superioridad de los estimadores Bayesianos.

    (3) Respecto a su paper de raices unidad, me parece estupendo. No he trabajado en este tema concreto, pero me parece que resultados similares pueden obtenerse si se introducen factores de regularización en estimadores ML clásicos. Hay muchos otros casos donde pasa lo mismo, por ejemplo si el parámetro θ₀ está en el boundary, o bajo ciertas discontinuidades topológicas. El ingenio que ha demostrado la estadística para desarrollar múltiples métodos es fantástico.

    Pero en todo caso, y volviendo al tema de nuestro debate. Pienso que en matemáticas la apología tiene poco sentido, y no lo digo por usted sino por el abundante ruido mediatico que hacen los estadísticos y econometras Bayesianos. Es un buen método, pero no hay ninguna razon global de peso para preferirlo al resto de estimadores paramétricos eficientes mas usuales, mas allá de los gustos personales o encontrarse cómodo con su uso. Creo que por la discucion que hemos mantenido, mis gustos son mas eclécticos que los suyos. Aunque a nosotros este debate probablemente no nos haya aportado mucho, esperemos que a algun estudiante si. Un saludo.

    • "Aunque a nosotros este debate probablemente no nos haya aportado mucho, esperemos que a algun estudiante si" Doy fe de ello.
      Por cierto, ¿porqué escribe siempre "asymptoticamente "?

      • Perdon, es puro spanglish, cuando escribes en otro idioma sobre un tema al final terminas mezclando terminos....

      • Hazel, me alegra que lo encuentres interesante. La verdad es que aquí no hay espacio para rebatir los argumentos Bayesianos a fondo, pero te interesará el siguiente artículo de Le Cam (1977), "a note on metastatistics". Lo puedes bajar de aquí: http://errorstatistics.files.wordpress.com/2013/11/lecam_1977_a-note-on-metastatistics.pdf Especialmente es intersante la seccion “Bayesian Freedom, Bayesian Magic” donde se menciona el tema de la stopping rule. Tambien puedes leer un artículo con un debate reciente po Deborah G. May (2014) article in Statistical Science, with DOI:10.1214/13-STS45, que revisa argumentos clasicos del debate entre frequentistas y Bayesianos sobre las violaciones al likelihood principle, ese y otros articulos relacionados están aquí: http://errorstatistics.com/2014/09/06/statistical-science-the-likelihood-principle-issue-is-out/
        Como veras, al final muchos de los argumentos utilizados son bastante endebles, esto no significa que Bayes deba ser evitado, es un método excelente bajo condiciones apropiadas de regularidad, no "mas" pero tampoco "menos".

        • Gracias por las recomendaciones. Estoy hojeando el trabajo de Lecam "A Note on Metastatistics or an essay toward stating a problem in the doctrine of chances", pero no veo ninguna sección con el título "Bayesian Freedom, Bayesian Magic". ¿Es otro de este mismo autor?

    • 1) Insisto: aunque asintoticamente sea cierto que la posterior colapsa bajo ciertas condiciones tecnicas (como dije ya en mi primer comentario, he hecho cosas de asintotica bayesiania), esto no quita para que en muestras finitas (es decir, TODAS), la posterior sea un objeto mucho mas rico y que por tanto pretender que la posterior y la verosimilitud regularizada maximizada sean equivalentes sean iguales es INCORRECTO. Por ejemplo, puedo especificar una funcion de interes bien sencillita (solo necesito un poco de aversion al riesgo) que implique que mi estimacion puntual optima sea el percentil 60 de la posterior, un punto diferente de la estimacion MV regularizada. Igualmente puedo querer computar la verosimilitud marginal, que es un objeto clave en comparacion de modelos (se emplea mucho en economia y en genetica) o simplemente -y este es el caso MAS importante- no querer hacer estimacion puntual y centrarme en probabilidades de conjuntos (el centrarse en una estimacion puntual, de hecho, es algo mas propio del mundo frecuentista: para un bayesiano las estimaciones puntuales son mucho menos importantes).

      2) La literatura moderna de machine learning y demas emplea a menudo metodos no bayesianos pero que en general se parecen bastante poco al contraste de hipotesis clasico, que es lo que motivo esta entrada y mis comentarios. De hecho uno puede entender esta literatura como una manera computacionalmente eficiente de implementar un analisis bayesiano con menos restricciones parametricas. Pero insisto en el argumento de Kreps: en un seminario de teoria economica, un agente empleando metodos frecuentistas seria considerado una bobada.

      3) No, con una raiz unitaria una regularizacion no soluciona nada. Esto es algo bien conocido.

      Pero bueno, dejemos ya esto.

      • Jesús:
        ¿Cuál opinas, como profesor y evaluador, que sería la forma óptima de saber si un alumno ha aprendido y debe "aprobar" (o sacar C o B para arriba, no sé como va el modo anglo). ¿Un examen final? ¿Evaluación continua?
        ¿Continua hasta cuando?
        Una cosa que siempre me he preguntado, y que aparece en un capítulo de los Simpsons antiguos, es si suspendo una asignatura y acudo a la revisión, y en la misma comentando los fallos con el profesor, demuestro que conozco la materia pero, por ejemplo, cometí algunos fallos (no entendí algunas preguntas, no tuve tiempo, tuve un mal día), ¿incorporarías esa información (el que estoy realmente preparado), y podrías llegar a cambiar la nota?

  • Claramente tenemos opiniones divergentes. Yo no veo los problemas que usted ve, y me atrevería a decir que probablemente tampoco los ven las tres cuartas partes de los estadadísticos y económetras que han existido (algunos por cierto furibundamente antibayesianos, actitud con la que tampoco comulgo). De nuevo podría argumentar a su último post otra vez y seguir así discutiendo eternamente, dejemoslo estar.

    • Post-data: quienes tengan interes en la mejora de test de raices unidad cuando se combinan con estimación regularizada, pueden echar un vistazo a este paper "An Alternative to Unit Root Tests: Bridge Estimators Differentiate between Nonstationary versus Stationary Models and Select Optimal Lag", 2013, 143, 691-715 Journal of Statistical Planning and Inference, accesible en http://www4.ncsu.edu/~mcaner/shrinkfinal.pdf. No creo que sea algo definitivo, en realidad se me ocurren a primera vista algunas extensiones (pero no hablaré de ello aquí porque a fin de cuentas "nada es gratis").

    • Gracias Abel, muy oportuno el comic!

      Además del problema de los falsos positivos, si la muestra es relativamente pequeña, la magnitud del coeficiente será completamente desproporcionada respecto al efecto real y, paradójicamente, no es improbable que incluso el efecto real pudiera ser negativo!

  • Muy buen artículo. Solo un comentario menor, pero que no quiero dejar de hacer. Los expertos que leen y escriben por lo común en inglés terminan escribiendo frases como esta: "corremos múltiples regresiones". Aunque los autores parece que tienen en la cabeza el verbo "to run" (run multiple regressions...), pues así será como lo escriban en ese idioma, la traducción literal no tiene sentido. Aquí sería mejor "realizar", "llevar a cabo", "ejecutar" o algo así.

Los comentarios están cerrados.

Centro de preferencias de privacidad