¡Coma chocolate, lo dice un RCT! O los peligros de la ciencia-espectáculo

Esta mañana se me atragantó el desayuno con un tweet de Luis Garicano apuntando a este artículo. Básicamente un periodista había conseguido un impacto mediático universal a base de hacer un RCT (ensayo controlado aleatorizado, el tipo de metodología por cuyo uso acaban de dar el premio Princesa de Asturias a Esther Duflo) tramposo, que concluía que tomar chocolate aceleraba los efectos de pérdida de peso de una dieta baja en carbohidratos.

Y ayer mismo se produjo la retracción de un artículo de Science, en el que uno de los autores posiblemente se había inventado los datos de un ensayo aleatorio sobre el efecto de los propagandistas puerta a puerta para apoyar el voto positivo en un referéndum sobre el matrimonio homosexual en California. El ensayo decía mostrar que solamente el uso de propagandistas homosexuales podía cambiar la opinión de los entrevistados a largo plazo (más de tres semanas).

Son dos casos distintos, pero ilustran bien cómo funcionan la ciencia y los medios de comunicación, los peligros que existen y cómo se pueden combatir. El caso del periodista y el chocolate es muy interesante porque la trampa es sutil. El experimento de hecho se realizó. Hay dos grupos tratados que hacen respectivamente una dieta baja en carbohidratos y una dieta baja en carbohidratos donde los participantes además toman una barrita de chocolate negro. Y, lógicamente, hay un grupo de control, que no hace dieta. Los grupos efectivamente se escogen aleatoriamente, y los participantes hacen pruebas para descartar que tengan diabetes y otras condiciones peligrosas para su salud. El análisis estadístico reveló que los dos grupos tratados perdieron peso (unos dos kilos en ambos casos). Pero el que lo hizo con chocolate lo hizo un 10% más rápido y al final del experimento tenía mejores datos de colesterol y bienestar.

Alguien pensará, bueno, pues qué pasa, esto es la ciencia, ¿no? Que el periodista quisiera ponernos en ridículo no demuestra nada, el resultado es el que es. Pues no, como él mismo cuenta, usó un viejo truco estadístico. Si pruebas un número suficientemente grande de hipótesis, y te pones como condición para apoyar la hipótesis que ésta sea significativa al 5%, es improbable que no haya alguna que sea verdad, a mínimo que sean algo independientes (esto te obliga a ser mínimamente creativo buscando cosas que medir, pero poco más). El resto fue fácil, envió el artículo a una revista predatoria (de las que ya hemos hablado aquí largo y tendido), y lógicamente se publicó enseguida. Con lo que no contaba el autor es que tantos periodistas recibieran la noticia y le dieron un eco mayúsculo, sin contrastar suficientemente.

Las lecciones de este caso son claras. La primera es que hay que ser mucho más cuidadosos con las revistas predatorias. Claramente son un riesgo para la ciencia. La segunda es que hay que ser más rigurosos en el diseño de ensayos aleatorios. Una iniciativa cada vez más seguida en medicina, y que por lo que me cuenta Marcos Vera está comenzando a seguirse en economía y psicología, es que conviene registrar los ensayos antes de hacerlos, incluyendo las hipótesis que uno quiere comprobar, para evitar en lo posible la “pesca de resultados”. Y lógicamente, los periodistas deben hacer su trabajo mejor. Si se especializan en ciencia, deben saber de la misma, y antes de informar de un descubrimiento deben ir a la fuente.

El otro caso, también es doloroso aunque algo más estándar en algún sentido. Como les explicaba al principio, un joven doctorando de UCLA (Michael LaCour) dijo estar trabajando en un ensayo aleatorio para comprobar los efectos de los propagandistas puerta a puerta en las opiniones de aquellas personas a las que entrevistaba. Colaboró en el artículo con un profesor mucho más consolidado de la universidad de Michigan (Donald P. Green). Unos meses más tarde otros investigadores intentaron replicar el estudio en Florida y tuvieron grandes dificultades para conseguir las tasas de respuesta que Green y LaCour decían haber tenido. Pidieron explicaciones y los datos pero LaCour se mostraba evasivo (Green le había pedido repetidamente poner los datos a disposición de todo el mundo en un repositorio de la universidad de Michigan). Un análisis estadístico de los datos mostró anomalías típicas de una manipulación. El artículo se ha retirado de la revista oficialmente porque LaCour mintió sobre las fuentes de financiación y los incentivos a los participantes, pero es natural pensar que se haya inventado todos o gran parte de los datos. Que Green no fuera más duro preguntando por las fuentes de financiación o los datos, a pesar de sus excusas de que esto podría ser visto como un atropello a un investigador joven, le hace también seriamente responsable.

Aquí las lecciones son también claras. Simplemente no es aceptable que los datos de cualquier artículo científico no estén disponibles para que la comunidad pueda examinarlos críticamente. Todas las asociaciones de economía serias (española, americana, británica, europea, econométrica) tienen ya normas estrictas de disponibilidad de datos.

Además la replicación (o la no replicación) de los análisis de otros científicos debe tener un importante premio profesional. La Economic Science Association, que agrupa a los experimentalistas en economía, ha creado una segunda revista, además de su exitosa “Experimental Economics”, llamada “Journal of the Economic Science Association” con el objetivo explícito de publicar “tipos de artículos que son importantes pero que están todavía insuficientemente representados en la literatura experimental (es decir, réplicas, extensiones menores, comprobaciones de robustez, meta-análisis, y buenos diseños experimentales, aunque tengan resultados nulos”.

En los dos casos denunciados un factor que contribuyó al problema fue una cierta obsesión por la ciencia-espectáculo. Es bueno que haya interés por nuestra actividad, que lleve a los periodistas y al gran público a interesarse por nuestro trabajo (como hacen con gran entusiasmo nuestros lectores). Refleja que, pese a todo, el mundo está mejor educado que hace unas décadas, y que cada vez hay más gente que está convencida de eso que decimos aquí muchas veces: la ciencia es muy importante para el progreso económico. Pero los científicos tenemos una gran responsabilidad. Es importante que mantengamos estándares de rigor y comportamiento profesional adecuado, sin dejarnos llevar por el efectismo, y que pongamos reglas que hagan difícil que la corrupción mine también los fundamentos de nuestro trabajo. Eso sí, lo que no debemos dejar de hacer es premiar a quien haga buena ciencia. Es verdad que los incentivos inducen también a hacer trampas. Pero esto no quiere decir que eliminemos los incentivos, quiere decir que hay que vigilar a los tramposos. Como ya dije una vez, si los estudiantes copian o alguien evade impuestos, eso no es motivo para eliminar el examen o los impuestos, es motivo para buscar y castigar a los que copian o evaden. El proceso que lleva a la retracción del artículo de Science es un buen ejemplo de cómo, pese a los fallos, hay elementos potentes de autorregulación en el sistema. Y las denuncias que tanto nosotros como otros muchos hacen de las revistas predatorias son otro ejemplo positivo. Pero hay que seguir vigilando.

Hay 34 comentarios
  • Antonio, es un asunto muy importante. Por eso me parece útil extractar del primer artículo que citas (cuya lectura recomiendo encarecidamente a nuestros lectores) cómo explica el Sr. Bohannon lo que hizo (con ayuda de Google Translate):

    "Si se mide un gran número de cosas acerca de un pequeño número de personas, está casi garantizado conseguir un resultado "estadísticamente significativo". Nuestro estudio incluyó 18 medidas diferentes: peso, colesterol, sodio, los niveles de proteína en sangre, la calidad del sueño, el bienestar, etc., de 15 personas. (...) No sabíamos exactamente lo que iba a funcionar --el titular podría haber sido que el chocolate mejora el sueño o reduce la presión arterial-- pero sabíamos nuestras posibilidades de conseguir por lo menos un resultado "estadísticamente significativo" era bastante altas."

    En principio, pensamos que el proceso de revisión de las revistas buenas (que es lo mejor que tenemos) o intentos de replicación posteriores como el que cuentas sobre el segundo artículo pillarán la mayoría de las estafas. Y creo que es así, pero es interesante ver cómo el mismo periodista cuenta en Science cómo coló un artículo falso a muchas revistas (y no solo predatorias, también revistas de Sage o Elsevier):

    http://www.sciencemag.org/content/342/6154/60.full

    No se puede bajar la guardia.

    • Sí, por esto me parece tan interesante la iniciativa que cuento en la entrada de registrar antes del RCT, o incluso de cualquier artículo empírico los análisis que uno va a realizar. Y, aunque ya sé que esto es un poco self-serving, por esto me parece muy peligrosa una tendencia moderna a despreciar el análisis teórico en economía. Está muy bien encontrar un "hecho", pero si no entendemos por qué funciona el mecanismo causal señalado, esto hace subir mi "prior" de que es una casualidad estadística. Esto de las trampas en ciencia es un poco como el SIDA, muy dañino y probablemente la cura depende de un cóctel de estrategias, una sola no va a servir.

    • Sí pero los índices de corrupción varían mucho en el mundo, incluyendo países con legislaciones muy diferentes. De manera que en algunos casos la recomendaciones familiares funcionan, y en otros no. Lo interesante es ver por qué es así. Los juegos reputacionales tienen muchos equilibrios, y hay que ver como seleccionar el bueno.

  • Estoy de acuerdo, pero es imprescindible tener buenos incentivos también para los investigadores que hacen replicaciones. Ahora, si uno mira lo que vienen haciendo, solo tienen incentivos a encontrar algo para decir. La calidad de lo que dicen es bien dudosa.

    • Por esto me parece tan importante la iniciativa de la Economic Science Association que he citado en la entrada. Ahora me resultará fácil pedir a mis estudiantes de doctorado que uno de sus artículos sea una réplica (ahora me conformaba con que si hacían experimentos uno de los tratamientos fuera muy cercano a un experimento conocido). Primero les ayuda a introducirse en la metodología experimental sin tener que inventar nada, por lo que el coste es más bajo, y es más difícil que cometan errores serios. Antes, el pago era casi nulo, pero ahora pueden sacar una publicación y si además descubren que un resultado conocido no funciona, pueden ganar reputación, con lo que el pago puede ser suficiente.

      • Para que los incentivos sean buenos el nuevo journal tiene que publicar artículos que digan hemos replicado el estudio, no tenemos nada nuevo que reportar. Lo dudo!! Y ojala aprueben este comentario y mi comentario anterior.

        • Tienes alguna razón para dudar de lo que dicen los editores en su declaración de intenciones? Porque si no, como mínimo merecen el beneficio de la duda.

  • A mí me parece que justamente, entonces, lo que hay que destacar es la capacidad de la ciencia de rectificarse. En el caso de los experimentos, la replicación de los mismos permite esto. Un investigador invento una data, al menos eso se cree ahora, y otros no pudieron replicar sus resultados. A veces esto se puede racionalizar como el resultado de un mundo heterogéneo y otras veces no y entonces aparece la duda. Pero no hay que trivializar la dificultad de hacer ciencia ni sospechar a priori.

  • Una pequeña diferencia entre los científicos y el resto de actividades es que algunas de las cosas negativas para la profesión no son ilegales, o si lo son, resultan muy difíciles de perseguir. Aquí hemos denunciado plagios, algo ilegal, que no parecen haber tenido consecuencias para los responsables. Y publicar en una revista predatoria ni siquiera es ilegal. Por tanto los castigos han de ser comunitarios. Los demás científicos deben excluir de la profesión a los tramposos.

  • Respecto al tema de la replicabilidad en economía, creo que no es oro todo lo que reluce. Desgraciadamente el uso de bases de datos de acceso restringido (propietary data) está cada vez más extendido. Por ejemplo, Steve Tadelis y coautores son los únicos con acceso a datos confidenciales de Ebay. Esto no les impide publicar en revistas como AER o Econometrica. El único requisito es que acepten "colaborar" con otros investigadores que les propongan alguna idea que "juzguen interesante". Según me aseguró uno de sus coautores "en realidad, sólo hay 4 personas que pueden usar esos datos, y 3 somos coautores del paper".

    • Con datos públicos, esto que dices debería estar prohibido y ya está. Con datos privados es más complicado, pero creo que en general deberíamos ser bastante duros. Es verdad que hay un peligro de que siendo duros las empresas no cedan sus datos, pero me parece que el riesgo de una mala ciencia es superior. Deberíamos buscar maneras de que no se pierdan esos datos, pero en última instancia seguramente es mejor perderlos. Ya se relajarán cuando se den cuenta del análisis de alta calidad que están perdiendo.

  • No hace falta que el investigador haga trampas, ni que realice múltiples contrastes para pescar algo. En realidad si se hace un experimento perfecto con n=30 o incluso n=50 datos, según cual sea la distribución de los mismos, es altamente probable que la distribución asíntotica nula del test sea una muy mala aproximación de la verdadera, y si encima se usa un nivel de significación del 0.05 lo mas probable es que los resultados del experimento muestren mas ruido que otra cosa, y no sean replicables. Esto sucede un día si y otro también, en muchas disciplinas aplicadas. Hay que empezar a pensar niveles de significación más pequeños, asociados probablemente 3 o 4 desviaciones típicas, y muestras bastante más grandes, algo que en contexto experimental no siempre se hace. Una hipótesis relativamente impactante requiere certeza, p-valores indistinguibles de cero, o el investigador se expone a pasar cierto bochorno por falta de replicabilidad.

    • Me parece una idea muy razonable. Por esto en general prefiero que los autores informen de los p-valores en lugar de poner estrellitas. Así poco a poco llegaremos al ideal que planteas.

      • Si, mi impresión es que para alcanzar una certeza, idealmente se deberían considerar ser unas seis sigmas o así, aunque en experimentos de psicología y en algunos de behavioural economics esto raramente es viable porque las muestras son de tamaño muy pequeño. Tienen que empezar a invertir esfuerzo en aumentar las muestras a varios miles de datos. Esto es algo costoso, en tiempo y tambien monetariamente, pero es la única vía de avanzar sobre suelo firme. Ahora mismo hay una multiplicacion de effectos dudosos, lo que Daniel Kahneman llama "the Effect Effect".

        • Ya he olvidado casi toda mi estadística, pero creo recordar que a medida que el nivel de significatividad era más exigente, el test perdía potencia (todo lo demás igual). Entonces no sé si su propuesta de exigir seis sigmas es muy práctica ...

          • Kayack: Con muestras infinitas si el test es consistente hay un escalon, la potencia vale alfa en la nula y uno en cualquier alternativa. Con muestras suele ser una curva suave, cerca de la nula vale alfa y sube al considerar alternativas que se alejarsen de la nula (con suerte un .8 cuando nos alejamos bastante). El parámetro alfa no debería escogerse en base a la potencia, para tener buena potencia "uniforme" hay que tener un buen contraste (no siempre hay tests uniformemente mas potentes) y una muestra bien grande. Pero alfa se escoge para proteger el error tipo I.

            • queria decir, "con muestras finitas suele ser una curva suave" (me habia comido el "finitas").

            • Entiendo, pero proteger tanto el error tipo I tiene el precio de descuidar el error tipo II (en la práctica creo que podemos ignorar las muestras infinitas) lo que no me parece baladí. Habría "hallazgos" que serían desechados: políticas públicas que no se aplicarían a pesar de ser útiles, medicamentos que curan de los que no nos podríamos beneficiar ...

      • Y por qué no mejor informar con intervalos de confianza? En ellos se resume mucho de lo que queremos saber: tamaño del efecto y potencia estadística (o cuán precisas son nuestras estimaciones).
        Este enfoque es defendido por muchos autores en otras disciplinas y me parece muy interesante. Con permiso dejo unos vídeos de Geoff Cuming que muestran esta perspectiva de manera muy interesante (con herramientas de simulación, más allá de algunas lecciones ciertamente un poco "introductorias"):
        https://www.youtube.com/watch?v=MH60h1xQ1t0
        https://www.youtube.com/watch?v=OK6DXfXv8BM
        https://www.youtube.com/watch?v=nRcAqMrijCw
        https://www.youtube.com/watch?v=5OL1RqHrZQ8

        • Los intervalos de confianza tienen típicamente unas probabilidades de no contener el parametro verdadero de uno menos alfa. Se pueden usar para ver si un valor concreto cae dentro (por ejemplo cero), pero entonces proporcionan exactamente lo mismo que un test de significatividad. Dada esta dualidad, no hay ninguna ventaja o desventaja en usar intervalos de confianza, basicamente tienen los mismos defectos y virtudes. Te puede intersar esta lectura:
          http://errorstatistics.com/2013/06/05/do-cis-avoid-fallacies-of-tests-reforming-the-reformers-reblog-51712/

          • Perdón por el typo, obviamente uno menos alfa es la prob de contener el parámetro, sobra el "no" en la sentencia.

          • En primer lugar, gracias por la respuesta. Es muy interesante y me gustaría dedicarle algo más de tiempo (del que ahora no dispongo), pero en un vistazo rápido me parece que no aborda el asunto central de mi comentario (y tal vez tampoco del enfoque de Cumming).
            En mi opinión los tests de significatividad, en su uso más extendido, son demasiado "dicotómicos": hay efecto o no hay efecto. Desgraciadamente, se encuentran muchos análisis que se limitan a fijarse en el p-valor (ya sea con asteriscos o número más detallado), olvidando el tamaño del efecto y la precisión de su estimación. Creo que esto provoca en ocasiones asignar relevancia a resultados que pueden estar alejados de "cero" pero que tienen una incertidumbre bastante alta (por escasa potencia, p.ej. de muestra pequeña). Y por otro lado, cuando se trabaja con muchos casos (p.ej. análisis de la EPA), se encuentran efectos significativos muy fácilmente aunque el tamaño sea pequeño, porque la potencia es muy alta.
            En definitiva, el debate está sobre 2 cuestiones: 1) ¿un resultado no estadísticamente significativo se puede desechar sin tener en cuenta la precisión del test?; 2) ¿un efecto estadísticamente significativo (distinto de "cero") es siempre "importante"? Imagino que me pueden responder que los buenos investigadores saben distinguir estas cuestiones, sin embargo, yo me encuentro con muchos artículos que manejan esta lógica que critico de manera un poco reduccionista.

  • No es un tema tan simple Antonio. Por un lado, 100% de acuerdo que los journals deben pedir los datos ponerlos online. Todos los journals deben hacer eso. En economía, el QJE no hace eso. Pero incluso los field journals deberían hacerlo.
    Sin embargo, luego, cuando alguien hace una réplica debe enviarla a un journal con peer review y el autor original tiene que ser parte del proceso de revisión. Los incentivos de los replicadores son siempre a disentir, y habiendo leído muchas replicas, tiendo a estar en desacuerdo con lo que dicen. No todo el research es experimental, y es fácil cambiar un supuesto y disentir. Más difícil es convencer a un conjunto de referees que ello vale la pena.
    Por último, ojala me dejen expresar esto. No hay que difundir claims de réplicas hasta que estas no estén publicadas. El mundo está lleno de odio. Y es muy fácil para alguien que le rechazan sus papers caer en la tentación de agredir a quienes cree que lo han rechazado o criticado.

    • Hombre, una réplica de trabajo teórico oes otra cosa. Ahí es simplemente decir que el autor dice que A implica B, pero no es cierto. Bien porque la prueba es incorrecta o porque encontramos un contraejemplo. Y en simulaciones y otros tipos de trabajo empírico una réplica es decir que uno ha hecho las mismas regresiones/simulaciones y no ha dado el resultado que dicen los autores. Los editores deberían ser más rápidos publicando comentarios y notas en estos casos.

  • ¿Y SI EL CHOCOLATE ADELGAZA, ELEVA EL ÁNIMO Y AYUDA A BAJAR EL COLESTEROL?
    Entiendo de que va este estudio: dice que si tenemos un grupo pequeño, analizamos una gran cantidad de variables y exigimos una pequeña variación para considerar esta representativa podemos considerar relevantes datos escasamente representativos.
    No obstante, ¿qué sabemos del adelgazamiento?Hay dos visiones:una que lo importante es las calorías que consumimos, luego una restricción calórica conduce a un adelgazamiento; otra que lo importante es no comer alimentos que eleven el azúcar en sangre, pues eso genera insulina y ello pone en marcha los mecanismos de almacenamiento de grasas y que, sin almacenamiento de grasas, el cuerpo se mantiene magro.El estudio dice que en una dieta hipocalórica se añaden 1,5 onzas de chocolate negro. En chocolate con un 70% de cacao vendría a suponer 245 calorías. A pesar de que es un mayor consumo calórico,si el régimen es restrictivo, los sujetos podrían seguir adelgazando según la visión calórica.Pero, ¿por qué adelgazarían más que gente que come menos? Tres razones:cualquier dietista con experiencia sabe que el mayor problema de los regímenes de adelgazamiento es el incumplimiento:La gente sufre adelgazando y se salta cíclicamente el régimen.Una pequeña cantidad de chocolate puede ser para algunos sujetos la recompensa hedónica que necesitan para mantenerse firmes el el cumplimiento de la dieta.El cacao tiene una substancia: la teobromina que es un estimulante del sistema nervioso central y produce placer y cierto grado de placidez-los tiradores suizos, cuando pierden el pulso, lo recuperan comiendo una pequeña cantidad de chocolate

    • negro-.Esto, unido a la pequeña cantidad de azúcar que posee,explicaría sin ningún problema el mejor ánimo del grupo que lo consume en contraste con el de simple restricción calórica. No obstante, mirémoslo ahora desde la perspectiva glicémica-se adelgaza si no se eleva el azúcar en sangre-el chocolate alto en cacao tiene un índice glicémico sumamente bajo: 25 el de 70% o más de cacao y 20 el de 85%. Lo que indica que la capacidad que tiene de transformarse en grasa es limitada consumido en pequeñas cantidades, por lo que quizá añadirlo a una dieta de adelgazamiento no sea una locura- de hecho, dietas centradas en el índice glicémico como la de Montignac, lo incluyen-. Pasemos a la reducción del colesterol:el chocolate negro posee compuestos fenólicos-los que le dotan de su característico amargor- y flavonoides:los segundos contribuyen a la reducción del colesterol y los primeros impiden la oxidación del colesterol malo-LDL-y aumentan el colesterol bueno-HDL-.Los compuestos fenólicos son los que producen las reducciones de colesterol usando aceite de oliva y los culpables de la paradoja francesa:que el consumo de los taninos del vino tinto (compuestos fenólicos) haga que a pesar de la alta ingesta de quesos y mantequilla los accidentes cardiovasculares sean limitados en Francia.
      Así que, aún sabiendo por donde van lo tiros del estudio, qué tal una afirmación del tipo: Cabe la posibilidad de que, para regímenes de restricción calórica, pequeñas cantidades de chocolate alto en cacao contribuyan a un más rápido adelgazamiento, un mantenimiento del ánimo y una reducción del colesterol

      • Gracias. A esto me referia antes cuando decia que no basta tener un hecho demostrado. Necesitamos tener claros mecanismos causales porque ellos mismos aclaran y después indican nuevas hipótesis a comprobar.

  • Antonio,
    el control - evaluación, reconocimiento, sanción social cuando proceda - de la difusión pública de la ciencia en los medios de comunicació es una asignatura que tenemos aun pendiente de plantear.
    Muchas de las percepciones erroneas (sobre riesgos, consecuencias, soluciones, ...) que "sufre" la sociedad proceden sin duda del perfunctorio tratamiento en los medios de la información sobre el estado del conocimiento.

    En el ámbito sanitario, del que tomas uno de tus ejemplos, hay una magnifica iniciativa que difundo buscando "partners" para intentar reproducir por aqui:
    Una web de revisión y calificación del tratamiento dado en los distintos medios a las noticias. A veces reconociendo el mérito, frecuentemente dando un merecido tirón de orjas que incentive un trabajo más riguroso.
    http://www.healthnewsreview.org/blog/

    En otras áreas de conocimiento cabe algo parecido.
    Y es que, como en casi todo, si no estamos dispuestos a poner manos a la obra en la solución, mejor dejar de quejarnos pues somos parte del problema

    Gracis por tu interesante post
    R

  • Relacionado con el tema de este post, un artículo interesante es el de Brian A. Nosek, Jeffrey R. Spies y Matt Moty
    http://arxiv.org/ftp/arxiv/papers/1205/1205.4251.pdf
    Los autores empezaron con el típico estudio, pero en un acto de responsabilidad científica decidieron revisar desde el principio los resultados, y vieron que fallaba la replicabilidad. Lejos de quedarse bloqueados, al final han producido un nuevo trabajo sobre los peligros de pasar de puntillas sobre la inferencia, y la persistencia de falsos resultados en la literatura. Muy interesante.

Los comentarios están cerrados.