Data Falsificada: el caso Gino

admin 4 comentarios

Por Lorenz Goette y Guillem Riambau

Los editores consideramos que iniciativas que promueven la transparencia de la investigación científica como la de Data Colada son muy útiles y necesarias para aumentar la credibilidad de nuestra disciplina.
Además, repudiamos cualquier intento de manipulación de los resultados de las investigaciones y creemos en el debate abierto como modo de resolver los posibles conflictos que puedan surgir en torno a la credibilidad de las investigaciones.
Ainoa Aparicio, Andreu Arenas, Luis Puch, Santi Sánchez-Pagés y Judit Vall Castelló.

Entre el 17 y el 30 de junio de 2023, el equipo de Data Colada publicó una serie de cuatro entradas en las que presentaron pruebas de fraude en artículos publicados recientemente por la Profesora de la Harvard Business School (HBS en adelante) Francesca Gino. La investigación de Data Colada se llevó a cabo en 2021. Basándose en sus hallazgos, HBS llevó a cabo una investigación interna que resultó en la suspensión por dos años sin salario de la Prof. Gino, tal como anuncia su página web oficial de Harvard.

La noticia ha tenido impacto más allá de los círculos académicos habituales y de Twitter, quizás principalmente porque la falsificación irónicamente se llevó a cabo en estudios sobre honestidad. The Guardian, The New York Times, The Boston Globe, The Washington Post, The New York Post, Business Insider, NPR, The Chronicle of Higher Education (también aquí), VOX (el blog, no el partido), o The Atlantic han informado sobre el asunto, entre muchos otros. Entre los medios generales en España, solo Expansión ha difundido la noticia del fraude, aunque La Vanguardia publicó un artículo en 2017 sobre la investigación de Gino titulado “Si te ha engañado una vez, lo volverá a hacer, según Harvard".

En un giro inesperado de los acontecimientos, Francesca Gino anunció en su cuenta de LinkedIn a principios de agosto que "no tuve más opción que presentar una demanda contra la Universidad de Harvard y miembros del grupo Data Colada, quienes trabajaron juntos para destruir mi carrera y reputación", ya que "[nunca] jamás falsifiqué datos ni cometí irregularidades de ningún tipo en mi investigación". La demanda solicita nada menos que 25 millones de dólares. (Para el lector curioso: es interesante ver el apoyo generalizado que mostraba la gran mayoría de las respuestas a su publicación en LinkedIn, en comparación con las reacciones que hemos observado en el mundo académico).

En lo que sigue, debido a las limitaciones de espacio, nos centraremos en dos de las acusaciones de fraude y en las respuestas de Francesca Gino en su demanda. La lógica en los dos artículos que omitimos es similar, y se pueden encontrar aquí (Data Falsificada (Part 3): "The Cheaters Are Out of Order") y aquí (Data Falsificada (Part 4): "Forgetting The Words").

Data Falsificada (Parte 1): 'Clusterfake' (publicado el 17 de junio de 2023).

En este artículo, los autores discuten el Estudio 1 en el artículo de PNAS de 2012 escrito por Shu, Mazar, Gino y Ariely, titulado “Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end” (spoiler: artículo retractado el 13 de septiembre de 2021). El Estudio 1 se llevó a cabo en la Universidad de Carolina del Norte (UNC) en 2010. Gino, quien era profesora en UNC antes de unirse a Harvard en 2010, fue la única autora involucrada en la recopilación y análisis de datos del Estudio 1.

Los datos estaban disponibles en Open Science Framework. Hay 101 observaciones y están casi (pero no completamente) ordenadas por: primero, la asignación de condiciones (0 = control, 1 = firma en la parte superior y 2 = firma en la parte inferior), y segundo (dentro de cada asignación de condiciones), un identificador de participante llamado "P#". Ocho de los identificadores de participante están duplicados o están fuera de secuencia de una manera sospechosa. El equipo de Data Colada argumenta que "[n]o hay forma, según nuestro conocimiento, de ordenar los datos para lograr este orden. Esto significa que estas filas de datos fueron movidas manualmente o que los identificadores de participante "P#" fueron alterados manualmente. Veremos que es lo primero.”

Data Colada señala que los datos también incluyen un archivo de Excel que contiene los mismos datos y además algunas fórmulas. Un archivo subsidiario que el archivo de Excel utiliza para producir la hoja de cálculo es calcChain.xml. CalcChain "conserva el orden en el que se introdujeron inicialmente las fórmulas en la hoja de cálculo", independientemente de dónde se muevan finalmente las celdas. Utilizando CalcChain, Data Colada muestra que 6 observaciones que aparecen una encima de la otra en el conjunto de datos están fuera de la secuencia esperada. Además, los identificadores de participante "P#" de las filas que rodean los sitios donde CalcChain identifica las posiciones iniciales se saltan la posición exacta que habría sido movida, lo que refuerza la idea de que las observaciones fueron movidas.

Las 8 observaciones son fundamentales para los resultados del artículo, porque, como señala Data Colada, "todas están entre las observaciones más extremas dentro de su condición, y todas en la dirección predicha". Todo esto "sugiere contundentemente" (argumentan) que las observaciones fueron modificadas para obtener unos resultados en concreto. Para ser precisos, “[c]on sólo n = 8 se produce un t(6) = 21.92, con un p-value minúsculo”.

Los puntos 234-247 (páginas 52-55) en la demanda de Gino abordan esta crítica. La mayoría de sus argumentos se basan en el hecho de que los datos originales se recopilaron en papel (por ejemplo, 247: "Data Colada sabía que el Estudio 1 se realizó en papel, con la recopilación de datos en papel en 2010. Data Colada también sabía que el hecho de que el estudio se hubiera realizado en papel proporcionaba una razón razonable y plausible por la cual los datos (...) no estaban ordenados en ningún orden particular"). Aunque son correctos, estos argumentos no abordan el problema clave señalado por Data Colada: que los datos se reorganizaron dentro de la hoja de cálculo de Excel después de la entrada inicial de las observaciones.

Data Falsificada (Parte 2): 'Mi Año es Harvard' (publicado el 20 de junio de 2023).

En este artículo, los autores discuten el Estudio 4 en el artículo de Psychological Science de 2015 titulado “The Moral Virtue of Authenticity: How Inauthenticity Produces Feelings of Immorality and Impurity” (Gino, Kouchaki y Galinsky).

Todos los participantes eran estudiantes de Harvard. Al recopilar información sociodemográfica, se les pidió que proporcionaran su año en la universidad (pregunta 6, ver ilustración sacada de los materiales originales publicados).

Respuestas razonables a la pregunta 6 serían 'Junior', 'junior', '3', 'clase de 2016', '’16', etc. Lo que parece menos razonable como respuesta es 'Harvard', que encontramos hasta 20 veces en los datos. Como señalan los autores de Data Colada, “Es difícil imaginar que muchos estudiantes cometieran este error altamente idiosincrásico de forma independiente (...) Además, y agregando a la peculiaridad, las respuestas de estos 20 estudiantes están todas dentro de 35 filas (de la 450 a la 484) en los datos publicados”.

Todas estas observaciones proporcionan resultados acordes con las predicciones de los autores. Los que, por asignación aleatoria, se predijo que darían respuestas 'altas', lo hicieron, y aquellos que fueron asignados a la condición asociada con una expectativa de respuestas 'bajas' dieron respuestas 'bajas'. Como señala Data Colada, “el efecto para las observaciones de 'Harvard' es significativamente mayor que el efecto para las observaciones no relacionadas con Harvard (p < .000001). Esto sugiere contundentemente que estas observaciones de 'Harvard' fueron modificadas para producir el efecto deseado”, o, por lo menos, sugiere que esta coincidencia es muy poco probable.

¿Qué tiene que decir Gino al respecto? Los puntos del 248 al 253 (páginas 55-56) de su demanda abordan esta entrada en el blog. El punto más relevante es el 250: "Data Colada, como científicos del comportamiento experimentados, sabían que los participantes a menudo responden a una encuesta para recibir el pago debido por su participación (como participantes en el estudio) y pueden apresurarse en las respuestas, a veces más de una vez para cobrar, y proporcionan valores extremos como respuestas. Es ampliamente conocido en la ciencia del comportamiento que los participantes en estudios online a veces proporcionan datos de baja calidad al responder encuestas sin la atención que requieren". Ninguno de los otros 5 puntos de Gino en respuesta a esta publicación de Data Colada aborda por qué 20 participantes aleatorios que llenaron las respuestas prácticamente al azar lo hicieron en la misma dirección, cuando la falta de atención predeciría todo tipo de errores para esas observaciones.

La denuncia de Gino tiene exactamente 100 páginas. Termina con el “Petitorio” [petición de reparación] (a partir de la página 95), en la que solicita (página 97) "[e]n la séptima causa de acción por difamación contra los Demandados Simonsohn, Nelson y Simmons, [el equipo de Data Colada] daños por al menos 25 millones de dólares, en una cantidad que se determinará en el juicio, incluyendo pérdidas económicas, oportunidades laborales perdidas, daño a la reputación, angustia emocional y daños punitivos, costos y honorarios de abogados (...)."

Consideramos desafortunada la decisión de Gino de llevar este tema a los tribunales. La mejor opción para la comunidad académica sería un debate abierto sobre lo que exactamente sucedió con todos estos estudios. Dado que este debate ahora se está llevando a cabo en los tribunales, esto impone un gran coste personal a las personas que plantearon dudas ciertamente válidas. En particular, esto es problemático porque tiene un efecto inhibidor en la futura revisión de la investigación publicada. Es por eso que apoyar el fondo de defensa legal de Data Colada es un bien público importante al que todos deberíamos contribuir. Si estás de acuerdo con nosotros, puedes contribuir al equipo legal de Data Colada a través de este enlace. No solo ellos, sino la ciencia seguramente se beneficiará.

[Nos gustaría señalar que, además de la denuncia legal de Gino y las publicaciones citadas de Data Colada, hemos recopilado gran parte de la información del artículo de Andrew Ganato del 4 de agosto titulado “Addressing the Data Analysis in Francesca Gino’s Data Colada Lawsuit”.]

(Este post fue originalmente escrito en inglés. Original English version here. Versió en català aquí).

Hay 4 comentarios
  • Buenos día,
    Evidentemente cualquier noticia de fraude o malversación en el ámbito académico resulta moralmente desespcionante, ya que es donde es la último refugio de la ética y valores humanistas.
    Ahora si nos cernimos sólo a los hechos, me resulta algo desconcertante que la justicia viene de la mano de un bloguero, sabiendo que casi imposible que accedan a información tan detallada que sólo el investigador suele conocer -por confidencialidad- incluso los datos suelen ser animados y saltando la presunción de inocencia y el derecho al honor; y no un organismo como los comités deontológicos y de ética o en su caso los tribunales justicia que son los únicos competentes en emitir juicios y dictaminar y emitir juicios.
    No sé si está persona ha comitido un fraude o no, pero las formas y los plazos son importante si hablamos de culpar a alguien de fraude y no queremos volver a la ya conocida justicia del lejano oeste.

  • Interesante entrada.

    Opino que uno de los fundamentos para catalogar a una práctica científica, es que sus experimentos sean replicables. Cualquier alteración en la metodología o en los datos, que no se refleje en el proceso experimental vicia el resultado y adquiere por tanto el rango de pseudociencia.
    Aquí se pone en riesgo la credibilidad de una profesión, o más bien la de los filtros para detectar y sancionar este tipo de prácticas fraudulentas.
    Debería existir una agencia internacional “anti-doping”. Ya que el volumen de papers es inasumible para la revisión extraordinaria, se podrían escoger un número limitado de forma aleatoria para analizar pormenorizadamente por año. De esta manera aparte de la revisión por pares, o métodos ordinarios, existirían las garantías de esta agencia que podría tener un comité elegido de forma democrática por las principales asociaciones de profesionales.

    Un saludo.

  • No habia un problema similar con la base de datos de Ariely de la compañia de seguros? Algo asi como que duplico las observaciones iniciales.
    DataColada #98

Los comentarios están cerrados.