Ensayos clínicos en tiempos de pandemia

Todos seguimos con atención e impaciencia las noticias que nos van llegando acerca de los estudios que se están realizando sobre posibles tratamientos del COVID-19. A continuación discuto brevemente dos de los problemas a los que se enfrentan. El primer problema es el reducido tamaño muestral de los estudios que se han realizado hasta la fecha, lo que complica la interpretación de los resultados. El segundo problema está relacionado con el diseño de los estudios y su adaptación en función de los resultados que se vayan observando, de forma que se concilie el objetivo de estimar con precisión el efecto del tratamiento con el de salvar el mayor número posible de vidas entre los participantes.

Para ilustrar el problema del tamaño muestral, voy a utilizar como ejemplo el estudio publicado recientemente por el virólogo francés Didier Raoult en el que se analiza el efecto de la hidroxicloroquina, un antiguo fármaco para la malaria que tiene la ventaja de ser conocido y de fácil producción. Los investigadores franceses asignaron a 16 pacientes de COVID-19 al grupo de control y a 26 al grupo de tratamiento, quienes recibieron unos 200mg de sulfato de hidroxicloroquina tres veces al día. Mientras que a los seis días de iniciarse el tratamiento el 70% de los pacientes del grupo de tratamiento daba negativo en los tests, en el grupo de control únicamente ocurrió con el 12.5%, una diferencia que es significativa al 0.1%. Los resultados de este estudio han tenido una enorme repercusión y el presidente Donald Trump ha declarado que confía en que la hidroxicloroquina sea el “game changer” que todos estamos esperando, desatando entre los consumidores una fiebre por hacerse con este producto.

Como ya han discutido varios autores, el estudio francés es imperfecto en muchos aspectos (ver Dahly, Gates y Morris). Desafortunadamente, la asignación de los pacientes no fue aleatoria. Los pacientes del grupo de tratamiento fueron reclutados en Marsella, mientras que el grupo de control lo forman pacientes de otras localidades del sur de Francia. Además, los autores excluyeron del análisis final a varios pacientes del grupo de tratamiento que, de haber sido testados, probablemente habrían dado positivo (tres habían sido trasladados a la UCI y uno falleció). También parece mejorable la forma de medir el outcome, utilizando una variable dicotómica, que no explota información más detallada acerca de la rapidez de la curación.

Pero incluso si obviamos todos estos problemas, no deberíamos apresurarnos a concluir que la hidroxicloroquina “cura” el COVID-19. Incluso con una diferencia tan grande como la observada entre el grupo de tratamiento y el grupo de control en este estudio, cabe una probabilidad no despreciable de que esta diferencia se deba a la casualidad y no a la existencia de un efecto real del tratamiento. Es decir, podría tratarse de un falso positivo, utilizando la jerga estadística. Como muestro en detalle en el siguiente párrafo, si por ejemplo pensábamos inicialmente que la hidroxicloroquina tenía un 10% de probabilidad de duplicar la tasa de curación, después de observar los resultados de este estudio deberíamos aumentar nuestros “priors” hasta el 41.6%, pero estaríamos todavía lejos de tener la certeza de que será la cura definitiva.

Para calcular de una manera aproximada la posibilidad de que los autores hayan detectado un efecto real y no un falso positivo utilizo el sencillo método que proponen Maniadis, Tufano y List (2014). El método require calcular la probabilidad de obtener un efecto significativo debido a la existencia de un efecto real y la probabilidad de obtener un falso positivo. Para calcular la posibilidad que tenían los investigadores franceses de detectar un resultado significativo real, necesitamos calcular el poder estadístico del estudio (la probabilidad de detectar el efecto, asumiendo que este existe) y hacer algún supuesto sobre la probabilidad que asignamos a priori de que exista el efecto. Podemos considerar, por ejemplo, un escenario moderado, en el que pensamos que, a priori, de existir un efecto, el tratamiento aumentaría la tasa de curación del 12.5% al 25%. Dado el tamaño muestral del estudio, y considerando el nivel de significatividad (alpha) del 0.1% obtenido por los autores, el poder estadístico del estudio sería del 0.6% (utilizando el comando de stata: power twoproportions 0.125 0.25, n1(16) n2(26) alpha(0.001)). Si somos relativamente escépticos acerca del potencial de la hidroxicloroquina y asignamos una probabilidad previa del 10% a que el tratamiento tiene efecto, la probabilidad de que los autores obtengan un “auténtico” positivo sería del 10%*0.6%=0.06%. Por otro lado la probabilidad de obtener un “falso” positivo sería igual al nivel de significatividad que hemos fijado, en este caso un 0.1%, multiplicado por la probabilidad que hemos asignado inicialmente a que no exista ningún efecto, un 90%, lo que supone un 0.09% (=0.1%*90%). Dados estos supuestos, la probabilidad de que el resultado significativo observado por los autores refleje un efecto real sería igual P(auténtico positivo)/( P(auténtico positivo)+P(falso positivo))=0.06%/(0.06%+0.09%)=41.6%.

Naturamente, distintos lectores pueden tener distintas expectativas acerca de la probabilidad de que exista un efecto, y esto afectará al cálculo realizado, pero en general la probabilidad posterior de que que exista un efecto a partir de un único estudio con una muestra pequeña seguirá siendo limitada. Además, la probabilidad de que se trate de una falso positivo podría ser aún mayor si tenemos en cuenta que este es únicamente uno de los múltiples tratamientos que se están ensayando. Cada ensayo adicional multiplica la probabilidad de obtener por casualidad resultados significativos.

Todo esto no quiere decir que no debamos tener esperanzas acerca del potencial de la hidroxicloroquina, pero sí que debemos ser cautos. Afortunadamente, existen al menos otros 13 estudios en camino y la Organización Mundial de la Salud anunció el 20 de marzo un ensayo a gran escala randomizado que tendrá lugar en decenas de países y en el que participarán miles de enfermos. En este ensayo se estudiará la eficacia de cuatro tratamientos distintos, incluyendo además de la hidroxicloroquina, un compuesto antiviral llamado remdesivir, y dos combinaciones de drogas utilizadas para el HIV.

A medida que estos estudios a gran escala vayan generando datos, se planteará un nuevo problema en el diseño de los estudios. En principio, si el único objetivo fuera estimar con precisión el efecto de un tratamiento, lo óptimo sería dividir a los participantes en grupos de igual tamaño hasta la conclusión del estudio. Sin embargo, a medida que los datos vayan revelando que alguno de los tratamientos parece ser más eficaz, para salvar las vidas de los participantes sería conveniente aumentar el número de individuos que son asignados al tratamiento más exitoso, aunque esto retarde la velocidad a la que se obtiene información sobre la eficacia de cada tratamiento. Este problema ha sido estudiado recientemente por el economista Max Kasy y coautores (aquí y aquí), quienes proponen un algoritmo de asignación y muestran diversos ejemplos de su aplicación. La aplicación de este tipo de algoritmos en los nuevos ensayos clínicos podría contribuir a salvar numerosas vidas.

Hay 8 comentarios
  • Hola Manuel,
    Excelente entrada. Si ya es díficil a veces para los economistas entender los tipo de error, el poder, etc. no me quiero imaginar para la ciudadanía.
    A propósito, el Gobierno Francés acaba de permitir la utilización generalizada de la hidroxicloroquina en los casos graves de COVID-19. Veremos muy pronto sus efetos...
    https://twitter.com/raoult_didier/status/1243189917695512576
    Saludos

      • Sí, esperemos que funcione. Sería una gran noticia.
        Y que los que la necesitan por prescripción médica (artritis reumatoide, lupus), sigan teniendo acceso a ella. Y que, si finalmente no sirve de nada frente al coronavirus, no haya demasiados casos de efectos secundarios graves.

  • Gracias, Manuel. 150% de acuerdo con usted sobre los ensayos clínicos precipitados por la pandemia (lo mismo vale para experimentos precipitados por otras tragedias).

    Hay algo peor, sin embargo. Me refiero a las simulaciones precipitadas por la pandemia para promover intervenciones que sus autores (cualquiera sea la excelencia de sus antecedentes académicos) "están convencidos" son soluciones "finales", tan mágicas como las promovidas por los ensayos clínicos antes denunciados. Y son peores porque su verdadera intención es crear pánico --sobre la pandemia, o sobre las intervenciones en curso.

    Los "expertos" serviles a políticos y gobernantes no pasan de idiotas útiles, en particular cuando sus recomendaciones se basan en experimentos y simulaciones falsas. Las decisiones de gobierno --España hoy y por los últimos mil años es ejemplo clarísimo-- estarán marcadas por los intereses personales de quienes participan en las decisiones --cualquiera sea el método de decisión colectiva. La función de los "expertos" es aplaudir la decisión colectiva, cualquiera haya sido su valor informativo en la esa decisión.

    Nada de lo anterior quita valor al esfuerzo de muchos investigadores e ingenieros que buscan mejores soluciones para prevenir pandemias futuras y mitigar sus consecuencias. Ni tampoco al esfuerzo de "los bomberos" esos que sí quieren apagar el fuego de la pandemia en curso, arriesgando sus vidas --a veces (¿muchas?) dudando de la eficacia de acciones impuestas por superior

  • Manuel, la pregunta relevante es por qué tanto ruido con experimentos, simulaciones, análisis de todo tipo y sobretodo con rumores sobre hechos imposibles o improbables y especulaciones sobre futuros imposibles o improbables. Hemos dejado atrás las "fake news": la pandemia nos ha traído el ruido generado por todos aquellos que para ganarse la vida, para ganar o mantenerse en el poder, o para sus 15 minutos de celebridad golpean cacerolas (o el bombo, como Manolo).

    Ese ruido, a mi juicio, es consecuencia de nuestro lado oscuro (ese responsable del daño que hacemos a otros y a veces a nosotros mismos). Este lado incluye tanto la maldad como la negligencia. La maldad a su vez puede ser intencional u oportunista. Hoy la relevante es la oportunista, esa que rescató Oliver Williamson décadas atrás y que fue fundamental para que la teoría neoclásica se convirtiera en teoría de incentivos.

    Tan o más importante es la negligencia, base de la estupidez. Esa que destacó Carlo Cipolla (ver https://en.wikipedia.org/wiki/Carlo_M._Cipolla ), al mismo tiempo y en el mismo lugar donde Willamson rescató la maldad oportunista. La negligencia es falta de suficiente atención en nuestras decisiones y esa insuficiencia puede alegarse que en medida importante es consecuencia de nuestra especialización (esa que todos los buenos economistas celebramos).

    Nota: Lo anterior poco o nada tiene que ver con la BE de psicólogos amateurs.

  • Solo una nota: aunque el artículo dice que "A total of 26 patients received hydroxychloroquine and 16 were control patients", a continuación se explica cómo 6 de los sujetos del grupo de tratamiento se acabaron excluyendo, por lo que, finalmente, "[t]he results presented here are therefore those of 36 patients (20 hydroxychloroquine-treated patients and 16 control patients)".

    Es decir, no son 26 sino 20 los pacientes tratados.

    • Gracias Carlos por la precisión. Es un detalle importante que creo que los autores no tratan de una manera correcta. Esos 6 pacientes fueron inicialmente tratados pero, por diversas razones (uno se muere, 2 son trasladados a la UCI...) el tratamiento se interrumpe antes del sexto día. Los autores deciden excluir a esos 6 pacientes del análisis, lo que en mi opinión sesga los resultados. Hubiera sido correcto excluirlos si la "attrition" fuera as good as random, pero no cuando se debe precisamente a que el outcome es negativo. Como mínimo, deberían hacer hecho un análisis de robustez incluyendo estos 6 casos.

Los comentarios están cerrados.