Poniendo en perspectiva la inteligencia artificial médica

Por Miquel Serra-Burriel

En los últimos años, la inteligencia artificial (IA) ha sido vista como la solución a muchos problemas de la atención sanitaria. Pero las bravatas de la cultura emprendedora y sus promesas de mejorar la vida y salud de las personas no se suelen alinear con la evidencia que, como sociedad, exigimos a quienes pretenden vendernos productos sanitarios.

Generación de nuevas moléculas

Sólo entre un 5 y un 10% de los medicamentos probados en humanos llegan al mercado. ExscientIA, BenevolentAI, y Recursion Pharmaceuticals han sido las primeras compañías en llevar a ensayos clínicos medicamentos “descubiertas” mediante IA. La capacidad de estas y otras empresas centradas en el descubrimiento (y en mejorar esta tasa) de nuevos medicamentos o indicaciones terapéuticas para atraer capital ha sido espectacular. ExscientIA tiene dos ensayos fallidos, y dos en curso, BenevolentAI, ha tenido tres fracasos, y Recursion sigue un patrón similar.

Un estudio del Boston Consulting Group publicado este verano estima una tasa de éxito del 80-90% en ensayos de fase 1, una cifra muy alta en comparación con el histórico (casi el doble), y un 40% en fase 2, en línea con lo tradicional. El estudio ignora el sesgo de selección, ya que la mayoría de los ensayos de fase 1 están en curso y no tienen resultados publicados simplemente porque no funcionan. Según los autores, si aplicamos el histórico en fase 3, se podría aumentar la tasa global de éxito hasta el 9-18%. Esto doblaría la productividad global de la I+D farmacéutica.

Sin embargo, si observamos los resultados financieros de estas compañías, las tres acumulan un déficit combinado de más de 1,500 millones de dólares y una caída en su cotización superior al 80%.

Fuente: Google finance (9-9-2024).

Diagnóstico – pronóstico - tratamiento

Las tres tareas fundamentales de la medicina moderna (y del análisis de datos), diagnóstico, pronóstico, y tratamiento, se basan en la capacidad de predecir, y para ello utilizan datos. El diagnóstico anticipar enfermedades, el pronóstico prevé resultados futuros, y las decisiones de tratamiento implican predecir el mejor entre (al menos) dos posibles cursos de acción (idealmente basados en datos obtenidos en un ensayo clínico aleatorizado). Es lógico pensar que, habiendo dos de por medio, un modelo de aprendizaje automático (o Machine Learning , ML) podría mejorar cada una de estas tareas.

Quizá el caso más conocido sea el de Theranos, fundada en 2003 por Elisabeth Holmes cuando tenía solo 19 años, y que prometía revolucionar los análisis de sangre con una tecnología que sólo requería una gota de sangre para diagnosticar enfermedades. Holmes fue condenada a 11 años y 3 meses de prisión. Este podcast sobre el caso no tiene desperdicio.

Ha pasado ya más de una década desde la caída de Theranos y el panorama internacional ha cambiado. En los últimos años, el desarrollo de dispositivos médicos habilitados con IA y/o ML ha crecido exponencialmente. Estos dispositivos, ya sean software o combinaciones de software-hardware, están diseñados para cumplir con los fines descritos anteriormente. Para retratar mejor el estado actual de su desarrollo y la distribución geográfica de los ensayos clínicos que utilizan estos dispositivos, he realizado junto con mis coautores un análisis de las tendencias en el registro de ensayos clínicos.

Usamos de la Plataforma de Registro Internacional de Ensayos Clínicos de la Organización Mundial de la Salud (OMS). Incluimos todos los ensayos de dispositivos médicos habilitados con IA/ML registrados entre el 1 de enero de 2010 y el 31 de agosto de 2023. De los 710,800 ensayos clínicos registrados en ese periodo, 2,669 utilizaban estos dispositivos. De estos, 2,517 ensayos tienen información sobre su ubicación geográfica, destacando especialidades como radiología, medicina interna, gastroenterología y urología. China lidera en número de ensayos nacionales con 1,095, seguida por Estados Unidos (196), Japón (162), India (139) y Corea del Sur (118).

Uno de los mayores problemas que presentan los modelos predictivos es la validez externa (además de la calibración y el sobreajuste). La estabilidad de los resultados predictivos (tanto diagnósticos cómo pronósticos) nunca está garantizada en poblaciones en las que el modelo no ha sido entrenado. Encontramos que solo el 3% de los ensayos se realizan en más de un país. Preocupante.

Cuando hablamos de medicamentos tradicionales, normalmente requerimos a las empresas que quieren comercializarlos que presenten resultados positivos en ensayos de fase 3. Las agencias regulatorias (FDA, EMA, etc.) piden estimaciones causales de sus beneficios y riesgos (mediante un ensayo clínico controlado aleatorizado) que demuestren ser mejores, o al menos no peores, que el tratamiento estándar. Idealmente, los nuevos medicamentos deben mejorar la cantidad (supervivencia) y la calidad de vida de los pacientes. Aunque el estándar de evidencia requerido por las agencias regulatorias para aprobar un medicamento ha ido bajando desde principios de los 2000 [véase 1,2,3,4], sigue siendo mucho más alto que el exigido para los dispositivos (incluyendo software), de los cuales aún no disponemos de suficiente información sobre su valor añadido.

Un estudio posterior describe las tendencias de los ensayos aleatorizados que utilizan la IA en diversas especialidades y regiones geográficas. Los autores identifican 88 estudios (4% del total si utilizamos como denominador los identificados en el artículo anterior). El estudio revela una concentración en gastroenterología, radiología, cirugía y cardiología. El predominio de ensayos en un solo centro, con una mediana de 359 pacientes, indica que los entornos controlados y de menor escala también son frecuentemente elegidos para los ensayos clínicos de IA en salud. Cabe destacar las variables elegidas para medir el resultado de estos ensayos: más de la mitad utilizan el rendimiento diagnóstico, y sólo 15 ensayos (17%) investigan el efecto sobre los síntomas del paciente.

La nota más positiva la encontramos en un estudio aleatorizado más reciente. Este estudio es el primero en la historia que demuestra una mejora en la supervivencia de los pacientes asignados al grupo de tratamiento en comparación con el grupo de control. Los autores crearon un algoritmo basado en IA que predice la mortalidad de los pacientes leyendo su electrocardiograma y alerta a los médicos (a través de una notificación en el móvil) para que intervengan. Los resultados muestran una reducción del 17% en la mortalidad a los 90 días, con un intervalo de confianza del 1 al 30%. Aunque los resultados son prometedores, el ensayo presenta un problema fundamental. Dado que el tiempo de atención médica es un recurso limitado y la unidad de aleatorización es el paciente, es muy probable que se viole el supuesto de no interferencia (SUTVA). Es decir, el estudio podría estar midiendo el resultado de dar más atención a unos pacientes a costa del grupo control. El hecho de que la mayor reducción en mortalidad entre el grupo tratado y el de control (pacientes de alto riesgo) se concentre en las causas no cardíacas sugiere esta posibilidad.

Sistemas generales de IA

La visión de unificar todas las herramientas anteriores mediante el análisis de grandes volúmenes de datos ya la tuvo IBM alrededor de 2011. Llamaron Watson a la máquina (en memoria del fundador de la compañía).

Watson ganó notoriedad en 2011 tras vencer en el programa Jeopardy! (emitido actualmente en RTVE). La empresa buscó aprovechar este éxito para revolucionar el sector de la salud con Watson Health. Su visión era ambiciosa: Watson ayudaría a oncólogos a tomar decisiones sobre tratamientos para el cáncer, asistiría a las compañías farmacéuticas en el desarrollo de medicamentos y conectaría a los pacientes con ensayos clínicos. El objetivo era democratizar el conocimiento “premium” de los oncólogos del Memorial Sloan Kettering, y ofrecer recomendaciones personalizadas de tratamiento en cualquier parte del mundo.

Sin embargo, Watson Health nunca cumplió con las expectativas. A pesar de una inversión de 5,000 millones de dólares y la contratación de hasta 7,000 empleados, la tecnología no alcanzó los resultados prometidos. IBM adquirió bases de datos masivas, incluyendo Truven, que contenía información de reclamaciones de más de 300 millones de personas, y Merge, que albergaba una vasta colección de imágenes médicas. La idea era que Watson analizara estos datos y descubriera patrones imposibles de detectar para los humanos. Sin embargo, los datos de una región específica, como Nueva York, no eran aplicables a pacientes en otras regiones, como China, lo que evidenció la falta de representatividad en los datos.

IBM terminó desmantelando y vendiendo Watson a piezas.

En resumen, la IA en medicina, tras más de una década de desarrollo, no ha terminado de despegar. Hay aspectos prometedores, especialmente en los resultados de ensayos aleatorizados, pero la brecha entre la evidencia y las promesas sigue siendo abismal.

Hay 4 comentarios

Ender dice:

12/09/2024 a las 10:29

Gracias, muy interesante.
Hecho de menos más análisis académico de los efectos y resultados de la IA, y a partir de ahora de la IA Generativa, puesto que la mayoría de información es proporcionada por consultores y compañías implantadoras, que tienen un interés evidente en glosar las maravillas por venir y los riesgos si no se hacen cosas (contratándoles a ellos, claro está).
Una pregunta: tenía entendido que una de las mayores aplicaciones de la IA en medicina es en el diseño de nuevas moléculas (sobre todo proteínas), susceptibles de atacar a los patógenos de modo focalizado, y a menudo complementando a la nanotecnología.
¿Alguna información al respecto?
Gracias!!

Responder
Ender dice:

12/09/2024 a las 10:30

Perdón: "Echo" de menos.

Responder
Miquel dice:

13/09/2024 a las 08:42

Hola Ender, de moment hay muchos "could" i "shoulds" https://ethz.ch/en/news-and-events/eth-news/news/2024/04/ai-designs-new-drugs-based-on-protein-structures.html

Nada concreto aún.

Gracias!

Responder
J Antonio dice:

17/09/2024 a las 09:23

Lo primero que debería aclararse y diferenciarse es la dificultad de IBM en su apuesta fallida por los servicios Cloud para competir con AWS, GCP o Azure y su foco en la democratización de la salud digital, igualmente fallida.

En el artículo se aprecian algunas particularidades no muy deseables, desde el punto de vista meramente informativo, como cuando se indica,

"Watson Health nunca cumplió con las expectativas. A pesar de una inversión de 5,000 millones de dólares y la contratación de hasta 7,000 empleados, la tecnología no alcanzó los resultados prometidos. IBM adquirió bases de datos masivas, incluyendo Truven, que contenía información de reclamaciones de más de 300 millones de personas, y Merge, que albergaba una vasta colección de imágenes médicas."

Realmente Truven y Merge son lo mismo, persistencia de grandes volúmenes de datos por parte de la compañía Merative, dedicada a datos, análisis y tecnología para la industria de la salud.

Responder