Un paciente llega al hospital con una embolia pulmonar, un coágulo sanguíneo que ha viajado a los pulmones. Después de mejorar inicialmente, sus síntomas empeoran. El equipo médico sospecha que la medicación no está funcionando.
Entra en escena la inteligencia artificial, con su propia teoría. Ha escaneado los registros médicos y sospecha que un historial de lupus, una condición autoinmune que puede llevar a la inflamación del corazón, podría explicar lo que realmente aquejaba al paciente.
Resulta que el modelo de IA tiene razón.
Este tipo de escenario podría convertirse en realidad en un futuro no tan lejano, según un estudio publicado el jueves en la revista Science. Investigadores basados en la Escuela de Medicina de Harvard y el Centro Médico Beth Israel Deaconess descubrieron que un modelo de razonamiento de IA desarrollado por OpenAI destacó en el diagnóstico de pacientes y en la toma de decisiones sobre su cuidado. Igualó y a menudo superó a los médicos y al anterior modelo de IA, GPT-4.
Los investigadores realizaron una serie de experimentos en el modelo de IA para probar su agudeza clínica, incluidos casos reales como el del paciente con lupus que había sido tratado previamente en el departamento de emergencias de Beth Israel en Boston.
En general, la IA superó a dos médicos experimentados, y lo hizo solo con los registros electrónicos de salud y la información limitada que había estado disponible para los médicos en ese momento.
«Esta es la gran conclusión para mí: funciona con los datos del mundo real del departamento de emergencias», dijo el Dr. Adam Rodman, investigador clínico en Beth Israel y uno de los autores del estudio. «Funciona para hacer diagnósticos en el mundo real».
Otras partes del estudio se centraron en informes de casos publicados en el New England Journal of Medicine y viñetas clínicas para evaluar si el modelo de IA podía cumplir con los «puntos de referencia» establecidos y abordar cuestiones diagnósticas complejas.
«El modelo superó nuestra línea de base de médicos muy grande», dijo Raj Manrai, profesor asistente de Informática Biomédica en la Escuela de Medicina de Harvard, quien también formó parte del estudio.
Los autores enfatizan que la IA se basó solo en texto, mientras que en la vida real, los clínicos necesitan prestar atención a muchos otros factores como imágenes, sonidos y señales no verbales al diagnosticar y tratar a un paciente.
Sin embargo, el trabajo muestra hasta dónde ha avanzado la tecnología en los últimos años. Versiones anteriores de modelos de lenguaje grandes fallaron al enfrentarse a la incertidumbre y al generar una lista de posibles condiciones que podrían explicar los síntomas, lo que se conoce como un diagnóstico diferencial.
«Este documento es un hermoso resumen de cuánto han mejorado las cosas», dijo el Dr. David Reich, director clínico de Mount Sinai Health System en Nueva York, quien no estuvo involucrado en el trabajo.
«Tienes algo que es bastante preciso, posiblemente listo para la hora señalada», dice. «Ahora la pregunta abierta es cómo diablos se introduce en los flujos de trabajo clínicos de manera que realmente mejore la atención».
Después de todo, llegar a un diagnóstico final complicado, en el que el modelo de IA sobresale, no necesariamente refleja cómo se desarrollan las cosas «en la medicina clínica real», dice Reich, donde las «resultados son mucho más sutiles y tal vez más diversos».
Y el departamento de emergencias es solo una pequeña parte del cuidado médico total del paciente. Rodman reconoce que es poco probable que la IA hubiera hecho un trabajo tan «impresionante» si el equipo le hubiera proporcionado los registros de alguien que había pasado un mes en el hospital.
Ninguno de los involucrados en el nuevo estudio cree que los hallazgos respalden la suplantación de los médicos con IA, «a pesar de lo que algunas empresas probablemente dirían y cómo probablemente usarán estos resultados», dice Manrai.
«Creo que significa que estamos presenciando un cambio realmente profundo en la tecnología que remodelará la medicina», agrega. Sin embargo, los resultados hacen el caso de que los modelos de IA deben ser probados de manera rigurosa, idealmente a través de ensayos prospectivos que pueden dar más certeza sobre cómo la tecnología impacta en última instancia la práctica clínica.





