Investigadores destacan su alto nivel de precisión en enfermedades, genes y medicamentos, pero advierten sobre alucinaciones y malinterpretaciones de síntomas
ChatGPT, la popular inteligencia artificial conversacional desarrollada por OpenAI, ha captado la atención del público por su capacidad para responder preguntas médicas. Sin embargo, ¿qué tan confiable es cuando se trata de temas de salud? Un nuevo estudio publicado en la revista científica iScience ofrece respuestas reveladoras.
El trabajo fue liderado por el Dr. Ahmed Abdeen Hamed, investigador asociado a Northeastern University y Binghamton University, junto a un equipo interdisciplinario de científicos en Estados Unidos y Europa. Su objetivo: evaluar si ChatGPT puede generar información biomédica precisa y útil para los usuarios, especialmente en un contexto donde cada vez más personas lo consultan para interpretar síntomas y condiciones.
Altos aciertos en enfermedades, fármacos y genética
Los resultados fueron en gran medida sorprendentes. Utilizando miles de ejemplos y técnicas avanzadas de verificación con ontologías biomédicas —como DOID para enfermedades, ChEBI para medicamentos y GO para procesos genéticos—, los investigadores hallaron que ChatGPT identifica correctamente:
- Nombres de enfermedades en un 88% a 99% de los casos
- Medicamentos en un 90%–91%
- Genes y procesos genéticos hasta un 98%
“El resultado fue increíble”, dijo Hamed. “ChatGPT identificó correctamente que el cáncer es una enfermedad, que el BRCA está asociado al cáncer de mama, o que el Remdesivir es un medicamento. No esperábamos esta precisión”.
Los síntomas, el talón de Aquiles
No obstante, el modelo mostró deficiencias importantes en el reconocimiento de síntomas médicos. Su precisión osciló entre 49% y 61%, en gran parte debido al lenguaje informal con el que los usuarios suelen describir sus molestias, en contraste con los términos técnicos que utilizan los médicos y científicos.
Por ejemplo, mientras que una ontología médica podría registrar “eritema”, un usuario diría “enrojecimiento en la piel”. Estas diferencias dificultan que el modelo alinee sus respuestas con los términos correctos.
El estudio también reveló un riesgo serio: cuando se le pidió a ChatGPT que proporcionara números de acceso genéticos oficiales (como los usados por la base de datos GenBank del NIH), el modelo simplemente los inventó, un fenómeno conocido como “alucinación”.
Este tipo de error podría inducir a confusión o llevar a decisiones clínicas incorrectas si el usuario no cuenta con formación médica.
¿Solución? Integrar fuentes confiables
Hamed y su equipo proponen mejorar estos modelos mediante la integración directa de ontologías biomédicas y técnicas de recuperación de información como retrieval-augmented generation (RAG), lo que permitiría a la IA consultar fuentes verificadas al generar respuestas.
El estudio también encontró que los modelos de ChatGPT entrenados con datos más recientes tienden a producir asociaciones médicas que coinciden mejor con la literatura científica publicada entre 2020 y 2024, lo que sugiere que el conocimiento del modelo evoluciona con el tiempo.
El mensaje principal de los investigadores es claro: ChatGPT puede ser una herramienta útil en salud, pero debe usarse con precaución. No reemplaza la opinión de un profesional ni está libre de errores. Su valor radica en ofrecer una primera capa de orientación, siempre que los usuarios verifiquen la información y eviten confiar ciegamente en sus recomendaciones.
En un contexto donde la inteligencia artificial ya forma parte de la conversación cotidiana sobre salud, este estudio aporta claridad y fundamentos científicos para entender sus posibilidades y sus límites.




