Tecnología

Han puesto a los 21 chatbots de IA más populares a realizar diagnóstico diferencial. Fallan más que una escopeta de feria

Xataka Alejandro Alcolea 16/04/2026 13:00 38 vistas

Artículo Completo 1,173 palabras

‘House’ es una serie que me encanta. Las intrahistorias no me importan lo más mínimo, pero el proceso del diagnóstico diferencial -pese a todo lo peliculero-, me vuelve loco. Esa capacidad para ir descartando enfermedades que podían explicar unos mismos síntomas para llegar al diagnóstico más probable me parece brujería. Bien: han puesto a los 21 chatbots de IA más populares a realizar ese diagnóstico diferencial y el resultado es claro. Falla más que una escopeta de feria. En corto. El Mass General Brigham no es un ‘cualquiera’. Se trata de una red de médicos y hospitales estadounidenses sin fines de lucro entre los que se encuentran dos de las instituciones de enseñanza médica más prestigiosas del país. De enero a diciembre de 2025, un grupo de investigadores de la institución pusieron a 21 chatbots de IA como Claude 4.5 Opus, DeepSeek, Gemini 3.0 Pro, GPT-5 o Grok 4 a evaluar decenas de casos clínicos con el objetivo de establecer cuál era su nivel de acierto en un diagnóstico temprano. La información es extremadamente básica, pero también es la que tienen los profesionales a la hora de realizar ese diagnóstico diferencial y la intención última es evaluar la capacidad de razonamiento clínico de los modelos de lenguaje de última generación para ver si pueden ser un aliado clínico. La respuesta es que no. Mientras modelos optimizados para el razonamiento lograron puntuaciones mucho más altas que otros más simples como Gemini 1.5 Flash, la conclusión es que los LLM siguen siendo limitados para esta tarea. En Xataka OpenAI entra de lleno en la salud por una simple razón: ChatGPT ya es nuestro médico de primera línea (aunque no queramos admitirlo) El examen. A cada uno de los modelos se le entregó 29 casos clínicos que representan más de 16.200 respuestas en total. El resultado es que esas versiones más recientes de los chatbots más potentes no pudieron producir un diagnóstico diferencial adecuado en alrededor del 80% de los casos cuando sólo tenían información básica del paciente. El problema es que edad, sexo y síntomas es una información muy vaga, sí, pero con la que ‘juegan’ por primera vez los profesionales humanos que tienen que realizar ese diagnóstico diferencial. Poco a poco, a medida que van haciendo otras pruebas y obteniendo más información, afinan el resultado, pero es ese primer tratamiento de ‘descarte’ el que marca la diferencia muchas veces. "Queremos ayudar a separar el bombo de la realidad de estas herramientas a medida que se aplican a la atención médica" En Xataka Un ChatGPT dedicado a darte consejos médicos sin supervisión parecía una idea arriesgada. Y lo está confirmando Otra película. Y, precisamente, a medida que a los LLM se les iban dando más datos, el rendimiento y resultados fueron más robustos. Cuando el chatbot tiene más y más información como los datos de un análisis físico, los resultados de laboratorio y las imágenes diagnósticas, la cosa cambia y la IA llega al diagnóstico final en más del 90% de los casos. Pero claro, para llegar a ese escenario deben tener casi todos los datos clínicos, lo que evidencia aún más la brecha con la impotencia a la hora de realizar un filtrado inicial. No te fíes de Google ChatGPT. Los investigadores tienen claro que “estos modelos son muy buenos para identificar un diagnóstico final cuando los datos están completos, pero tienen dificultades al inicio de un caso abierto”, lo que les lleva a enfatizar que no hay que fiarse de ellos en casa. La industria de la IA está empujando su producto en el circuito médico, pero desde el estudio apuntan que “a pesar de las mejoras continuas, los LLM comerciales no están listos para su implementación clínica sin supervisión”. Afirman que se necesita un humano en la operación y “una supervisión muy estrecha” para poder escalar el uso de un LLM en el ámbito sanitario. Y ahí están hablando en todo momento del uso profesional, pero cada vez más se ven casos de personas que antes se autotrataban confiando en Google y que ahora lo hacen fiándose de lo que le dice ChatGPT. En el estudio enfatizan que “las alucinaciones permanecen” en estos modelos de última generación mostrando, además, preocupaciones sobre la seguridad y la integridad de los pacientes. En Xataka Gemini está comiéndole la tostada a ChatGPT. Y OpenAI ha respondido integrando un médico de bolsillo Lo de El Salvador. De la manera que sea, es evidente que, al final, la IA médica es un ayudante más, una herramienta, y aquí lo que se ha puesto a prueba es un chatbot “común” que sabe de todo, pero no está especializado en nada. En medicina, como en otras industrias, el uso de una IA puede ayudar en tareas como eliminación de posibilidades u ordenación de miles de datos, pero un chatbot aún no es un buen compañero en ese diagnóstico diferencial porque, sencillamente, no se puede confiar en él. Quienes sí van a tener que confiar en la IA para cualquier tipo de tratamiento son los salvadoreños. El Salvador ha sido un país pionero a la hora de adoptar nuevas tecnologías, y el presidente, Nayib Bukele, acaba de emprender otro experimento: 500 millones de dólares para dejar la sanidad en manos de Gemini. La población tendrá acceso a la app Dr.SV que ejercerá de médico de familia. Como detallan en El País, esta IA sabrá los síntomas y asignará llamadas con médicos que realizarán el diagnóstico. La IA hará el seguimiento para consultas y enfermedades crónicas y el objetivo es que se ocupe de pacientes con cáncer en un futuro. Según Bukele, están creando el mejor sistema de salud del mundo, algo curioso teniendo en cuenta que despidieron a más de 7.700 empleados del sistema de salud durante 2025. Por el bien de los salvadoreños, esperemos que ese nuevo experimento no termine como la Bitcoin City. En Xataka | La privacidad está muriendo desde que llegó ChatGPT. Ahora nuestra obsesión es que la IA nos conozca lo mejor posible - La noticia Han puesto a los 21 chatbots de IA más populares a realizar diagnóstico diferencial. Fallan más que una escopeta de feria fue publicada originalmente en Xataka por Alejandro Alcolea .

La IA cada vez se está metiendo más en medicina tanto porque recurrimos a ella para consultas en casa como en el ámbito profesional
Con datos, los resultados son buenos, pero para el diagnóstico temprano son terribles

2 comentarios Facebook Twitter Flipboard E-mail 2026-04-16T11:00:55Z

Alejandro Alcolea

Editor - Tech

Alejandro Alcolea

Editor - Tech Linkedin 1401 publicaciones de Alejandro Alcolea

Falla más que una escopeta de feria.

En corto. El Mass General Brigham no es un ‘cualquiera’. Se trata de una red de médicos y hospitales estadounidenses sin fines de lucro entre los que se encuentran dos de las instituciones de enseñanza médica más prestigiosas del país. De enero a diciembre de 2025, un grupo de investigadores de la institución pusieron a 21 chatbots de IA como Claude 4.5 Opus, DeepSeek, Gemini 3.0 Pro, GPT-5 o Grok 4 a evaluar decenas de casos clínicos con el objetivo de establecer cuál era su nivel de acierto en un diagnóstico temprano.

La información es extremadamente básica, pero también es la que tienen los profesionales a la hora de realizar ese diagnóstico diferencial y la intención última es evaluar la capacidad de razonamiento clínico de los modelos de lenguaje de última generación para ver si pueden ser un aliado clínico. La respuesta es que no. Mientras modelos optimizados para el razonamiento lograron puntuaciones mucho más altas que otros más simples como Gemini 1.5 Flash, la conclusión es que los LLM siguen siendo limitados para esta tarea.

En Xataka OpenAI entra de lleno en la salud por una simple razón: ChatGPT ya es nuestro médico de primera línea (aunque no queramos admitirlo)

El examen. A cada uno de los modelos se le entregó 29 casos clínicos que representan más de 16.200 respuestas en total. El resultado es que esas versiones más recientes de los chatbots más potentes no pudieron producir un diagnóstico diferencial adecuado en alrededor del 80% de los casos cuando sólo tenían información básica del paciente.

El problema es que edad, sexo y síntomas es una información muy vaga, sí, pero con la que ‘juegan’ por primera vez los profesionales humanos que tienen que realizar ese diagnóstico diferencial. Poco a poco, a medida que van haciendo otras pruebas y obteniendo más información, afinan el resultado, pero es ese primer tratamiento de ‘descarte’ el que marca la diferencia muchas veces.

"Queremos ayudar a separar el bombo de la realidad de estas herramientas a medida que se aplican a la atención médica" En Xataka Un ChatGPT dedicado a darte consejos médicos sin supervisión parecía una idea arriesgada. Y lo está confirmando

Otra película. Y, precisamente, a medida que a los LLM se les iban dando más datos, el rendimiento y resultados fueron más robustos. Cuando el chatbot tiene más y más información como los datos de un análisis físico, los resultados de laboratorio y las imágenes diagnósticas, la cosa cambia y la IA llega al diagnóstico final en más del 90% de los casos.

Pero claro, para llegar a ese escenario deben tener casi todos los datos clínicos, lo que evidencia aún más la brecha con la impotencia a la hora de realizar un filtrado inicial.

No te fíes de Google ChatGPT. Los investigadores tienen claro que “estos modelos son muy buenos para identificar un diagnóstico final cuando los datos están completos, pero tienen dificultades al inicio de un caso abierto”, lo que les lleva a enfatizar que no hay que fiarse de ellos en casa. La industria de la IA está empujando su producto en el circuito médico, pero desde el estudio apuntan que “a pesar de las mejoras continuas, los LLM comerciales no están listos para su implementación clínica sin supervisión”.

Afirman que se necesita un humano en la operación y “una supervisión muy estrecha” para poder escalar el uso de un LLM en el ámbito sanitario. Y ahí están hablando en todo momento del uso profesional, pero cada vez más se ven casos de personas que antes se autotrataban confiando en Google y que ahora lo hacen fiándose de lo que le dice ChatGPT. En el estudio enfatizan que “las alucinaciones permanecen” en estos modelos de última generación mostrando, además, preocupaciones sobre la seguridad y la integridad de los pacientes.

En Xataka Gemini está comiéndole la tostada a ChatGPT. Y OpenAI ha respondido integrando un médico de bolsillo

Lo de El Salvador. De la manera que sea, es evidente que, al final, la IA médica es un ayudante más, una herramienta, y aquí lo que se ha puesto a prueba es un chatbot “común” que sabe de todo, pero no está especializado en nada. En medicina, como en otras industrias, el uso de una IA puede ayudar en tareas como eliminación de posibilidades u ordenación de miles de datos, pero un chatbot aún no es un buen compañero en ese diagnóstico diferencial porque, sencillamente, no se puede confiar en él.

Quienes sí van a tener que confiar en la IA para cualquier tipo de tratamiento son los salvadoreños. El Salvador ha sido un país pionero a la hora de adoptar nuevas tecnologías, y el presidente, Nayib Bukele, acaba de emprender otro experimento: 500 millones de dólares para dejar la sanidad en manos de Gemini. La población tendrá acceso a la app Dr.SV que ejercerá de médico de familia. Como detallan en El País, esta IA sabrá los síntomas y asignará llamadas con médicos que realizarán el diagnóstico. La IA hará el seguimiento para consultas y enfermedades crónicas y el objetivo es que se ocupe de pacientes con cáncer en un futuro.

Según Bukele, están creando el mejor sistema de salud del mundo, algo curioso teniendo en cuenta que despidieron a más de 7.700 empleados del sistema de salud durante 2025. Por el bien de los salvadoreños, esperemos que ese nuevo experimento no termine como la Bitcoin City.

En Xataka | La privacidad está muriendo desde que llegó ChatGPT. Ahora nuestra obsesión es que la IA nos conozca lo mejor posible

Fuente original: Leer en Xataka

Noticias Relacionadas

El Síndrome de Noé: cada vez hay más personas que acumulan y acumulan perros y gatos en sus casas

Hace 53 minutos

Canadá va a estrenar el rascacielos residencial con más pisos de todo Norteamérica: tiene 12 lados y 351 metros de altura

Hace 1 horas

China ha resucitado el concepto más extraño de la Guerra Fría: un avión, un barco y un lanzamisiles en una sola máquina

Hace 2 horas

Hace 2.000 años, un esclavo cojo y calvo empezó a hablar en las tabernas de Roma. Su "teoría de las dos asas" ha marcado la psicología moderna

Hace 2 horas

Han puesto a los 21 chatbots de IA más populares a realizar diagnóstico diferencial. Fallan más que una escopeta de feria

La IA cada vez se está metiendo más en medicina tanto porque recurrimos a ella para consultas en casa como en el ámbito profesional

Con datos, los resultados son buenos, pero para el diagnóstico temprano son terribles

Compartir

Noticias Relacionadas

El Síndrome de Noé: cada vez hay más personas que acumulan y acumulan perros y gatos en sus casas

Canadá va a estrenar el rascacielos residencial con más pisos de todo Norteamérica: tiene 12 lados y 351 metros de altura

China ha resucitado el concepto más extraño de la Guerra Fría: un avión, un barco y un lanzamisiles en una sola máquina

Hace 2.000 años, un esclavo cojo y calvo empezó a hablar en las tabernas de Roma. Su "teoría de las dos asas" ha marcado la psicología moderna