Noticias - News365

Armado con algunos conocimientos de Python y un profundo sentimiento de injusticia, un estudiante de medicina pasó seis meses intentando averiguar si un algoritmo había invalidado su solicitud de empleo.

Todd FeathersStartup y Cultura Tecnológica5 de mayo de 2026Play/Pause ButtonPauseprogramar. Algunos días, no se daba cuenta de que el sol se había puesto hasta que uno de sus compañeros de piso llegaba a casa y le preguntaba por qué no estaban encendidas las luces.

Durante varios días, Markey había estado navegando por un grupo de Discord sobre residencias médicas, una fuente de conocimiento en la que los estudiantes informan a sus compañeros sobre cada etapa del proceso de solicitud y selección. Había visto cómo otros estudiantes, muchos de ellos, publicaban las invitaciones a entrevistas que habían recibido.

Cuando nadie te llama

Markey no recibió ninguna oferta de entrevista, solo rechazos rotundos. Esto le pareció no solo extraño, sino injusto a este hombre tranquilo de 33 años, originario de Houston, Texas, que habla con seguridad y sin alardear sobre sus logros. Obtuvo excelentes calificaciones en una prestigiosa facultad de medicina, fue coautor de artículos en el Journal of the American Medical Association y The Lancet, escribió una conmovedora declaración personal y recibió excelentes cartas de recomendación. Un profesor escribió que “nunca había conocido a un estudiante de medicina más hábil, talentoso y con una mejor posición en su trayectoria profesional que Chad”.

Markey revisó su solicitud en busca de un fallo fatal. No encontró nada que pudiera llevar al director de un programa de residencia a desestimar una solicitud por lo demás competitiva, así que sus sospechas se dirigieron hacia otro culpable. Había oído rumores de que algunos hospitales estaban utilizando una herramienta de selección de IA gratuita para ayudar a procesar las solicitudes y que había estado mostrando calificaciones incorrectas para algunos estudiantes. Empezó a preguntarse si la IA era responsable de su falta de ofertas para entrevistas.

En la primera página de su Evaluación del Desempeño como Estudiante de Medicina (MSPE), un resumen exhaustivo de sus inicios profesionales preparado por su facultad, Markey detectó un lenguaje que sospechaba que podría activar una herramienta de selección automatizada para rebajar su calificación. En la Evaluación se indicaba que Markey había solicitado "voluntariamente" tres permisos de ausencia distintos, con una duración total de aproximadamente 22 meses, y que había optado por extender su tercer año de estudios a dos años por “motivos personales”.

Eso no era del todo cierto. En 2021, a Markey le diagnosticaron ‘espondilitis anquilosante’, una enfermedad autoinmune que afecta la columna vertebral y que podía agravarse hasta el punto de impedirle mantenerse en pie, y mucho menos realizar el intenso trabajo físico que se espera de los estudiantes de medicina durante las rotaciones clínicas. Estaba a punto de graduarse de la facultad de medicina en siete años, en lugar de los cuatro habituales, pero sus ausencias habían sido inevitables y médicamente necesarias. Esto se explicaba en un párrafo narrativo en la primera página. Markey sentía que calificar las ausencias de “voluntarias” podría interpretarse como una señal de que había cedido a la presión de la facultad de medicina y no había podido seguir el ritmo de sus estudios.

comentó un solicitante de empleo a investigadores de la Universidad Northeastern . “Mi valor como persona y como empleado, como trabajador, se basa en mi capacidad para superar una serie de filtros automatizados”.

Solo un puñado de estados han regulado el uso de herramientas de IA para la selección de personal. Las leyes de Illinois, Nueva Jersey y Colorado (aún no en vigor) prohíben a los empleadores el uso de herramientas discriminatorias, pero exigen poca transparencia, más allá de notificar a los solicitantes que se está utilizando IA. La normativa de California es más rigurosa, ya que exige a los empleadores que prueben periódicamente sus herramientas de IA para detectar sesgos. Sin embargo, ninguna de estas normas permite a las personas comprender cómo las evaluó una herramienta de IA específica o si las discriminó.

Así que Markey se embarcó en una tarea imposible. Dedicó los siguientes seis meses a escribir correos electrónicos, artículos de investigación, solicitudes legales y un flujo constante de código Python, intentando comprender el funcionamiento interno del sistema de filtrado de IA. “Se convirtió en una obsesión”, declaró Markey a WIRED en febrero. “Creo que nunca antes me había sentido tan frustrado en mi vida”.

Descubriendo a la IA

El primer examen médico de Markey llegó en la escuela secundaria, cuando revisó la bolsa de plástico grande donde su padre guardaba sus medicamentos recetados, anotó los nombres y fue a la biblioteca del colegio comunitario local para investigar para qué servían. Su padre era bipolar y alcohólico, un torbellino de energía carismático e impredecible, capaz de brindar un gran amor y causar un gran dolor.

Una Navidad, que también era el cumpleaños de Markey, su padre no apareció porque lo habían arrestado por conducir ebrio. Otra Navidad, Markey miró por la ventana y vio que le estaban embargando su camioneta porque su padre la había puesto como garantía para un préstamo rápido. Mientras Markey estudiaba en la universidad con becas Pell, su familia se vio obligada a declararse en bancarrota y perdió su casa. Cuando tenía 21 años, su padre falleció.

Durante ese mismo período, la pandemia de covid sacudía la profesión médica. Entre los numerosos desafíos, los hospitales experimentaron un aumento masivo en el número de solicitudes para sus programas de residencia. Antes de la pandemia, los estudiantes solían tener que viajar a cada hospital para las entrevistas. Cuando las entrevistas se volvieron virtuales, pudieron postularse a muchos más programas que antes. Markey solicitó ingreso a 82.

Este aumento ha dificultado que los hospitales revisen y prioricen las solicitudes. En 2023, la Asociación de Colegios Médicos Estadounidenses (AAMC) anunció una colaboración con Thalamus, creador de Cortex, una herramienta de evaluación para solicitudes de residencia. A partir de 2025, el uso de esta herramienta sería gratuito para los programas de residencia.

Algunos hospitales ya trabajaban con Cortex, una herramienta que muestra los documentos de solicitud en un panel de control intuitivo y permite a los revisores buscar por palabra clave o filtrar a los candidatos según una amplia variedad de características. Cortex también utiliza versiones optimizadas de los modelos generativos de OpenAI para estandarizar las calificaciones entre centros con diferentes prácticas. La colaboración con la AAMC facilitó una mayor adopción de la herramienta. Según Thalamus, alrededor de 1,500 programas de residencia en todo el país, es decir, el 30%, utilizaron Cortex para revisar las solicitudes y tomar decisiones de selección durante el ciclo 2025-2026.

Datos incorrectos

A pocas semanas de la fecha límite de septiembre de 2025, cuando los hospitales comenzaron a revisar las solicitudes, surgieron problemas. La empresa emitió un comunicado indicando que algunos programas de residencia habían reportado que Cortex mostraba calificaciones incorrectas para algunos usuarios. En plataformas como el grupo de Discord de Markey, los solicitantes comentaban entre sí.

Justo cuando la ansiedad de Markey por la falta de entrevistas alcanzaba su punto máximo, recibió una noticia emocionante: un resumen de investigación que había presentado había sido aceptado para ser expuesto en la próxima reunión anual de la Sociedad Estadounidense de Hematología y publicado simultáneamente en la revista Blood. Lo que sucedió a continuación reforzó la convicción de Markey de que los sistemas de IA, y no los humanos, eran los responsables de sus menguantes posibilidades de ingresar a un programa de residencia.

Solo un par de días después de la revelación de Markey, el 16 de octubre, Thalamus publicó una entrada de blog sobre los problemas previamente reportados con Cortex. La compañía afirmó haber documentado imprecisiones en las calificaciones mostradas a los programas de residencia, pero solo en 10 casos verificados de entre más de 4,000 consultas de clientes. Cortex ahora tenía una precisión del 99.3 %.

Thalamus declaró posteriormente a WIRED que, de entre más de 12,000 consultas, no recibió informes adicionales de inexactitudes. Sin embargo, en aquel momento, la falta de claridad sobre cómo Cortex empleaba la IA generó debates en foros y artículos en revistas especializadas. Steven Pletcher, cirujano de cabeza y cuello que supervisa el programa de residencia en otorrinolaringología del Hospital Universitario de California en San Francisco, comentó a WIRED que un colega de otra institución le había informado que algunas de las calificaciones que mostraba Cortex eran “sumamente inexactas”. Pletcher, que también investiga los procesos de selección de residentes, quiso analizar la plataforma personalmente.

“Como director de programa, cuando escuchas: ‘Tenemos este sistema de IA para revisar solicitudes’, piensas: ‘¿Puedo simplemente hacer que me dé una lista de solicitantes a los que debería entrevistar?’”, señaló Pletcher a WIRED. “Tenía ciertas preocupaciones, como cualquiera, sobre si un nuevo sistema para revisar solicitudes presenta información inexacta”.

En una reunión nacional de la Sociedad de Otorrinolaringólogos Universitarios en noviembre, Pletcher se reunió con un colega y revisó las aplicaciones de Cortex. Una de las funciones principales del sistema es la herramienta de normalización de calificaciones mediante inteligencia artificial. Según lo que Pletcher pudo observar, las calificaciones que se mostraban para un solicitante en esos gráficos podían variar de un minuto a otro.

Pletcher y cuatro de sus colegas realizaron una prueba estructurada y documentaron los errores que encontraron. En enero de este año, publicaron sus resultados en la revista The Laryngoscope, donde describieron "errores persistentes en el sistema Cortex de Thalamus con potencial para afectar negativamente a los aspirantes a programas de residencia".

Jason Reminick, director ejecutivo de Thalamus, declaró a WIRED que muchos de los temores sobre Cortex expresados por estudiantes y facultades de medicina en el ciclo 2025-2026 se debían a malentendidos sobre el funcionamiento de la herramienta. “Gran parte de la comunidad tuvo acceso repentino a ella y empezó a usarla sin haber completado el proceso de compra”, afirmó. “Y no me refiero solo al pago, sino al proceso de exploración para comprender qué hace la herramienta”.

A continuación, analizó dos versiones del lenguaje de la solicitud de baja médica (MSPE) mediante VADER, un modelo de procesamiento del lenguaje natural de código abierto que asigna valores de sentimiento emocional a palabras y frases, y descubrió que una descripción médicamente precisa de sus bajas recibía una puntuación de sentimiento más positiva que el lenguaje de "razones personales" en su MSPE. Luego, utilizó Python para crear un conjunto de datos sintéticos de 6,000 solicitantes de residencia. A cada uno se le asignaron puntuaciones de exámenes, calificaciones, un recuento de cuántas publicaciones tenían en su currículum y clasificaciones numéricas de la solidez de sus cartas de recomendación y su idoneidad para la investigación académica. Markey luego los dividió en dos cohortes: una con puntuaciones de análisis de sentimiento que reflejaban el lenguaje de la solicitud de baja médica en su MSPE y la otra con puntuaciones que reflejaban un lenguaje médicamente preciso.

Los dos grupos estaban igualmente calificados en cuanto a calificaciones, puntuaciones en las pruebas y otras características. Pero cuando Markey sometió a los solicitantes sintéticos a un modelo de regresión logística entrenado para seleccionar al 12% superior de los solicitantes, aquellos del grupo con un lenguaje del MSPE médicamente preciso tuvieron un 66% más de probabilidades de ser seleccionados. Aun así, al igual que en su primera prueba, esto solo arrojó luz sobre cómo un algoritmo genérico podría evaluar su solicitud. Markey quería comprender las herramientas de Thalamus.

Localizó la patente de un sistema de selección de solicitudes de residencia mediante inteligencia artificial, desarrollado por la empresa Medicratic. Thalamus adquirió Medicratic en 2025. Las patentes describen lo que un sistema puede hacer, no necesariamente lo que hace, pero fue la explicación más clara que Markey pudo encontrar sobre lo que podría estar sucediendo dentro de la caja negra.

IA contra la IA

Con la ayuda de GitHub Copilot y, posteriormente, de la herramienta Claude Code, recientemente lanzada por Anthropic, Markey comenzó a aplicar ingeniería inversa al sistema descrito en la patente de Medicratic, replicando el flujo de datos y utilizando los mismos módulos de código abierto siempre que fue posible. Cuando fue necesario, recurrió a los consejos de Claude Code y a su propia investigación. Por ejemplo, antes de que el sistema descrito en la patente pueda evaluar las solicitudes, un programa de residencia debe indicar qué características (como el rendimiento académico, el profesionalismo o el liderazgo) valora más. Markey revisó investigaciones publicadas sobre la selección de residentes y encuestas a directores de programas de residencia para determinar cómo ponderar dichas características.

Markey terminó su sistema unas semanas antes del Match Day, el 20 de marzo. Pensó que su esquema y características generales se aproximaban a cómo una herramienta como la descrita en la patente de Medicratic podría procesar los mismos datos. Tras más de cuatro meses analizando diversos algoritmos, era lo mejor que podía hacer. Una vez más, al procesar diferentes versiones de su lenguaje MSPE con el sistema, los resultados fueron radicalmente distintos: cambiar la redacción sobre su permiso de ausencia de “motivos personales” a una descripción médicamente precisa dio como resultado una puntuación significativamente mayor.

Kari Roberts, quien supervisa el examen médico de posgrado en el Tufts Medical Center, declaró a WIRED por correo electrónico que muchos de los programas de residencia de la facultad probaron Cortex por primera vez el otoño pasado, utilizándolo para descartar las solicitudes incompletas o que no cumplían con los requisitos mínimos. "Se detectaron errores significativos en el algoritmo que incorporaba datos del MSPE, lo que provocó calificaciones erróneas", escribió Roberts. "Esto no fue exclusivo de nuestra organización y el equipo del decano lo comunicó al equipo de Thalamus en tiempo real". Thalamus declaró a WIRED que "un número muy reducido de discrepancias identificadas" fueron "investigadas y corregidas con prontitud" y que "en algunos de estos casos, lo que inicialmente se percibió como una inexactitud se confirmó que era coherente con los materiales originales".

Cambio de “suerte”

Después de que Markey comenzó a enviar correos electrónicos a coordinadores de programas sin previo aviso, recibió ofertas de entrevista de 10 instituciones, incluidos algunos de los hospitales más prestigiosos del país. Finalmente, fue admitido en el programa de psiquiatría de la Universidad de Columbia en el Hospital New York Presbyterian, donde comenzará su residencia en julio.

Tres días después de que le asignaran un puesto, Markey recibió una respuesta de Thalamus a su solicitud de acceso a datos. La jefa de gabinete de la empresa, Michele Li, escribió que ninguno de los programas a los que había solicitado ingreso utilizaba la herramienta Medicratic que Markey había estado intentando analizar. Cortex, por su parte, no utilizaba la metodología de puntuación de sentimientos descrita en la patente.

WIRED. Adaptado por Mauricio Serfatty Godoy.

Cuando no consigues entrevistas de trabajo, ¿puede ser culpa de la IA?

Cuando nadie te llama

Descubriendo a la IA

Datos incorrectos

IA contra la IA

Cambio de “suerte”

Compartir

Noticias Relacionadas

Niños con bigotes falsos burlan filtros de edad y Meta espera resolver el problema con la IA

Google le da la mano a Bukele para experimentar con el sistema de salud salvadoreño

El precio de la vivienda de lujo aumentará un 4%, y las operaciones, un 5%

PayPal gana un 14% menos y anuncia un plan de ahorro de 1.280 millones