A medida que los modelos de AI pasan de simples herramientas a agentes, el “cómo” se hace cada vez más importante.
Por: Ph.D, IEEE Carlos Pantsios Markhauser*
A medida que los modelos de AI de hoy en día aumentan en complejidad y se integran a aplicaciones más críticas, se hace más difícil entender sus formas de razonamiento, en principio, debido a que sus arquitecturas son muy sofisticadas. Esto resulta especialmente cierto en los modelos de “Deep Learning” y de LLM (Long Language Model).
La exactitud de las respuestas de los modelos recientes de AI ha mejorado sensiblemente, impulsando el interés en el potencial tecnológico para ayudar a sectores como el de diagnósticos médicos, definición de terapias, o actuando como tutores virtuales.
Dado que muchos modelos de AI se utilizan cada vez más frecuentemente como asistentes, en vez de herramientas, varios estudios recientes sugieren que la forma en que estos modelos razonan, podría tener serias implicaciones en áreas críticas como el cuidado de la salud, el área legal, la educación, seguridad, y la electrónica de consumo.
Los modelos de razonamiento de AI presentan principalmente tres limitaciones: 1) falta de un verdadero entendimiento, 2) dependencia de la calidad de los datos para su entrenamiento, y 3) retos en el manejo de contexto y ambigüedad.
En primer lugar, los modelos de AI carecen de una comprensión cabal de los conceptos. Ellos son buenos en detectar y procesar patrones en los datos, pero no entienden el contexto ni el significado. Ellos malinterpretan sarcasmo, por ejemplo, a pesar de haber sido entrenados con oraciones con estructuras similares.
En segundo lugar, el razonamiento en AI depende fundamentalmente de la calidad de los datos y su alcance. Polarizaciones, vacíos o ruido en los datos para entrenamiento impactan directamente en su razonamiento. Por ejemplo, modelos entrenados con información obsoleta no pueden razonar sobre eventos recientes, como es el caso de chatbot, ignorante de los cambios políticos posteriores al 2021. En forma similar, sistemas de vehículos sin conductor entrenados para climas soleados podrían tener problemas en caso de calles con nieve o hielo.
En tercer lugar, modelos de AI presentan problemas con ambigüedades o contextos dinámicos. El razonamiento humano se adapta a situaciones evolutivas al incorporar realimentación de tiempo-real y conocimiento externo. Pero muchos modelos de AI operan con parámetros fijos. Por ejemplo, el chatbot puede fallar al presentarse un cambio brusco de dirección en la conversación iniciada.
Estas limitaciones afectan notoriamente la habilidad que poseen los modelos de AI para replicar el razonamiento humano y limitan su aplicación práctica en escenarios complicados.
Nuevas investigaciones sobre el razonamiento en modelos de AI sugiere que el problema que ellos afrontan es que razonan en forma fundamentalmente diferente a los humanos, lo que hace que sean menos adecuados para resolver problemas sutiles. Un reciente trabajo de investigación aparecido en Nature Machine Intelligence destaco que los modelos tienen dificultades en distinguir entre creencias y hechos facticos, y que sistemas multiagente, diseñados para proveer concejos médicos, están sujetos a errores en el razonamiento, que puede desembocar en diagnósticos inapropiados.
A medida que los modelos de AI pasan de simples herramientas a agentes, el “cómo” se hace cada vez más importante, dice James Zou, profesor asociado de ciencia de datos médicos del Stanford School of Medicine y autor del trabajo de Nature Machine Intelligence.
La distinción entre hechos facticos y creencias es una capacidad particularmente importante en áreas como, la legal, terapia, y la educación, dice Zou.
Experimentos realizados en nuevos modelos de razonamiento, tales como OpenAI’s01 o DeepSeek’sR1, mostraron buenos resultados en verificaciones fácticas, alcanzando consistentemente resultados correctos por encima del 90%. En cambio, los nuevos modelos presentaron problemas en casos en que se procesaran falsas creencias reportadas en primera persona (esto es, “Yo creo que …x”, cuando x es incorrecto), mostraron desaciertos en 52% a 62% de los casos.
Fallas en la forma en que los modelos de AI alcanzan decisiones podrían ser particularmente problemáticos en discusiones médicas en grupos. Aquí, sistemas multiagente basadas en AI trabajan colaborativamente discutiendo problemas, con la esperanza de reemplazar al grupo de médicos que diagnostican complicadas condiciones médicas, dice Lequan Ty, profesor asistente del medical AI de la Universidad de Hong Kong. Los mejores sistemas multiagente resolvían problemas simples en forma correcta llegando al 90% de exactitud.
Sin embargo, con problemas complejos que requerían de especialistas, los sistemas colapsaron alcanzando tan solo 27% de exactitud. Parte del problema se debió a que muchos de estos sistemas multiagente se basaban en el mismo LLM, para todos los agentes involucrados en la discusión, dice Yinghao Zhu, uno de los estudiantes de Ph.D co-autor del trabajo de investigación. Aquí, la falla en conocimiento del modelo conduce a que todos los agentes acordaron dar la misma respuesta errada.
En conclusión, el reto de un razonamiento robusto y genuino en la AI, en particular en los modelos de LLM constituye un reto no resuelto. Mientras LLMs destacan en la generación de texto fluido de tipo humano basado en patrones estadísticos, ellos frecuentemente presentan problemas con deducciones genuinas, sistemáticas y de lógica de multinivel, una debilidad frecuentemente expuesta por el asunto de las alucinaciones. Los modelos de LLM se muestran débiles al afrontar problemas de lógica sistemática y verificación.
Los modelos de AI que razonan se encuentran limitados por su habilidad de entender conceptos, su alta dependencia de datos de entrenamiento imperfectos, y sus dificultades en el manejo de contextos ambiguos y de cambios rápidos en el tiempo. Para ello, sigue siendo necesaria la incorporación de expertos humanos para la supervisión de los procesos y la rigurosa validación de los datos que se suministran continuamente a los modelos, y aproximaciones de AI híbridos-simbólicos.
*Texto escrito por Carlos Pantsios Markhauser, PhD, IEEE. es Ingeniero en Telecomunicaciones, doctor en electrónica de telecomunicaciones, Magister en Comunicaciones de la Universidad Simón Bolívar, con Especialización en Telecomunicaciones en satélite y redes The George Washington University - School of Engineering & Applied Science, Especialización en Telecomunicaciones Digitales University of Colorado Boulder. Se desempeña como profesor titular de postgrado en las escuelas de telecomunicaciones en la Universidades Simón Bolívar y Universidad Católica Andrés Bello. Además de consultor profesional en proyectos de TV basado en Argentina.

