Apple revela limitaciones en el razonamiento de modelos de IA

En un mundo donde la inteligencia artificial (IA) avanza a pasos agigantados, el razonamiento de modelos de IA se ha convertido en un tema crucial para entender cómo estas tecnologías pueden replicar procesos cognitivos humanos. Recientemente, Apple ha llevado a cabo un estudio innovador donde cuestiona si los LLMs con capacidad de razonamiento (LRMs) realmente piensan, o simplemente simulan pensar.

¿Cómo lo llevaron a cabo?

Diseñaron una batería de pruebas con puzzles clásicos —Torres de Hanoi, River Crossing, Checker Jumping, Blocks World— pero bajo condiciones controladas y sin riesgo de que los modelos simplemente repitan lo que ya han visto entrenando.

Lo interesante es que no solo evaluaron si aciertan, sino cómo llegan a la respuesta, analizando paso a paso los tokens que dedican a pensar.

¿Qué descubrieron?

Tres fases de rendimiento

Los modelos con razonamiento (Chain of Thought) funcionan mejor solo hasta cierto punto:

  • En tareas simples, los modelos sin razonamiento son más eficaces y precisos.

  • En complejidad media, los modelos “pensantes” sí sacan ventaja.

  • Pero en tareas complejas, ambos colapsan. Literalmente: precisión = 0%.

Menos esfuerzo cuando más se necesita

Cuando se complica el problema, los modelos —paradójicamente— piensan menos.

Aunque tienen tokens de sobra, acortan el razonamiento y se rinden.

Eso sugiere una limitación interna grave: no saben cuándo seguir pensando.

Fracasan incluso con la solución en la mano

 En el clásico ejemplo de Hanoi, les dan el algoritmo paso a paso. ¿Resultado? Fallan igual.

No es un problema de “buscar solución”. Es que no saben ejecutar razonamientos lógicos secuenciales, ni siquiera cuando se les dicta qué hacer.

El Estudio de Apple: Resultados

La conclusión de Apple es clara: los modelos actuales no razonan, solo predicen tokens de texto de forma verosímil. Y eso puede engañar incluso al lector más crítico. Parecen inteligentes, pero en cuanto se rompe el patrón, se desmoronan.

En otras palabras: imitan razonamiento sin comprenderlo. Y cuando no tienen ejemplos similares previos, entran en cortocircuito.

Implicaciones para el Futuro de la IA

Si los resultados de “The Illusion of Thinking” fueran totalmente fiables y representativos, las implicaciones serían profundas en al menos cinco frentes clave:

  • Se desmonta la idea de que estamos cerca de una Inteligencia Artificial General (AGI).
  • Si los modelos actuales colapsan ante tareas con complejidad real y no mejoran aunque se les den los pasos… no están razonando. Solo son imitadores estadísticos muy convincentes.
  • Esto implica que aumentar el tamaño del modelo o los datos no será suficiente para lograr inteligencia general.

Implicación concreta:

El avance hacia la AGI necesita un cambio arquitectónico o conceptual radical (ej.: sistemas híbridos simbólico-neuronales, memoria de trabajo explícita, reglas lógicas, etc.).

Riesgo en usos críticos de LLMs

  • Si fallan estrepitosamente en tareas complejas aunque las parezcan dominarsu uso en ámbitos como medicina, justicia, finanzas o educación avanzada es peligrosísimo.
  • El problema no es solo que se equivoquen, sino que lo hacen con explicaciones convincentes, lo que refuerza la ilusión de confianza.

Implicación concreta:

Los sistemas basados en LLMs deberían tener mecanismos de verificación externa, límites de aplicación y humanos supervisando siempre

Desconfianza en promesas comerciales de IA

  • Muchas empresas (incluidas las big tech) están vendiendo IA como si ya fueran sistemas capaces de “pensar”.
  • Este paper desmontaría ese argumento con datos empíricos.

¿Veredicto final?

El paper de Apple “The Illusion of Thinking” lanza una advertencia clara: los modelos actuales de lenguaje, incluso los diseñados para razonar, no piensan como creemos. Simulan procesos de pensamiento de forma convincente, pero colapsan cuando enfrentan tareas complejas, y lo hacen incluso aunque se les proporcione el algoritmo exacto. Su razonamiento es superficial, inconsistente y dependiente del patrón aprendido, no de una comprensión lógica real.

Aunque sus conclusiones son contundentes, no están exentas de crítica: los entornos son artificiales, el razonamiento humano es más ambiguo que un puzzle y otros modelos o técnicas podrían ofrecer mejores resultados. Aun así, este estudio pincha el optimismo excesivo y recuerda una verdad incómoda: estamos lejos de una IA que razone de forma general. Nos movemos aún en el terreno de la predicción estadística, no del pensamiento autónomo.

Acceso al paper original

¿Te ha gustado este contenido? Explora más artículos en Identidad Artificial y síguenos para no perderte las últimas novedades.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *