Desde 2024, esta palabra aparece en todos los anuncios: los nuevos modelos «razonan». OpenAI denomina a su línea «o1» y «o3». Anthropic habla de «extended thinking». Google tiene su modo Gemini Thinking. DeepSeek ha lanzado R1. La idea que se vende: modelos que reflexionan antes de responder.
El rendimiento medible mejora realmente en algunas tareas. Esa es la parte sincera del discurso. El resto merece ser analizado con detenimiento.
Qué cambia desde el punto de vista técnico
La técnica subyacente se denomina «chain-of-thought» (cadena de pensamiento). Se describió en un artículo de Google Brain en 2022: en lugar de pedir directamente la respuesta, se le pide al modelo que describa los pasos intermedios. El rendimiento en tareas de razonamiento matemático y lógico aumenta significativamente.
Proporcionar ejemplos de razonamiento paso a paso en la indicación mejora el rendimiento en las pruebas de referencia de razonamiento matemático y de sentido común de forma espectacular, para modelos a partir de un determinado tamaño.
Lo que hacen o1, R1 y sus equivalentes es internalizar esa cadena de pensamiento. En lugar de que tú la solicites en tu prompt, el modelo la genera automáticamente como tokens intermedios (a menudo ocultos al usuario) antes de llegar a la respuesta final. Los tokens de «reflexión» condicionan mejor el contexto y permiten llegar a una respuesta final más precisa.
La mejora es evidente. En problemas matemáticos formales, problemas de código y acertijos lógicos estructurados, estos modelos obtienen mejores resultados que sus predecesores. Las pruebas de rendimiento MATH, AIME y otras lo demuestran.
Lo que no cambia
El modelo siempre genera tokens, uno tras otro, basándose en probabilidades. La cadena de razonamiento es una secuencia de tokens predichos, no el rastro de un proceso cognitivo. El modelo no tiene una representación interna del problema. No tiene hipótesis que pruebe y descarte. Genera texto que parece un razonamiento porque ha sido entrenado con rastros de razonamiento humano.
Esta distinción es importante en contextos en los que se requiere robustez fuera de la distribución. Los modelos de razonamiento destacan en los tipos de problemas que están bien representados en sus datos de entrenamiento. En problemas estructuralmente diferentes, el rendimiento se reduce drásticamente. Un verdadero sistema de razonamiento formal (un demostrador de teoremas, por ejemplo) no presenta este comportamiento: o demuestra o falla, sin inventarse una demostración incorrecta.
El caso DeepSeek-R1: una grieta en el mito de la opacidad
En enero de 2025, DeepSeek publica R1, un modelo de razonamiento de pesos abiertos que alcanza un rendimiento comparable al de o1 de OpenAI en varias pruebas de rendimiento, a una fracción del coste de entrenamiento declarado.
DeepSeek-R1 alcanza un rendimiento comparable al de OpenAI-o1 en pruebas de razonamiento matemático y de código, utilizando técnicas de refuerzo puro (sin supervisión humana intensiva) durante la fase de reflexión.
Este momento es revelador en dos sentidos. En primer lugar, demuestra que las técnicas de razonamiento no son exclusivas de las empresas que cuentan con presupuestos de miles de millones. En segundo lugar, pone de manifiesto que la competencia es global y que las afirmaciones sobre una ventaja tecnológica sostenible son frágiles.
Qué cambia (y qué no cambia) para tus proyectos
Si está evaluando modelos para tareas de análisis o resolución de problemas, vale la pena probar los modelos de razonamiento. En tareas estructuradas (extracción con lógica condicional, validación de reglas, generación de código con pruebas), suelen superar a los modelos estándar.
Las limitaciones persisten. Son más costosas (se generan más tokens para la cadena de pensamiento). Son más lentas. No son más fiables en cuanto a los hechos (el razonamiento mejora la estructura de la respuesta, no la veracidad de los hechos utilizados). Y pueden «razonar» hasta llegar a una conclusión falsa con tanta seguridad como si fuera cierta.
La regla sigue siendo la misma: haz pruebas con tus propios datos, no con los benchmarks publicados por los fabricantes.