Tu IA ahora piensa... pero ¿en serio piensa?
Se llaman reasoning models y aquí te cuento cómo funcionan
Esto no es algo nuevo, ya tenemos más de un año viendo cómo nuestros asistentes de IA se ponen a “pensar” antes de responder. En algún momento dejaron de respondernos inmediatamente y empezaron a decirnos cosas como “déjame pensarlo detenidamente” o, los más tímidos, simplemente a mostrarnos un texto que dice “thinking” en su interfaz.
Estos modelos que “razonan” se llaman “modelos de razonamiento” o “reasoning models” (duh!), y hoy quiero que hablemos de ellos. Desde cómo se entrenan y cómo funcionan, hasta qué significa que una máquina razone (y si realmente lo está haciendo).
De lo que no tengo duda es que los reasoning models son probablemente el avance más importante de la IA desde los transformers (no, no son los robots de los ochentas, sino la arquitectura que les permite a nuestros asistentes entender lo que les decimos, aquí te dejo el post donde hablé de ellos).
Bueno, empecemos!
¿Qué son los modelos de razonamiento?
Me imagino que alguna vez has usado esa técnica de prompting en que le dices a tu asistente “piensa paso a paso tu respuesta”. Esta técnica se llama Chain of Thought (CoT) o Cadena de pensamiento y lo que hace es, de alguna manera, forzar a los LLMs a conversar consigo mismos antes de realizar la tarea que le pides.
Los modelos de razonamiento son LLMs que han sido entrenados específicamente para comportarse de esa manera.
Ahora vamos a paso a paso. Para entender cómo funcionan estos modelos lo primero que tienes que saber es que tanto los modelos que “razonan” como los que no lo hacen, vienen del mismo lugar: algo llamado modelo base.
El modelo base
Déjame empezar contándote que hay varios tipos de LLMs (chaaaan!). Los que usamos los simples mortales todos los días son dos: los modelos de instrucciones y los de razonamiento. Un modelo de instrucciones, pues sigue instrucciones (duh!), y bueno, ya sabemos lo que hace el de razonamiento.
Como te dije hace un segundo, ambos vienen de un modelo base. El modelo base es un modelo entrenado con una cantidad brutal de texto. Estoy hablando de noticias, libros, artículos científicos, conversaciones de foros de Internet, y hasta canciones de reggaetón. Con este entrenamiento, el modelo base aprende a predecir la siguiente palabra en un texto.
Sólo hace eso, predice palabras. No “entiende” lo que lee, no tiene información guardada en ninguna base de datos ni nada por el estilo. Simplemente aprendió los patrones del lenguaje humano luego de ver miles de millones de ejemplos y los usa para crear texto.
Ya hemos hablado sobre cómo se entrenan estos modelos anteriormente, si quieres entender ese proceso con lujo de detalles, te recomiendo que le des una leída a mi curso acelerado en IA.
Ahora, que este modelo base sepa completar texto no significa que pueda conversar contigo ni seguir instrucciones, y mucho menos ponerse a pensar. Es sólo la base sobre la que se van a construir los modelos con los que interactuamos.
Por un lado, se entrena para convertirse en un modelo de instrucciones. Para esto básicamente se le dan miles o millones de ejemplos de instrucciones y sus respuestas y el modelo aprende a entender la intención de la pregunta y a responder. Luego de eso, los humanos le damos feedback sobre sus respuestas para hacerlas aún más útiles y listo, ahí está tu LLM de instrucciones
Pero entrenar a los reasoning models es otra cosa, y eso es lo que te quiero contar ahora…
¿Cómo se entrenan los modelos de razonamiento?
OK, entonces tenemos un modelo base y queremos convertirlo en un modelo de razonamiento, así que nos toca entrenarlo para que razone… pero…
¿cómo hacemos para entrenar estos modelos?
Glad you asked! Lo primero que hacemos con el modelo base se llama Supervised Fine-Tuning (SFT, para los amigos). Se trata de mostrarle al modelo miles de ejemplos para que aprenda a imitarlos.
A diferencia de los modelos de instrucciones, a los que se le muestran miles de ejemplos de conversaciones para que aprendan a conversar, los modelos de razonamiento se entrenan con ejemplos de razonamiento (duh!). A estos modelos se les muestran problemas y sus soluciones paso a paso, mostrando la lógica de cada paso. Es decir que en lugar de entrenarlo con ejemplos de pregunta-respuesta, le agregamos el proceso de pensamiento para llegar a esas respuestas.
Una vez que se terminó el SFT empieza la segunda fase llamada Reinforcement Learning (o RL). Aquí en vez de mostrarle la respuesta correcta, se trata de dejar que el modelo nos dé su propia respuesta y calificar esa respuesta. Una buena calificación refuerza esa forma de responder (de ahí viene el nombre de esta fase), si le ponemos una mala nota el modelo va a evitar responder así, cómo nos ha pasado a todos en el colegio.
Si repetimos esto miles de miles de veces, eventualmente nuestro modelo aprende como responder para sacar una buena nota.
Ambos, los modelos de instrucciones y los de razonamiento pasan por esta etapa, pero lo hacen de forma muuuuuy diferente.
En el caso de los modelos de instrucciones, el feedback se lo damos los humanos en base a qué tan buena nos parece esa respuesta (de todas formas hay subjetividad ahí), y eso es bueno porque estos modelos están entrenados para conversar y los humanos somos expertos en eso.
Pero con los modelos de razonamiento la cosa cambia, aquí el feedback no viene de nosotros, usamos preguntas matemáticas, código de programación, cosas que puedes decir si están bien o mal, cero subjetividad. Entonces sólo le damos buena nota cuando la respuesta es correcta, y como hablamos de matemáticas, la respuesta correcta depende del razonamiento procedimiento que use.
Así es como aprenden los modelos en esta fase y terminan haciendo algo que se parece mucho a razonar…
Un experimento en China…
Tal vez no lo sepas, pero China es una potencia en IA.
Más allá de modelos como ChatGPT, Claude o Gemini, los LLMs Chinos como Qwen, Kimi o DeepSeek compiten de igual a igual o incluso superan en algunas áreas a los modelos de las compañías de EEUU.
De hecho, el que pueda contarte cómo se entrena un modelo de razonamiento se lo debemos a DeepSeek, un laboratorio Chino…
Mientras que empresas como OpenAI (que de “open” no tiene nada), Google o Anthropic mantienen en secreto cómo se entrenan sus modelos, la gente de DeepSeek decidió compartir en detalle cómo hicieron para entrenar al suyo, y publicaron un paper en enero del 2025 en el que contaban todo. 🤯
Volviendo al experimento… ¿recuerdas que el entrenamiento de esos modelos tiene dos partes: Supervised Fine-Tuning y Reinforcement Learning?
Pues DeepSeek se preguntó qué pasaría si se saltan por completo la primera fase (SFT). Recuerda que durante esta fase se le muestran al modelo miles de ejemplos de razonamiento paso a paso.
Entonces agarraron su modelo base y fueron directamente al reinforcement learning. Le dieron unos cuantos miles de problemas de matemáticas y solo le ponían buena nota si llegaba a la respuesta correcta. Punto, nada más. El modelo que salió de ahi se llamó R1-Zero.
Lo impresionante aquí fue que R1-Zero comenzó a mostrar comportamientos de razonamiento. Verificaba sus respuestas, empezó a corregirse a sí mismo, se tomaba más tiempo “pensando” cuando el problema era difícil, probaba diferentes rutas de solución para los problemas antes de responder. Todo esto pasó sin haber visto ejemplos de razonamiento, sólo diciéndole si su respuesta estaba bien o mal durante el entrenamiento. De alguna manera parece que este modelo aprendió por si mismo a “pensar” paso a paso.
Para probar qué tan bueno era en matemáticas, lo hicieron resolver el AIME 2024, una competencia para estudiantes avanzados de secundaria, y R1-Zero sacó un impresionante 71% (un puntaje mayor al que sacaría la mayoría de los humanos!). Encima de eso, también tuvo muy buena performance resolviendo problemas de competencias de código de programación, biología, química y física. Realmente impresionante.
Ahora, dar la respuesta no es suficiente, estoy seguro que a todos nos han dicho en algún momento que lo que importa es poder demostrar cómo llegamos a esa respuesta. Pues R1-Zero respondía de manera un poco desordenada, por decir lo menos. A veces mezclaba inglés con chino en la misma respuesta o se quedaba trabado en un loop infinito tratando de verificar su respuesta.
¿Te imaginas que en medio de una respuesta tu interlocutor empiece a cambiar de idioma de la nada? Seguramente pensarías que está crazy, and you’d start doubting about his capacity to 给出一个连贯的回答… ¿cierto? 😅 (lo siento, no lo pude evitar).
El experimento de R1-Zero parece indicar que estos modelos son capaces de crear capacidades de “razonamiento” desde cero. Aunque también se dice que podrían estar siguiendo patrones presentes en su data de entrenamiento. Después de todo, el modelo base fue entrenado con millones de textos que incluyen libros de matemáticas, lógica, papers científicos, demostraciones paso a paso, etc, etc, etc.
Pero R1-Zero fue un experimento, luego de eso entrenaron a R1, y aquí te cuento cómo hicieron.
El deep dive
Prepárate psicológicamente porque vamos a sumergirnos en las profundidades del entrenamiento de los modelos de razonamiento, cortesía del paper de DeepSeek.
Lo que vamos a ver es cómo se entrenó el modelo de razonamiento DeepSeek-R1, no hay información pública sobre cómo se entrenan otros modelos como Claude o ChatGPT (aunque asumo que debe ser algo parecido).
No te preocupes, que lo vamos a ver con profundidad pero no voy a hacerlo demasiado aburrido técnico, y además te prometo que haré mi mayor esfuerzo para ponerle un toque de humor. 😉
Nota: el entrenamiento que voy a describir está basado en el paper de DeepSeek.
Fase 1: Supervised Fine-Tuning (SFT)
Luego del experimento de R1-Zero, para entrenar al modelo R1, los investigadores de DeepSeek volvieron al modelo base y usaron SFT con unos cuantos miles de ejemplos de razonamiento de alta calidad. Algunos de estos ejemplos fueron escritos por expertos, otros fueron generados por LLMs y luego verificados por humanos, y otros salieron de las respuestas del propio R1-Zero! (obviamente las que no mezclaban Inglés con Chino, you know what I 意思).
Durante esta fase, se supone que el modelo aprendió a no responder sin haber pensado antes (últimamente veo mucha gente que necesita este tipo de entrenamiento, pero basta de hablar de política Peruana).
Volviendo acá, con eso el modelo ya sabe cómo responder y es momento de ir al siguiente paso.
Fase 2: Reinforcement Learning (RL)
Aquí es donde le damos al modelo problemas de matemáticas, lógica y programación que tiene que resolver. Como vimos hace unos minutos, con el reinforcement learning, las respuestas sólo pueden estar bien o mal. No hay punto medio. Nada de subjetividades.
Para esto el equipo de DeepSeek usó un algoritmo que se llama GRPO (Group Relative Policy Optimization, por si te lo preguntabas). En vez de hacerle una pregunta y esperar una respuesta, hacen que el modelo genere dieciséis respuestas diferentes a una misma pregunta. Luego se refuerzan las mejores respuestas y el resto se castigan.
Lo que empieza a suceder aquí es que poco a poco, nuestro modelo empieza a tener cadenas de “pensamiento” más largas cuando se trata de problemas más complejos y empezamos a ver que usa el lenguaje para guiar ese “pensamiento”, aparecen frases como “Espera, déjame reconsiderar…” o “Espera, en realidad…” de hecho sorprende que el uso de la palabra “wait” (espera) comience a aparecer más seguido en las cadenas de razonamiento. Esto nos hace pensar que el modelo está reconsiderando sus respuestas, o “pensando” de alguna manera 🤯.
Fase 3: Reseteo
A la gente de DeepSeek se le ocurrió hacer algo un poco loco. Agarraron el modelo base y empezaron de nuevo desde cero. Bueno, no taaaaaaan desde cero.
Lo que hicieron fue usar el modelo que acababan de entrenar en la fase 2 para crear un montón de respuestas a diferentes problemas. Luego filtraron las respuestas que tenían un buen razonamiento y que llegaron, por supuesto, a la respuesta correcta. Además ampliaron el entrenamiento agregando tareas como escritura, traducción, conversación, etc. La idea era que el modelo no termine siendo solamente un genio matemático sino que también pueda llevar una conversación.
Al final terminaron con unos 800,000 ejemplos y los usaron para entrenar al modelo base… Lo sé, seguramente te estés preguntando:
¿Por qué #$%& no le dieron de frente esos ejemplos al modelo que salió de la fase 2?
Glad you asked! Lo que pasa es que cuando uno usa reinforcement learning, el modelo queda “marcado”. Son modelos que podrían pensar en exceso para resolver un problema sencillo, usan demasiado esas frases como “Espera…”, no son buenos para responder problemas que no son exactos y, como mencioné antes, luego del RL, estos modelos pueden empezar a hablar in a mixture of languages, an that’s 无法接受.
Yo lo entiendo como si hubiéramos traumatizado al modelo al darle una educación super estricta.
Bueno, como te decía, finalmente usan estos 800,000 ejemplos variados para entrenar desde cero al modelo base y con eso tenemos un modelo que “razona” y responde consultas de manera adecuada.
Nota: esta fase en realidad no se llama reseteo, lo he puesto yo porque el nombre real es rejection sampling + supervised fine-tuning.
Fase 4: otra vez Reinforcement Learning
Lo sé, te acabo de decir que el RL traumatiza a los modelos. En realidad me refería a ese RL que sólo califica bien o mal los problemas (hay otros tipos de RL que no son tan traumáticos).
En esta fase cambiamos un poco la forma de calificación. Seguimos siendo estrictos calificando las respuestas como correctas o incorrectas, pero además ponemos a humanos a calificar las respuestas para las tareas que no son de razonamiento. Ahí decimos qué tan útil es la respuesta, si nos gustó el tono, la forma de comunicarse, etc.
Esto le da el toque final al modelo para que además de ser preciso sea agradable.
Nadie quiere un asistente que se comporte como un sabelotodo con cero skills sociales, ¿o si?
Y listo, así es como se entrenó DeepSeek-R1.
Pero eso es DeepSeek ¿Qué hay del resto de modelos?
La verdad… no tengo idea. Ni Google, ni Anthropic, ni OpenAI han publicado cómo entrenan sus modelos de razonamiento así que no puedo responder esa pregunta.
Ahora, lo que sí puedo decirte es que todos estos modelos se comportan de una manera bastante parecida, por eso me imagino que probablemente hayan sido entrenados de una manera similar a como se entrenó DeepSeek. Si eso fuera cierto, significa que laboratorios de IA en diferentes partes del mundo, llegaron por su cuenta a soluciones similares para entrenar sus modelos de razonamiento ¿Coincidencia o conspiración? (Chaaaaaan!)
El tamaño (de los modelos) importa 👀
Qué tan grande es un LLM se mide por la cantidad de parámetros que tiene. Los parámetros son valores que el modelo aprende para entender el lenguaje y responder. Se supone que a más parámetros puede entender y responder mejor.
Y digo se supone, porque otra cosa súper interesante que descubrieron nuestros amigos de DeepSeek, es que pueden usar su modelo gigante de razonamiento para generar miles de respuestas y usarlas para entrenar modelos más pequeños.
Y cuando digo más pequeños estoy hablando de modelos cien veces más pequeños, y que llegan a trabajar tan bien que superan en algunos casos a modelos tradicionales.
Esto fue un descubrimiento que rompe la industria porque los modelos más pequeños son muchísimo más baratos de operar, y de alguna forma pueden democratizar el uso de IA. Más allá de eso, ¿te imaginas que un modelo de razonamiento sea suficientemente pequeño para correr en tu celular? Podrías usarlo en cualquier momento sin necesidad de estar conectado a Internet.
Estoy seguro que vamos a ver un boom de este tipo de modelos, de hecho ya empezó. Por cierto, a estos modelos ya no se les dice LLMs sino que cambiamos el large por small y les decimos Small Language Models (SLMs).
Pensar más no es responder mejor
Ya sabes que los modelos de razonamiento “piensan” antes de responder, y que este “pensamiento” no es más que texto que el modelo genera para sí mismo antes de darnos una respuesta. Además, hemos visto que pueden decidir qué tanto pensar antes de darnos una respuesta.
Parece lógico que mientras más tiempo se pasen en esta especie de monólogo interno antes de responder mejor será su respuesta. Y en verdad suena lógico, de hecho los modelos pequeños pueden superar a modelos varias veces más grandes sólo con ponerse a pensar más tiempo.
Realmente depende de la pregunta que le hagas, hay preguntas que no tiene sentido tomarse tiempo para contestar. Por ejemplo, si le preguntas a tu asistente cuál es la capital de Perú y no te respondiera inmediatamente, pensarías que es un poco lentito. Por otro lado, si le hicieras una pregunta de alta complejidad, como ¿cuántos presidentes ha tenido el Perú durante los últimos 10 años? esperaría que realmente se tome su tiempo para contar a los NUEVE que hemos tenido. (así andan las cosas por esta parte del mundo).
Por eso nuestros asistentes nos permiten elegir cuándo queremos que piensen y cuando queremos que respondan rápido.
Nota: de verdad hemos tenido nueve presidentes en Perú desde el 2016, y este año tenemos elecciones así que vamos camino a romper algún tipo de record ¿?
Estos modelos son chéveres, pero no tan chéveres
Hasta ahora todo lo que hemos hablado sobre este tipo de modelos es felicidad, pero estas maravillas de la tecnología moderna también tienen sus limitaciones. Aquí te doy un resumen de las principales.
A veces ocultan su pensamiento
Tal vez suene exagerado, pero el año pasado Anthropic publicó un paper llamado “Reasoning Models Don’t Always Say What They Think” (los modelos de razonamiento no siempre dicen lo que piensan) en donde mostraban que estos modelos podían llegar a la respuesta correcta usando información que no aparece en su “razonamiento”.
Esto significa que así podamos ver la traza de “pensamiento” de nuestros modelos, nada nos asegura que la hayan usado para llegar a la respuesta que nos están dando. En el experimento, Claude fue honesto menos de la mitad de las veces (41%) y DeepSeek sólo el 19%.
A veces sobrepiensan
Como lo oyes lees, a veces pensar de más no es lo mejor. Hay estudios que encontraron que este tipo de modelos puede generar entre 5 y 20 veces más texto que un modelo normal cuando se trata de responder preguntas sencillas.
Como las preguntas son simples, el hecho de generar más texto que un modelo normal no hace que la respuesta sea mejor, pero sí hace que la respuesta sea más cara. Cada palabra que estos modelos generan necesita procesamiento, el procesamiento necesita chips y energía; y para tener esa cantidad de chips y energía se necesita dinero, mucho dinero.
A veces creemos que piensan, pero no piensan
Hace menos de un año, investigadores de Apple publicaron el paper “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity” (La ilusión de pensar: comprendiendo las fortalezas y limitaciones de los modelos de razonamiento a través del lente de la complejidad de los problemas)… vaya nombrecito.
Este estudio nos dice que hay tres cosas que pasan con los modelos de razonamiento:
Si los problemas son de baja complejidad estos modelos piensan de más (cosa que es ineficiente y un gasto de energía).
Si los problemas son de complejidad media, el “razonamiento” de estos modelos en verdad ayuda a dar una mejor respuesta.
Cuando los problemas son difíciles la precisión de las respuestas se va a cero. Y eso no es todo, los investigadores también encontraron que pasando un cierto nivel de complejidad, estos modelos reducen su esfuerzo de razonamiento en vez de aumentarlo. Como si fueran estudiantes que se dan por vencidos frente a un problema que no saben cómo resolver.
Como te dije, estos modelos son útiles, pero no son perfectos.
¿Qué pasa dentro de la cabeza de un modelo que “piensa”?
Vimos que cuando un modelo “piensa” está teniendo una especie de monólogo interno antes de generar la respuesta.
Para entender lo que pasa dentro del modelo, primero tengo que contarte cómo hace para generar texto. Estos modelos generan palabra por palabra, tratando siempre de predecir cuál será la siguiente en la secuencia. Para eso, cada vez que quieren generar la siguiente tienen que procesar toda su respuesta. Es decir que cada palabra adicional es como una oportunidad más de pensar.
Míralo como que un modelo que generó cien palabras de “razonamiento” antes de darte una respuesta, tuvo cien oportunidades para procesar el problema antes de responder. Los modelos de instrucciones, que responden de inmediato, no las tienen.
Entonces, podemos ver cualquier palabra como una oportunidad más que tiene el modelo para “pensar”, y cuando digo cualquier palabra, me refiero a cualquier palabra, incluyendo cuando el modelo dice cosas como “Hmm..”, “Espera…”, o similares. Esto no es sólo relleno, es que nuestro modelo ha aprendido que estas palabras extra, que le suman ciclos de procesamiento, le ayudan a pensar mejor.
Por eso es que la cadena de pensamiento no es en verdad el modelo explicando cómo razonó, es el mecanismo que usa para procesar un texto y darnos una respuesta.
Para entender a profundidad cómo estos modelos procesan la información, dale una mirada a mi post sobre transformers; me refiero a la arquitectura de IA, no a los robots de los 80s (aunque los uso en los ejemplos 😉).
…pero ¿en serio piensa?
Estas máquinas revisan sus respuestas, nos dicen paso a paso lo que están haciendo, hasta prueban diferentes enfoques para resolver un problema. También sabemos que el “pensamiento” que nos muestran no es necesariamente lo que realmente pasa dentro de estos modelos.
Entonces…
¿Están razonando las máquinas, o es una imitación increíblemente sofisticada?
Glad you asked! Pues es todo un debate entre gente mucho más experta que yo, pero igual te voy a dar mi opinión 😅
Lo primero es que nosotros mismos no entendemos cómo funciona nuestro propio razonamiento. Sabemos qué áreas del cerebro se activan, cómo se comunican las neuronas, tenemos herramientas muy sofisticadas para estudiar el cerebro, pero aún no tenemos idea de los mecanismos que hacen que aparezca un pensamiento concreto.
Me parece un poco difícil saber si una máquina hace algo que no entendemos como funciona.
Ahora mismo, cuando las empresas de IA quieren probar sus modelos de razonamiento hacen baterías de pruebas (benchmarks, les dicen), el tema con estas pruebas es que suelen medir respuestas correctas, no la forma en que llegaron a ellas, así que no podemos usar esos benchmarks para decir que hay un razonamiento detrás de la respuesta.
A eso lo podemos sumar el hecho de que estamos conversando con máquinas en nuestro idioma, y esto hace que inconscientemente las humanicemos, de hecho escribí al respecto hace casi un año, el post se llamó “Humanizando a la IA”, dale una mirada.
Encima de todo eso tenemos el concepto del loro estocástico, que dice que estas máquinas solamente están juntando palabras en base a las probabilidades que aprendieron en su entrenamiento, que sólo repiten patrones estadísticos (como si fueran loros), y que somos los humanos los que le ponemos el significado a lo que nos dicen los LLMs. Este paper se llama “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜” (sí, con emoji de loro y todo). Es un paper muy interesante y se merece un post aparte.
El paper del loro es del 2021, antes que aparecieran los modelos de razonamiento… ¿podríamos decir que estos modelos son loros más sofisticados?
Para terminar
Este fue un post largo, gracias por aguantarme llegar hasta aquí.
Vimos qué son y cómo se entrenan los modelos de razonamiento, también que todos los grandes labs de IA del mundo parecen haber llegado a una receta parecida; hasta me puse filosófico cuando vimos si realmente razonan.
Algo que me parece importante es que este post no hubiera sido posible sin que existan equipos como el de DeepSeek, que se atrevió a publicar en detalle sus hallazgos sobre el entrenamiento de sus modelos. Si por otras compañías fuera, esta información no sería pública. Gracias DeepSeek ❤️.
¿Recuerdas que mencioné esa técnica de prompting llamada Chain of Thought (CoT), en la que le pides a tu asistente que piense su respuesta paso a paso?
¿Qué pasa con esta técnica de prompting en modelos de razonamiento? ¿Todavía tiene sentido usar CoT?
Glad you asked, pero eso te lo contaré en otro post más adelante 😉
Abrazo!
G









