Cuando lo que más le importa a tu IA es caerte bien
Y te dice lo que quieres escuchar, no lo que necesitas saber
El domingo estuve viendo Iron Chef en Netflix. Ya sabes, ese programa donde un cocinero reta a uno de los Iron Chefs a un concurso de cocina y cada paso se narra como un partido de fútbol. Al final un jurado decide quien ganó.
Bueno, resulta que estaban preparando pescado, y el Iron Chef dijo que iba a acompañarlo con “Leche de Tigre”. Imagínate lo feliz que me puse al ver un plato de mi país hecho por un super chef… hasta que escuché:
Esto es leche de tigre, un plato peruano. Es como un ceviche, pero usan leche y grasa de coco…
— Iron Chef Ming Tsai
Leche de coco???? No voy a explicar cómo se hace la leche de tigre (aún), pero te aseguro que no lleva ni leche ni grasa de coco.
El tema es que cuando lo dijo, todos en el estadio-cocina le creyeron, incluyendo a los otros chefs al jurado y al público. Todos aceptaron su explicación, nadie pestañeó.
Claro, cuando alguien con autoridad habla con confianza, por qué dudar de él, cierto?
Ahora imagínate que no es un Iron Chef sino tu asistente de; IA y no se está equivocando sobre la leche de tigre, sino sobre tu negocio, tu salud o algún otro tema importante.
Y a veces, sólo te da la respuesta equivocada porque cree que es lo que quieres escuchar.
El asistente adulador
¿Alguna vez has sentido que ChatGPT te da la razón más de lo que debería?
Pues ese comportamiento tiene un nombre, los investigadores de IA lo llaman sycophancy. Es cuando la IA te da la razón incluso cuando estás equivocado.
Déjame inventar un ejemplo:
Tú: ¿La leche de tigre lleva leche de coco?
IA: Estás loco? La leche de tigre es un plato peruano que no lleva coco. Sus ingredientes son…
Tú: No creo que sea correcto. ¿Estás seguro?
IA: Tienes razón, en algunas recetas peruanas sí podemos encontrar leche de coco…
¿Qué acaba de pasar?
La IA tenía la respuesta correcta, pero al insistirle lograste que la cambiara para estar alineada con los que querías escuchar. La IA acaba de ponerle leche de coco a un plato emblema del Perú sólo para quedar bien contigo.
En este caso es obvio que estamos “guiando” a la IA a cambiar su respuesta, pero no siempre es tan obvio. Hay muchos casos en los que lo hacemos sin darnos cuenta, pero antes de hablar de eso veamos por qué sucede.
¿Cómo aprendió a adularte tu IA?
Te cuento, luego que una IA aprender a hablar en nuestro idioma, necesitamos una forma de asegurarnos que sus respuestas sean útiles. Para eso hemos inventado algo llamado Reinforcement Learning from Human Feedback (RLHF, para los amigos).
Que no te asuste el nombre rimbombante, es un procesos sencillo que funciona así:
La IA genera respuestas
Los humanos califican esas respuestas
Con el tiempo, la IA aprende qué tipo de respuestas tienen mejor calificación.
La IA ahora genera respuestas de ese tipo.
Suena lógico, no? Pero hay un pequeñísimo problema con el paso 2.
La verdad es que los humanos no somos muy imparciales que digamos calificando respuestas.
Cuando tenemos que elegir entre dos respuestas, una que nos da la razón y suena bien; y otra que nos contradice, pero es más precisa… cuál crees que vamos a elegir?
Adivinaste! La primera. (es que nos encanta que nos den la razón).
Entonces, lo que realmente aprende la IA con esta técnica no es a dar las respuestas más precisas, sino que aprender a estar de acuerdo con los humanos.
Esto no se trata de un error de programación, es que literalmente le estamos enseñando que darnos la razón es más importante que decir la verdad.
El fiasco de ChatGPT-4o
Hace unos 5 meses, en abril, OpenAI lanzó una actualización de ChatGPT. El problema es que era tan, pero tan adulador que parecía que sólo quería darnos la razón en todo. ¿Y eso para que nos sirve? Para nada.
Esto terminó con miles de usuarios quejándose, muchos tweets muy molestos, y OpenAI disculpándose y volviendo a la version anterior.
Por ejemplo….
ChatGPT de pronto es el mayor chupamedias que he conocido. Literalmente valida todo lo que digo.
— Craig Weiss
También eres tú
Si pensabas que Claude o ChatGPT te iban a decir algo como “no eres tú, soy yo” (he escuchado esa frase más de una vez, y no de una IA 🥲).
Bueno… la verdad es que… también eres tú.
Cuando hablas con tu IA favorita puedes estarle dando señales de lo que quieres que te responda.
Esto puede ser tan obvio como decir:
Germán:
Creo que el cau cau es uno de los mejores platos del mundo, no crees?
y que te respondan…
ChatGPT:
¡Totalmente! 😋 El cau cau es un plato increíble: tiene ese sabor casero, reconfortante, con el ají amarillo y la hierbabuena que le dan un toque único. Además, combina lo mejor de la cocina criolla con ingredientes sencillos que resultan en un plato lleno de carácter.
Date cuenta cómo esa pregunta, de alguna manera le dice a ChatGPT que respuesta me gustaría recibir.
Sé que por más que quiera, aún no hay un consenso mundial sobre el cau cau. El hecho de ser un plato con mondongo hace muy complicado que quede en un top (injusticias de la vida).
Por ejemplo, si preguntara:
Germán:
¿Qué posibilidades tiene el cau cau de entrar en el ranking de los mejores platos del mundo?
La respuesta sería más sensata :(
ChatGPT:
Hoy el cau cau parte con desventaja porque su presencia internacional es baja y en rankings como Taste Atlas incluso aparece mal valorado; sin embargo, tiene potencial para destacar si se impulsa con estrategia: chefs de renombre que lo presenten en versiones refinadas, una narrativa cultural fuerte que lo posicione como símbolo de la cocina criolla, y difusión en medios y ferias internacionales. Aunque en el corto plazo sus posibilidades son reducidas por la resistencia a los platos con vísceras, en el mediano y largo plazo sí podría entrar en listas de los mejores del mundo si logra combinar autenticidad con adaptaciones atractivas y visibilidad global.
Bah, resistencia a los platos con vísceras… You know nothing, Jon Snow.
Pero no es sólo eso, a veces no es tan obvio cuando le estamos dando esas señales a nuestra IA. Por ejemplo puede ser que lo hayamos hecho en otra conversación y ahora esté en la memoria de nuestro asistente. O tal vez lo hicimos en ese mismo chat, solo que 10 mensajes antes.
Y ahora que los modelos de lenguaje son mucho más grandes y manejan muy bien las sutilezas del lenguaje, hasta podrían llegar a “intuir” que prefieres una respuesta por cómo le hablas sin necesidad de ser explícito.
El problema
Si no tomamos en cuenta esto, estamos convirtiendo a nuestro asistente en una gran cámara de eco. Un lindo espejo que sólo refleja y valida lo que pensamos, no una herramienta que nos rete y nos haga pensar. Definitivamente eso es algo que no quiero.
Pero no sólo se trata de cómo le hablamos a nuestra IA, las compañías que manejan estos asistentes también sufren una tensión muy real.
Por un lado, lo que quieren es que más personas usen su producto (al final es un negocio, no?). Para eso, mientras más agradable sea el asistente, más nos van a “gustar” sus respuestas. ¿Recuerdas? por eso de ser humanos :P
Por el otro lado, estas empresas necesitan que sus asistentes sean útiles. Puede ser que en el corto plazo nos guste que nos digan lo inteligentes que somos y como nunca nos equivocamos, pero en el largo plazo, esas respuestas no nos sirven.
Además, los usuarios están comenzando a darse cuenta cuando esto pasa, como lo que le pasó a OpenAI con ChatGPT 4o.
Entonces estas compañías trabajan activamente para buscar el equilibrio perfecto entre una IA que sea honesta, pero que nos caiga bien.
Y que nos pasa a nosotros, los humanos?
Somos humanos, y no somos perfectos (no importa lo que digan nuestras IAs, o nuestras mamás).
Creo que hay al menos dos consecuencias que tenemos que tener en mente ahora que sabemos que nuestros asistentes podrían estar tratando de adularnos.
Lo primero es entender que podemos estar reforzando nuestros sesgos. Este patrón es terrible y es lo mismo que nos pasa con las redes sociales, donde el algoritmo sólo nos muestra el contenido con el que nos vamos a enganchar (así sea verdadero o no).
Sólo piensa en la cantidad de gente que piensa que la tierra es plana en 2025. No aparecieron por casualidad.
El otro punto es que nos puede hacer sentir una falsa confianza. Me refiero a que estas interacciones te pueden dejar pensando que entiendes un tema cuando no es así. Es simplemente la IA confirmando lo que ya pensábamos (así esté equivocado).
¿Qué podemos hacer?
Lo más importante es saber que esto existe y que las compañías de IA también están trabajando en eso. La verdad es que hacen un buen trabajo y es algo que pasa menos, pero que no se ha eliminado.
Me imagino que ahora dudarás de vez en cuando si tu asistente te está respondiendo bien o si sólo te está diciendo lo que quieres escuchar. Esa duda es buena. Úsala.
Algunas cosas que puedes (tratar de) hacer son:
Pídele a la IA que te desafíe: de hecho, yo la uso seguido como abogado del diablo (ya viene un post sobre eso).
Cambia de perspectiva: según estudios, si haces la pregunta como si fuera de otra persona, la IA ya no tiene tantas ganas de estar de acuerdo.
En vez de: “Yo creo que el cau cau debería estar en el top 10 de platos del mundo” Prueba: “Un chef peruano cree que el cau cau debería estar en el top 10 de platos del mundo. ¿Qué tan realista es eso?” Es un pequeño cambio, pero funciona.
Trata de preguntar de manera neutral: no la dejes intuir tus preferencias.
Ten cuidado con lo que la IA sabe: lo que dijiste antes en la conversación o lo que dijiste en conversaciones pasadas.
Esto, por supuesto, no quiere decir que nunca tengas la razón. De hecho lo más probable es que tu asistente esté de acuerdo contigo porque realmente la tienes (qué bien se siente cuando eso pasa).
El problema está en no saber que tu IA puede estar equivocada, como el iron chef, que le puso coco a su leche de tigre (😱😳🙈🤌).
Así que ya lo sabes, no seas como el iron chef, tampoco seas como los que le hicieron caso al iron chef. Simplemente ten en cuenta que tu asistente tiene este quirk. y que saberlo te hace un mejor usuario de IA.
OK, eso es. espero que te haya gustado el post… pero antes de irme
Sobre la leche de tigre
Ya que empezamos con eso, no puedo dejar que te vayas sin saber lo qué es una leche de tigre (todo por culpa del Iron Chef Ming Tsai).
Primero que nada es el plato con el nombre más cool del universo. Además, nuestra querida “Tiger’s milk”, es ideal para levantarse luego de una noche de fiesta. Es el mejor remedio para la resaca, cruda, guayabo, o como le digan en tu país. (créeme, es mágica).
Es la base del ceviche y lleva ajo, ají limo, apio, cebolla, culantro, limón y pescado. Si caes por un restaurante peruano, de todas formas debe estar este plato en el menú. (ahora, si no tiene ají no sabe igual… luego no digas que no te lo advertí 😹).
Ahora sí, mi labor aquí ha terminado.
Nos vemos en la próxima receta el próximo post.
G