Empecé a hablar con la IA durante mis caminatas al trabajo
Y cuando digo "hablar" me refiero a usar el modo de voz de ChatGPT, Claude y Gemini
Tengo suerte de vivir cerca de mi oficina, así que para llegar al trabajo hago una caminata de quince minutos entre los distritos de Barranco y Miraflores en Lima-Perú. Es un camino muy bonito cerca al mar, aunque no está libre del caos del tráfico limeño.
Hasta hace unas semanas solía pasar ese cuarto de hora escuchando música, pero un día, en lugar de darle play a Nothing but a good time de Poison, se me ocurrió abrir el modo de voz de ChatGPT y arrancar una conversación.
Desde ese día, cada vez que voy o regreso de la oficina se ha vuelto una especie de tradición pasar ese tiempo conversando con alguno de mis asistentes. El ritual es simple: abro la app de iOS, teléfono al bolsillo, me coloco los headphones y a caminar.
Hoy quiero contarte lo que he descubierto sobre hablar con la IA durante esas caminatas.
Lo que se siente ir hablando en voz alta con la IA en plena calle
Lo confieso, al principio se siente raro.
Eso de ir caminando por la calle, cruzándome con gente y lidiando con el tráfico de Lima mientras voy hablando en voz alta en inglés puede dar la impresión de que estoy loco parecer un poco raro. 
Sí, yo suelo hablar con ChatGPT en inglés; me parece una buena forma de no estar (tan) oxidado. Además, por alguna razón que aun no entiendo, pensar en inglés me ayuda a estructurar mejor mis ideas.
Imagina la escena, voy caminando tranquilamente mientras hablo con mi IA:
“So… I was thinking about how to explain neural networks in a way that...”
y en eso… HOOOOOOOOONK, un carro toca la bocina como loco (bienvenidos a Lima-Perú 😡)
“ …and isn’t including the “El General” image too much for my readers?”
Mi asistente me responde y yo sigo caminando y conversando, algunos me miran raro, seguramente porque hablo un poco alto, por los audífonos. Tal vez piensan que ando en una llamada de negocios, y eso me hace sentir más internacional que “El General”.
Breve paréntesis: El General fue un pionero del reguetón, si en los 90s tenias edad para ir a alguna fiesta (eso es hace más de 25 años), probablemente hayas entendido el chiste.
Bueno, la cosa es que al final me acostumbré a caminar hablando en voz alta. Y me di cuenta que las conversaciones que tengo son muy diferentes a las que tengo en el chat de texto.
Antes de explicarte cómo llevo esas conversaciones, creo que es interesante ver como ha ido cambiando esta tecnología.
La evolución del modo de voz 
Hace bastante tiempo que venía probando la interfaz de voz de ChatGPT y creo que puedo distinguir tres momentos importantes:
El primer momento fue apenas salió su modelo de voz. Se trataba de algo muy sencillo. Lo que hacía era transcribir lo que yo le decía, enviarle esa transcripción a su modelo de lenguaje, que respondía (tras bambalinas) también en texto y luego convertía esa respuesta en audio para que yo la pueda escuchar. 
En general funcionaba, pero el proceso tomaba algo de tiempo y la conversación no era natural, así que lo deje de usar.
El segundo momento fue cuando apareció su modelo omni, que había sido entrenado no sólo con texto sino con otros formatos, incluyendo audio! Así que ya no necesitaba transcribir nada, el input era directamente mi voz y su respuesta era directamente audio, eso le daba la gran ventaja de entender el tono con el que le hablaba.
A partir de ahi mejoró mucho su capacidad para conversar de forma natural, pero en algún momento algo cambió y ChatGPT comenzó a usar español rioplatense. Sospecho que su entrenamiento para “conversar” en español tenía un muchos ejemplos que venían de Argentina, aunque OpenAI nunca lo confirmó. 
Eso se quedó así mucho tiempo (parece que no le dan mucha bola al mercado latinoamericano), y aunque era divertido escuchar a mi asistente hablar así, también lo deje de usar.
El tercer momento fue cuando comencé con las caminatas a la oficina, el español se puso más neutro y ya no usa palabras como “vos”, “decís”, “hacés” “pará”, etc. Ahora siento que me funciona bastante bien. Las respuestas son rápidas y la conversación fluida.
No es lo mismo hablar que escribir 
Solía pensar que el modo voz era simplemente el “modo texto, pero hablando” y hace tiempo que no es así. Voz y texto son experiencias diferentes, con capacidades diferentes.
Cuando le hablo a ChatGPT en verdad no estoy usando el mismo modelo que cuando que le escribo. El modelo de voz está optimizado para velocidad y fluidez. Imagina que tienes una conversación con alguien que se demora 19.5 segundos en responder, seguramente pienses que “se le colgó la computadora”. En el modo de voz, ChatGPT está programado para llevar la conversación de la forma más natural posible.
Otra cosa súper importante es que el modo voz y el modo texto no manejan las mismas herramientas. Cuando le escribo a ChatGPT puedo hacer cosas como que corra código en Python, subirle archivos, pedirle que genere imágenes, que haga búsquedas en Internet o que use su función de deep research.
Cuando converso en modo de voz, ninguna de estas herramientas está disponible, sólo la búsqueda en Internet.
Sobre Claude, Gemini & ChatGPT 
Durante mis caminatas he probado hablar con estos tres asistentes y déjame decirte que de lejos, el mejor modo de voz lo tiene ChatGPT.
Claude (mi asistente favorito… para texto) dice que tiene modo de voz, pero la interfaz es un desastre. Su selección de voces no son muy buenas, tampoco tiene acceso a herramientas, pero el mayor problema que tiene es que necesito darle tap a la pantalla para enviar el mensaje o para interrumpir al asistente cuando está hablando (¿WTF?), y eso mientras caminas con el celular en el bolsillo es extremadamente incómodo.
Gemini sí permite tener conversaciones fluidas, peeeeeero tampoco tiene acceso a herramientas, ni siquiera a la búsqueda. Entonces solo puede hablar de las cosas que sabe hasta la fecha de corte de su data de entrenamiento. Es como hablar con alguien que no sabe nada de lo que ha pasado en el mundo durante el último año. Next!
Con ChatGPT las conversaciones fluyen, y si bien no puedo usar la mayoría de sus funciones, el hecho de poder buscar en Internet mientras camino y conversamos me parece increíblemente útil. Si tocamos un tema que necesita información actualizada, ChatGPT puede obtener esa info de Internet sin problemas. Otra cosa que me gusta es que su memoria le permite recordar lo que hemos hablado en otros momentos.
Ahora sí, déjame contarte cómo uso el modo de voz de ChatGPT mientras camino a la oficina.
Mis conversaciones 
Me da la impresión de que cuando interactuamos con la IA usando la voz, la conversación es más rápida, más natural, más libre, hasta podría decir más caótica (y divertida). Cuando lo hacemos con el texto, es más pausada, podemos usar más herramientas y hasta podemos ir y releer los mensajes anteriores. 
Son dos experiencias muy diferentes.
Por ponerlo de otro modo:
No es lo mismo salir a conversar con alguien que escribirle una carta*.
Cuando abro el chat y uso el modo de texto es porque tengo una tarea que realizar, estoy sentado frente a la computadora, pienso en el prompt, lo escribo, lo ajusto, le doy [Enter], espero la respuesta, reviso los mensajes anteriores, le pido que ejecute código o que haga un deep research sobre el tema. En fin, es un intercambio muy deliberado.
Cuando camino hablando con la IA la cosa cambia, mis conversaciones no tienen la estructura de un chat de texto, lo que hago es usar esos minutos para pensar y ordenar mis ideas (en compañía de mi asistente). Digamos que uso el modo de voz como una especie de monólogo, para “pensar en voz alta”.
Voy soltando ideas mientras camino, sin filtro ni estructura mientras que la IA está ahi, escuchando y de alguna forma acompañándome mientras le doy forma a mis pensamientos.
¿No te ha pasado que cuando dices algo en voz alta lo entiendes mejor? Pues hay un montón de evidencia científica que lo confirma. Resulta que cuando los humanos pensamos en voz alta, nos entendemos mejor a nosotros mismos. Podríamos decir que cuando te escuchas hablar puedes pensar mejor en lo que acabas de decir.
Cuando verbalizamos nuestro pensamiento, activamos partes del cerebro que no usamos cuando sólo pensamos. Parece que eso nos ayuda a terminar de estructurar las ideas que tenemos en la cabeza
Por supuesto, pensar en voz alta no es algo fácil de hacer, sobre todo si estás rodeado de gente y te preocupa que alguien piense que estás loco. Ahora, si puedes vencer ese miedo o vergüenza, es una herramienta alucinante, y tu asistente de IA puede potenciarla.
A mi me encanta poder verbalizar mi proceso de pensamiento (hace tiempo perdí la vergüenza de pensar en voz alta), y eso es lo que pasa durante mi camino al trabajo, estoy desarrollando conceptos, procesando ideas, usando a la IA como una especie de sparring partner intelectual.
Este sparring con la IA es genial. Es natural que mientras uno va pensando en voz alta aparezcan dudas o preguntas. Cosas como “Wait, no había un paper que hablaba sobre este tema?” o “¿Cuál es la mejor película de Rocky según la crítica?” no son consultas que haya planificado, sino cosas que surgen de la conversación.
Y ahi es cuando mi querido ChatGPT puede buscarlo en Internet y darme la respuesta de manera casi inmediata mientras yo sigo con mi hilo de pensamiento.
BTW: la crítica dice que la mejor Rocky es Rocky I, y estoy de acuerdo, aunque la que podría ver una y otra vez es Rocky IV.
Volviendo a nuestro tema.
Para mi, el modo de voz no es sólo una forma más conveniente de usar la IA, es una herramienta diferente. Y he encontrado que me sirve mucho para pensar en voz alta. Por supuesto, ese soy yo, y estoy seguro que hay muchos otros usos, aunque yo me quedo con mis quince minutos de camino a la oficina (mientras la gente me mira raro).
Pero no todo es color de rosa y estas conversaciones no son perfectas. Ahora quiero contarte algunos de los problemas que he encontrado.
* Una carta es un modo de comunicación muy antiguo, cuando no había Internet y los humanos compartíamos la tierra con los dinosaurios :P
Las cosas que (aún) no funcionan
Hay cuatro cosas que suelen ser un problema durante estas conversaciones. Ninguna es un deal breaker, pero si vas a empezar a usar el modo de voz como yo, es bueno que lo sepas de antemano (tal vez te ahorres algo de frustración).
Las instrucciones personalizadas interfieren un poco: Las custom instructions son lo primero que recomiendo configurar a quienes empiezan a usar la IA. Se trata de una forma de darle información extra a tu asistente para que te conozca y te pueda responder de la mejor manera. Resulta que mis instrucciones personalizadas están diseñadas para mis interacciones en el chat de texto, y me da la impresión que hacen que ChatGPT no sea tan bueno conversando cuando estoy en el modo de voz. Aún no me he tomado el tiempo de ajustarlas y jugar con eso, ya te contaré apenas lo haga.
Se pone a describir como va a responder: A veces (no me preguntes por qué) mi ChatGPT me dice cosas como “Ahora voy a responder de una forma directa tu pregunta…”. Se me hace que esto tal vez tenga que ver también con las instrucciones personalizadas, pero no tengo como probarlo, igual es bastante molesto.
Se corta a mitad de la respuesta: Estoy caminando mientras hablo con mi asistente, le hago una consulta y de la nada se “pierde la conexión” y sólo escucho silencio… lo más irritante es que luego retoma la conversación como si la hubiera escuchado perfectamente. Esto pasa más o menos seguido, no se si es porque pierde conexión o es un bug en ChatGPT, la verdad es que no tengo idea. Probablemente sea el problema más fastidioso.
El ruido de la calle: Cada vez que hay un ruido fuerte, mi asistente piensa que le estoy hablando. Por alguna razón no distingue mi voz de un bocinazo (sé que no canto bien, pero eso me parece exagerado). Me imagino que para los que vivimos en ciudades ruidosas como Lima-Perú esto es más problemático que para alguien que vive en, no sé, cualquier otro país del mundo donde la gente sea civilizada. Y eso que mis caminatas van por una zona tranquila, no me imagino llevándolo a partes más bulliciosas de la ciudad.
Con estos problemas y todo, sigo usando el modo de voz en mis caminatas. Son sólo 15 minutos y si bien estos problemillas son algo fastidioso, no interrumpen tanto. Además, estoy seguro que estos problemas mejorarán con el tiempo (a excepción del tráfico de Lima 😡)
That’s it
Y nada, esta es mi experiencia. Caminatas de quince minutos entre Miraflores y Barranco mientras hablo pienso en voz alta con ChatGPT en el modo de voz. 
Estoy seguro que hay formas mucho mejores de aprovechar este tipo de conversaciones con la IA, pero no las he probado. Por el momento sólo quería contarte de mis paseos, renegar por el tráfico de Lima y compartir mi experiencia con esta tecnología.
Nota: Este post fue casi íntegramente escrito mientras escuchaba (durante varias horas) un playlist de Poison. Y ya que era lo que escuché justo antes de empezar a hablar con ChatGPT, aquí te dejo Nothing But a Good Time.
Espero que te hayan gustado el post y la canción!
Nos vemos,
G





