ChatGPT habla: La revolución de los modos de voz y cómo aprovecharlos

La nueva tecnología de voz de ChatGPT, que nos permite tener conversaciones más naturales, está transformando la interacción humano-computadora

oct 12, 2024

A split image of two comic book slots side by side. In the left slot, a modern, sleek robot in full color is happily interacting with a smiling human. Both characters are present in the same frame, creating a lively and futuristic scene. In the right slot, the entire scene is in black and white. A confused older, clunky robot is attempting to communicate with a confused human. Both are in the same frame, and the atmosphere feels uncertain and nostalgic. The left slot is vibrant, while the right is monochrome and old-fashioned. — Ahora puedes conversar con la AI de forma más natural (Imagen creada con Dall-E)

¿Alguna vez has soñado con tener una conversación fluida con una inteligencia artificial, como si estuvieras hablando con un amigo? Tal vez ya lo has estado haciendo con el modo de voz de ChatGPT, que a mi parecer es bastante bueno, aunque con algunas limitaciones.

Cuando hablo de 'modo de voz', me refiero a la capacidad de interactuar con ChatGPT usando tu voz en lugar de escribir. Imagina poder hacerle preguntas simplemente hablándole a tu teléfono, como lo harías con Siri o Alexa, pero con respuestas mucho más elaboradas. Es como tener una conversación telefónica con el asistente más inteligente del mundo.

Hasta ahora, esta experiencia, aunque útil, tenía sus limitaciones. La IA no captaba los matices de tu voz o tardaba en responder. Pero las cosas están a punto de cambiar.

Déjame contarte que el sueño de tener una conversación verdaderamente fluida está más cerca de la realidad de lo que crees. OpenAI ha lanzado un nuevo modo de voz avanzado para ChatGPT (advanced voice mode) que está cambiando las reglas del juego. Vamos a explorar qué es exactamente, cómo se compara con el modo de voz estándar, y lo más importante, cómo puedes empezar a usarlo hoy mismo.

El modo de voz estándar: el viejo conocido

El que hasta hace poco era la única opción disponible en ChatGPT para interactuar usando la voz. Es el modo que muchos hemos estado usando y que nos permitía, por primera vez, tener una conversación hablada con una IA. La idea era simple: poder hablarle a ChatGPT y escuchar sus respuestas.

Este modo nos abrió la puerta a interacciones más naturales con la IA. Ya no teníamos que escribir nuestras preguntas; podíamos simplemente hablar y recibir respuestas en la voz de ChatGPT. Fue un gran paso para hacer que la interacción con la IA fuera más accesible y parecida a una conversación humana.

iPhone displaying the ChatGPT iOS app during an standard voice chat. — Modo de voz estándar

Cómo funciona el modo de voz estándar de ChatGPT.

Es un proceso con varios pasos:

Tú hablas al micrófono de tu dispositivo.
Tu voz se convierte en texto usando Whisper, el sistema de reconocimiento de voz de OpenAI. Whisper se encarga de convertir lo que dijiste a texto.
Este texto se pasa a ChatGPT para que lo procese.
ChatGPT genera una respuesta en texto.
Este texto se convierte en voz usando TTS (Text-to-Speech), otro sistema de OpenAI.
Escuchas la voz generada por TTS.

Este proceso tiene algunas limitaciones importantes. Una de las principales es que toda la emoción, el tono y las sutilezas de tu voz se pierden cuando se convierten en texto (paso 2). Además, todos estos pasos pueden tomar entre 2 y 6 segundos para escuchar una respuesta! (eso no suena mu natural, cierto?)

El nuevo modo de voz avanzado: La estrella del show

Ahora, prepárate para el gran cambio. El nuevo modo de voz avanzado usa GPT-4o ("o" de "omni"), y es una bestia completamente diferente.

Este nuevo modo te permite tener un diálogo fluido y en tiempo real con ChatGPT, donde la IA no solo entiende tus palabras, sino también el tono de tu voz, las emociones que transmites. Imagina poder bromear con la IA y que capte tu sarcasmo, o expresar frustración y recibir una respuesta empática.

iPhone displaying the ChatGPT iOS app during an advanced voice chat. — Modo de voz avanzado

GPT-4o es como un super cerebro que procesa todo directamente:

Procesa el audio directamente, sin convertirlo a texto primero.
Puede entender el tono, las emociones, e incluso captar varios hablantes o ruidos de fondo.
Genera respuestas de audio naturales, incluyendo risas, canto y expresiones emocionales.

Lo más impresionante es la velocidad. GPT-4o puede responder en tan solo 232 milisegundos, con un promedio de 320 milisegundos. ¡Eso es más rápido que el tiempo de respuesta de un humano en una conversación!

Comparando los modelos

La precisión de estos modelos ha mejorado significativamente. GPT-4o supera a Whisper. Démosle una mirada a los datos:

Comparativo entre Whisper y GPT-4o (barras mas pequeñas es significa mejor performance)

Perdón si me pongo muy técnico, este gráfico compara el rendimiento de reconocimiento de voz entre Whisper y GPT-4o en diferentes regiones del mundo. Un valor más bajo indica un mejor rendimiento (menor tasa de error de palabras).

¿Qué nos dice este gráfico? Es fascinante ver cómo GPT-4o supera consistentemente a Whisper v3 en todas las regiones analizadas. La diferencia es particularmente notable en áreas como Asia del Sur y África Subsahariana, donde históricamente el reconocimiento de voz ha enfrentado más desafíos debido a la diversidad de acentos y dialectos. Esto representa una gran mejora en la precisión del reconocimiento de voz.

También vemos que incluso en regiones donde Whisper ya tenía un buen desempeño, como Europa Occidental, GPT-4o logra mejorar aún más la precisión. Esto sugiere que el nuevo modelo no solo es mejor en escenarios difíciles, sino que también refina el rendimiento en condiciones más favorables.

Para nosotros, esto se traduce en una experiencia mucho más fluida y natural al interactuar con ChatGPT por voz. Ya sea que estés en Buenos Aires, Ciudad de México, Madrid o cualquier otra parte del mundo hispanohablante, es más probable que el modo de voz avanzado entienda correctamente lo que dices, incluyendo tus modismos y giros lingüísticos locales.

Pero recuerda, la precisión en el reconocimiento de palabras es solo una parte de la ecuación. El modo avanzado también capta los matices emocionales y el contexto de tu voz, algo que las simples estadísticas no pueden reflejar completamente. Imagina poder transmitir sarcasmo, emoción o duda, y que la IA lo entienda y responda en consecuencia. Eso es lo que hace que el modo de voz avanzado sea verdaderamente revolucionario.

¿Cómo puedo usar el modo de voz avanzado?

Ahora, la parte que todos estaban esperando: ¿cómo puedes poner tus manos (o mejor dicho, tu voz) en esta nueva tecnología?

Dispositivos compatibles: Por ahora, el modo de voz avanzado está disponible solo en las aplicaciones de ChatGPT para iOS y Android. Si eres usuario de escritorio, tendrás que esperar un poco más.
Suscripción necesaria: El modo avanzado está disponible para usuarios Plus y Team. Si eres usuario gratuito, tendrás acceso a una vista previa mensual limitada.
Activación: Una vez que tengas la última versión de la app, busca el icono de micrófono en la parte inferior de la pantalla. Al tocarlo, podrás elegir entre el modo estándar y el avanzado.
Personalización: Puedes elegir entre nueve voces diferentes para ChatGPT, cada una con su propio estilo y personalidad. (Por si te da curiosidad, yo elegí a Breeze)

Limitaciones y consideraciones

Aunque el modo de voz avanzado es impresionante, tiene algunas limitaciones que debes tener en cuenta:

Límite de uso diario: Los usuarios Plus y Team tenemos un límite diario de uso del modo avanzado. Se nos notifica cuando quedan 15 minutos de uso.
Disponibilidad: A partir de octubre de 2024, el modo avanzado no está disponible en la Unión Europea, Suiza, Islandia, Noruega y Liechtenstein (excepto para cuentas Enterprise y Edu).
Consumo de datos: Al ser una función que procesa audio en tiempo real, puede consumir más datos que el modo de texto normal.
Privacidad: Los clips de audio de tus conversaciones con el modo avanzado se almacenan junto con la transcripción en tu historial de chat. Puedes eliminarlos, pero ten en cuenta que pueden retenerse hasta 30 días por razones de seguridad o legales.

Consejos para sacar el máximo provecho

Usa audífonos: Para una mejor experiencia y evitar interrupciones no deseadas.
Experimenta con diferentes voces: Cada voz tiene su propia personalidad. Prueba diferentes opciones para encontrar la que mejor se adapte a tus necesidades.
Aprovecha las capacidades multimodales: GPT-4o puede procesar múltiples tipos de entrada. Experimenta combinando voz con imágenes o texto para tareas más complejas.

Mirando al futuro

Este avance abre un mundo de posibilidades. Imagina asistentes virtuales que realmente entienden el contexto emocional, sistemas de atención al cliente que pueden manejar llamadas de manera más natural, o herramientas educativas que se adaptan al estado emocional del estudiante.

Y esto es solo el comienzo. Como dice OpenAI, están "apenas rascando la superficie de lo que el modelo puede hacer".

Un salto cuántico en la interacción humano-computadora

La diferencia entre el modo de voz estándar y el avanzado no es solo una mejora incremental; es un salto cuántico en cómo interactuamos con la IA. Pasamos de una experiencia robótica a una interacción fluida y natural que se acerca cada vez más a una conversación humana real.

Si tienes acceso al modo de voz avanzado, pruébalo y compáralo con el modo estándar. La diferencia te sorprenderá. Experimenta con diferentes escenarios: desde brainstorming para tu próximo proyecto, o que te ayude a elegir tu nuevo estilo de ropa, hasta practicar un idioma extranjero. Las posibilidades son infinitas.

Y tú, ¿cómo crees que este avance cambiará tu forma de interactuar con la IA? ¿Qué aplicaciones se te ocurren para tu vida o tu trabajo?

Nos vemos, me voy a hablar con Breeze! 😉

Germán

Discusión sobre este post

Por supuesto, sigue adelante.