ChatGPT integra el modo voz en el chat con transcripción

Mundobytes » Inteligencia Artificial » ChatGPT integra por fin el modo voz en el propio chat

El modo de voz avanzado de ChatGPT pasa a estar integrado en la misma ventana de chat que el texto.
Los usuarios pueden hablar, ver la transcripción en tiempo real y recibir imágenes, mapas u otros elementos visuales en una sola interfaz.
Se mantiene la opción de activar el "Modo separado" para conservar la experiencia de solo audio estilo asistente virtual clásico.
La actualización se está desplegando en la web y en las apps móviles de iOS y Android para todos los usuarios, con funciones extra para cuentas de pago.

El asistente de OpenAI da un paso importante en la forma en que nos relacionamos con la inteligencia artificial. A partir de ahora, el modo voz de ChatGPT deja de ser una pantalla aparte y pasa a convivir directamente con el chat de texto, lo que simplifica el uso diario y elimina muchos cambios de ventana innecesarios.

Con esta actualización, cualquier persona puede hablar con ChatGPT, ver la transcripción de la conversación y recibir mapas, imágenes u otros contenidos visuales sin salir del mismo hilo de chat. La idea es acercar la experiencia a una charla natural, donde voz y pantalla trabajen juntas en lugar de estar separadas.

Modo voz dentro del chat: qué cambia exactamente

Hasta ahora, quienes querían usar la voz en ChatGPT tenían que saltarse a una interfaz dedicada al audio, dominada por el clásico orbe azul o un modo de pantalla completa distinto del chat habitual. Esto generaba cierta fricción, sobre todo si el usuario quería revisar mensajes anteriores o consultar información visual mientras hablaba.

Con la nueva versión, el modo de voz avanzado se activa directamente desde la barra de escritura, tocando el icono con forma de onda de sonido situado a la derecha del cuadro de texto. No hay cambio brusco de entorno: se mantiene el mismo hilo de conversación y el historial completo a la vista.

En cuanto se pulsa ese icono, ChatGPT empieza a escuchar y muestra en la pantalla una transcripción en vivo de lo que se dice, tanto del usuario como del asistente. El resultado es una experiencia híbrida en la que se puede seguir la conversación por voz sin perder el control de lo que aparece en el chat.

La integración también permite que, en medio del diálogo, el asistente añada elementos visuales en tiempo real como mapas, imágenes relacionadas, fragmentos de páginas web u otros recursos. Todo ello se presenta incrustado en el mismo hilo, sin tener que abandonar el modo voz ni abrir ventanas adicionales.

Un detalle práctico es que se puede alternar entre escribir y hablar de forma continua. Aunque el modo de voz esté activo, si el usuario prefiere teclear una parte de la consulta, el sistema la aceptará y responderá igualmente por voz, manteniendo la continuidad de la conversación.

Google lanza Gemini Code Assist: el asistente gratuito de programación con IA

Una experiencia más natural y rápida: latencia, emociones y GPT-5.1

La integración de voz y texto no llega sola. OpenAI ha introducido ajustes técnicos para que la interacción por voz sea más fluida, con tiempos de respuesta que se approximan al ritmo de una charla entre dos personas. La compañía habla de respuestas en torno a los 200 milisegundos, lo que reduce considerablemente la sensación de espera.

Al mismo tiempo, el asistente incorpora mejoras en la entonación y la expresividad de las voces, buscando que suenen menos robóticas y más cercanas a una conversación cotidiana. La idea es que el usuario perciba un tono más personal, capaz de transmitir matices y emociones ligeras sin dejar de ser una herramienta automática.

En el plano técnico, estas novedades se apoyan en la integración con modelos más recientes, como GPT-5.1, que permiten ajustar con mayor precisión el tono, la velocidad y la forma en que la IA responde por audio. Aunque estos avances no convierten al asistente en un interlocutor humano, sí rebajan parte de la distancia habitual de las voces sintéticas.

Este enfoque encaja en la tendencia del sector hacia interacciones multimodales más ricas, en las que texto, voz e imágenes se combinan en un único flujo. Frente a soluciones rivales como Gemini Live de Google, la apuesta de OpenAI pasa por integrar todo en la misma interfaz, en lugar de obligar a saltar de un contexto a otro.

Para el usuario final, la consecuencia práctica es que puede mantener una conversación de manos libres mucho más continua, obteniendo al mismo tiempo apoyo visual cuando la consulta lo requiere, ya sea para orientarse con un mapa, revisar un gráfico o seguir un esquema en pantalla.

Cómo se activa, en qué dispositivos y diferencias entre usuarios gratuitos y de pago

La nueva experiencia de voz se está desplegando gradualmente tanto en la web como en las aplicaciones móviles de ChatGPT para iOS y Android. En la mayoría de los casos, basta con actualizar la app desde la tienda correspondiente o recargar la versión web para que el cambio aparezca disponible.

Una vez instalada la última versión, el acceso es sencillo: solo hay que pulsar el icono de onda de voz junto al cuadro de texto del chat. A partir de ese momento, la aplicación escucha al usuario y va mostrando en la ventana la transcripción y las respuestas, sin cambiar de pantalla.

Para quienes utilizan la versión gratuita del servicio, el modo voz online está disponible sin coste adicional, aunque con limitaciones en el tiempo de uso si no se dispone de una suscripción de pago. En cambio, los planes como ChatGPT Plus, Pro o Teams ofrecen más minutos de conversación y acceso a un modo de voz avanzado con voces más elaboradas y capacidades de audio mejoradas.

Elon Musk lanzará un estudio de videojuegos impulsado por inteligencia artificial

Existen, de hecho, dos experiencias diferenciadas de voz: una estándar, accesible a cualquier usuario, basada en tecnologías de reconocimiento y síntesis más convencionales; y otra avanzada, que aprovecha las capacidades de modelos más potentes para ofrecer respuestas más expresivas y una interacción más pulida en tiempo real.

En España y el resto de Europa, la actualización sigue el mismo patrón que en otros mercados: se va activando de forma progresiva en móviles y en la web, de modo que no todos los usuarios la reciben el mismo día. Aun así, OpenAI indica que la implementación está pensada para llegar a todas las cuentas, sin restricciones por región, más allá de la diferencia entre planes gratuitos y de pago.

Más control para el usuario: «Modo separado» y ajustes de voz

La integración de texto y voz es la apuesta por defecto, pero OpenAI no ha eliminado la experiencia clásica de solo audio. Para quienes prefieren una interacción más inmersiva, sin ver el chat ni la transcripción, sigue existiendo la opción de usar el llamado «Modo separado».

Esta modalidad se puede habilitar desde el menú de configuración de ChatGPT, en el apartado de Modo de Voz. Al activarla, la aplicación vuelve al diseño anterior, en el que el usuario entra en un entorno dedicado exclusivamente a la conversación por audio, similar a hablar con un asistente digital tradicional.

El cambio entre la interfaz integrada y el modo separado no tiene límite de activaciones: el usuario puede probar una, regresar a la otra y ajustar la configuración tantas veces como quiera. Esta flexibilidad busca adaptarse tanto a quienes valoran tener el historial del chat siempre a la vista como a los que se sienten más cómodos con una pantalla limpia centrada en la voz.

Además de escoger el tipo de interfaz, desde los ajustes es posible personalizar algunos aspectos de la voz, como la selección entre distintas locuciones disponibles. En el caso del modo avanzado, estas voces han sido diseñadas para sonar más naturales y con una entonación algo más rica, aunque sin perder el carácter de herramienta de asistencia.

Que la compañía mantenga las dos opciones refleja cierta cautela: no todos los usuarios aceptan de inmediato los cambios de diseño, y la transición a una interfaz única puede generar resistencia entre quienes ya se habían acostumbrado al flujo anterior. De este modo, la actualización ofrece novedades sin cerrar la puerta a los hábitos previos.

Los nuevos Amazon Echo aterrizan en España con mucha IA: precios y claves

Impacto en productividad, startups y casos de uso en Europa

La unificación de voz y texto en una sola ventana no solo mejora la comodidad del usuario doméstico; también abre nuevas posibilidades para startups y equipos que trabajan con automatización. Poder combinar dictado, respuestas habladas y contenido visual en una misma interfaz simplifica la creación de asistentes y herramientas conversacionales.

En el contexto europeo, esta integración puede resultar especialmente útil en entornos de trabajo híbridos y remotos, donde se valora cada vez más la capacidad de hacer consultas rápidas por voz mientras se revisan documentos, mapas o dashboards en pantalla. Sectores como la atención al cliente, la educación en línea o el soporte técnico pueden aprovechar este enfoque multimodal.

Para fundadores y equipos técnicos, contar con un único entorno para texto y voz facilita las pruebas de concepto y el desarrollo de productos que integren entrada oral sin necesidad de diseñar interfaces separadas. Incluso con herramientas sin código, resulta más sencillo experimentar con asistentes que combinen dictado, respuestas habladas y elementos visuales dentro del mismo flujo.

Por otra parte, la presencia de un modo de voz accesible desde la versión web y las apps móviles rebaja barreras de accesibilidad para personas que prefieren no escribir en el teclado o que tienen dificultades de visión, al poder escuchar las respuestas sin renunciar a la información visual cuando la necesitan.

El movimiento encaja en una industria de la IA que, tanto en España como en el resto del continente, vive un momento de expansión en uso e inversión. Las grandes plataformas, entre ellas OpenAI, compiten por ofrecer experiencias más completas y fáciles de adoptar, conscientes de que pequeñas mejoras en usabilidad pueden marcar la diferencia en la adopción masiva.

Con este cambio, ChatGPT da un paso más hacia una interacción realmente multimodal, en la que hablar, leer y ver contenido suceden en el mismo lugar. La posibilidad de elegir entre una interfaz integrada o un modo separado, unida a las mejoras en velocidad y naturalidad de las voces, sitúa al asistente en una posición más cómoda para el uso diario, tanto por parte de usuarios particulares como de organizaciones que buscan introducir la voz en sus flujos de trabajo sin complicaciones adicionales.