Retratos en Copilot: la nueva cara de la IA de Microsoft

Última actualización: 01/10/2025
Autor: Isaac
  • Copilot prueba Retratos con 40 avatares estilizados y voz en tiempo real basados en VASA-1.
  • Seguridad ante todo: +18, límites diarios/por sesión y avisos visibles de IA, sin fotorrealismo.
  • Lanzamiento limitado (EE. UU., Reino Unido y Canadá) vía Copilot Labs, con posible requisito de Copilot Pro.

Retratos en Copilot con avatares

Microsoft está probando una función experimental que pone literalmente “cara” a su asistente: se llama Retratos (Portraits) y llega a Copilot Labs con 40 avatares humanos estilizados capaces de acompañar conversaciones de voz en tiempo real. El objetivo no es solo embellecer la interfaz: la compañía quiere reducir la fricción de hablar con una IA y hacer la interacción más natural, especialmente para quienes se sienten más cómodos dirigiéndose a un rostro.

Este experimento aprovecha tecnología de Microsoft Research para generar animaciones faciales fluidas a partir de una imagen y un audio, con sincronización labial, expresiones y movimiento de cabeza en vivo. A la vez, Microsoft ha levantado varias barreras de seguridad: los retratos no son fotorrealistas, hay límites de uso y la función se limita a mayores de edad y a unos pocos países por ahora, con un despliegue controlado para aprender de la experiencia real de los usuarios.

Qué es exactamente Retratos (Portraits) en Copilot

Avatares estilizados en Copilot

Retratos es una nueva opción de Copilot Labs que permite elegir entre más de 40 personajes humanos con estilos variados, desde diseños 2D a opciones 3D, todos intencionadamente estilizados para que no generen confusión con una persona real. Cada avatar muestra gestos y microexpresiones durante el diálogo, lo que contribuye a una sensación de presencia mientras hablas con el asistente por voz.

La idea nace de un patrón de uso: algunos usuarios han comentado que se sienten más relajados y confiados si pueden “mirar” a alguien, aunque sea un avatar, cuando interactúan por voz con la IA. De ahí que Microsoft haya decidido experimentar con un rostro que reacciona en tiempo real a la conversación, en lugar de la clásica burbuja o avatar abstracto de siempre.

Según ha compartido el equipo de Copilot —y recogido por medios como The Verge, además de mensajes en el servidor de Discord de Copilot— estos retratos ofrecen un grado de naturalidad superior en la mímica facial, reforzando el turno de palabra y los matices emocionales habituales en una charla. No es únicamente la boca: la cabeza, la mirada y la expresión contribuyen a la sensación de fluidez.

Como detalle curioso, entre la variedad de diseños hay opciones muy diversas por raza, género y edad; algunos usuarios han señalado que uno de los avatares recuerda a la “abuelita de Coco” por su estética. Otros retratos son más modernos o minimalistas, y hay diferencias de estilización que van de lo casi caricaturesco a lo semi-realista, pero siempre lejos del fotorrealismo.

Para personalizar la experiencia, el usuario puede vincular el retrato a una voz. Esa combinación permite configurar una sensación de “compañero conversacional” más cercana, sin perder de vista que estamos ante una IA con indicadores visibles de que no es humana, algo que Microsoft ha puesto en el centro del diseño.

La tecnología detrás: VASA‑1 de Microsoft Research

Tecnología VASA-1 para retratos animados

Retratos se apoya en VASA‑1, una tecnología desarrollada por Microsoft Research que genera caras parlantes y animaciones faciales realistas a partir de una sola imagen y un audio. Uno de sus puntos fuertes es que no requiere un modelado 3D complejo: el sistema sintetiza en tiempo real la sincronización labial, los movimientos de la cabeza y las expresiones.

Esta aproximación permite que los retratos de Copilot respondan con fluidez en una conversación sin incurrir en los pesados tiempos de preparación que suelen requerir los pipelines 3D tradicionales. Dicho de otro modo, la latencia baja es parte del diseño, algo clave para que la sensación de “estar hablando con alguien” no se rompa por esperas o tartamudeos visuales.

Microsoft presentó VASA‑1 hace más de un año como un hito de investigación, y ahora lo pone al servicio de un uso práctico en Copilot. La decisión de mantener una estética estilizada —y no fotográfica— no es un capricho: la compañía busca equilibrio entre naturalidad expresiva y claridad ética, evitando la ilusión de una persona real que hable por el otro lado.

  Cómo comprobar sumas de verificación en Windows 11: guía completa y actualizada

Entre las impresiones tempranas compartidas por probadores, se destaca que los retratos se adaptan bien a las inflexiones de voz y gestionan con soltura la sincronización de labios y gestos, incluso cuando se alterna entre idiomas. Aunque todavía es un prototipo, las reacciones sugieren que la base técnica ya habilita interacciones bastante creíbles.

A diferencia de otras aproximaciones del mercado, VASA‑1 no está orientada a deepfakes de celebridades ni a recreaciones hiperrealistas, sino a conversaciones asistidas por IA con señales sociales suficientes para hacer el diálogo más humano, pero sin cruzar la frontera de “parecer” una persona.

La postura de Microsoft: naturalidad sí, ilusión de humanidad no

Mustafa Suleyman, responsable de Microsoft AI, ha subrayado el objetivo de este experimento: facilitar que quienes prefieren hablar a “una cara” lo puedan hacer, pero sin caer en el engaño del fotorrealismo. En palabras del directivo, hay que construir IA para las personas, no “una persona digital”. El riesgo de diseñar sistemas indistinguibles de humanos es que los usuarios acaben atribuyéndoles conciencia o incluso derechos.

En esa línea, Microsoft deja claro que los retratos están “diseñados intencionalmente” para no ser fotorrealistas. También incluyen avisos visuales de que se está interactuando con una IA, de forma que la experiencia sea transparente y los límites estén bien señalados para todo tipo de usuarios.

La compañía quiere aprender en abierto. Suleyman recuerda que esta función es un prototipo en desarrollo, un ensayo controlado para comprender cómo perciben los usuarios una conversación con una IA “con cara”, qué les aporta y dónde están los riesgos. De ahí que se haya optado por un lanzamiento restringido y progresivo, con controles visibles y límites diarios.

El planteamiento armoniza dos objetivos que suelen chocar: aumentar la cercanía de la experiencia conversacional y, al mismo tiempo, evitar que el sistema se perciba como una persona. En esa frontera, la transparencia —marcas de IA, estilo visual, y límites— es el pilar que Microsoft quiere mantener como garantía de seguridad y confianza.

Disponibilidad, requisitos y primeras pruebas

Retratos es parte de Copilot Labs, por lo que se encuentra en fase experimental y acceso limitado. Actualmente se puede probar en Estados Unidos, Reino Unido y Canadá, y solo por usuarios mayores de 18 años. Microsoft también ha implementado límites diarios y por sesión para acotar el uso mientras recaba feedback y mide el impacto.

El acceso se realiza desde la sección Labs en Copilot. Algunos materiales prácticos compartidos por la comunidad señalan que para habilitar la función puede ser necesaria una cuenta Microsoft y, en ciertos casos, una suscripción Copilot Pro. Se mencionan 20 dólares al mes en algunas guías, aunque el despliegue y requisitos pueden variar a medida que la prueba avance.

El proceso de arranque es sencillo: si la opción aparece en tu Copilot Labs, basta con pulsar “Probar ahora”, escoger un retrato del catálogo disponible y asignarle una voz. A partir de ahí, podrás mantener conversaciones de voz en tiempo real con la IA, que animará el rostro elegido con movimientos de boca, cabeza y gestos acordes al audio.

Las pruebas iniciales recogen valoraciones positivas de quienes deseaban una interacción menos “fría” que el chat de texto. Se destacan la agilidad del cambio de idioma y la naturalidad general de los gestos. Como en todo prototipo, no faltan detalles por afinar: hay voces que suenan mejor que otras y algunos retratos funcionan mejor según el contexto.

Según Microsoft, la disponibilidad podría ampliarse con el tiempo si la experiencia cumple las expectativas y se confirman los beneficios de usabilidad y satisfacción. Por ahora no hay fechas públicas para un despliegue global.

  Cómo comprobar la batería de dispositivos Bluetooth en Windows 11 de forma sencilla y eficaz

De Copilot Appearances a Retratos: qué cambia

Antes de Retratos, Microsoft ya había tanteado el terreno con Copilot Appearances, una propuesta previa presentada en julio que apostaba por figuras animadas tipo caricatura o “blob” para marcar emociones y turnos conversacionales. Aquel acercamiento fue más conceptual y menos humano en su estética.

La gran diferencia ahora es el uso de VASA‑1 y el salto a avatares humanos estilizados que mantienen mejor la coherencia entre voz y gesto, en lugar de un personaje abstracto. Esto sirve para elevar la sensación de naturalidad sin entrar en el fotorrealismo, una frontera que Microsoft expresa que no quiere traspasar en este contexto.

Fuentes de la comunidad y newsletters especializadas han especulado con una posible convergencia futura entre estos retratos y conceptos como Copilot Characters o Live Portraits, así como con integraciones relacionadas con OneDrive o funciones de “Pages/Memories”. Por ahora, todo ello carece de fecha y forma parte del terreno experimental y prospectivo.

En paralelo, algunas entrevistas y piezas de opinión han ido más allá, hablando de un Copilot con “identidad persistente”, memoria extendida o incluso “envejecimiento” del avatar con el tiempo. Aunque suenan sugerentes, esas ideas deben tomarse como visiones de largo plazo o hipótesis, no como funciones anunciadas oficialmente para Retratos hoy.

Contexto de mercado: asistentes con rostro y tendencia visual

La industria se mueve hacia asistentes multimodales con presencia visual. El competidor Grok, por ejemplo, ha introducido avatares 3D con estilos que van del anime a opciones para adultos (NSFW). Frente a ese enfoque, Microsoft insiste en una estética controlada y no fotorrealista, con límites de uso y avisos claros, intentando evitar derivas problemáticas.

La diferencia estratégica es evidente: priorizar la confianza, la seguridad y la utilidad por encima de lo llamativo. De ahí el lanzamiento acotado por edades y países, y la recopilación de datos de uso para iterar con prudencia. La ambición de Microsoft es que Retratos complemente tareas reales, no que se convierta en un fin en sí mismo.

Entre los casos de uso potenciales destacan la formación interna, la atención al cliente o la accesibilidad para quienes prefieren el canal de voz. La presencia de un rostro que asiente, enfatiza o muestra matices emocionales puede ayudar a comprender instrucciones, reforzar la empatía y minimizar la sensación de hablar “contra una pantalla vacía”.

Eso sí, el valor real dependerá de cómo se integre Retratos con el resto del ecosistema de Microsoft y de si la interacción visual aporta mejoras medibles de satisfacción o eficiencia. El experimento servirá precisamente para medirlo en escenarios concretos.

Seguridad, privacidad y límites: el marco de juego

Microsoft ha implantado límites diarios y por sesión para el uso de Retratos, además de indicadores visuales inequívocos de que se está tratando con una IA. La idea es doble: prevenir abusos y marcar una expectativa clara del tipo de interlocutor.

El hecho de que los retratos sean estilizados y no fotorrealistas reduce el riesgo de malentendidos y posibles usos malintencionados. En un contexto donde algunas plataformas con avatares han sufrido problemas —desde contenido inapropiado hasta intentos de simular personas reales—, esta decisión de diseño introduce barreras al engaño.

En materia de privacidad y cumplimiento normativo (p. ej., GDPR), el despliegue controlado facilita a Microsoft reforzar garantías antes de escalar. La compañía quiere asegurarse de que las interacciones no se salgan de control y que las señales de transparencia sean visibles en todo momento.

El modelo de experimentación en Labs permite iterar sobre feedback real, ajustar límites y, llegado el caso, corregir derivas de uso. La combinación de estilo visual, controles de uso y avisos visibles conforma el perímetro de seguridad inicial mientras se evalúa el impacto de la función.

Adopción empresarial: potencial y fricciones

En las empresas, la madurez para incorporar asistentes “con cara” es desigual. Sectores innovadores —tecnología, digital, I+D o equipos de experiencia de cliente— pueden ver valor en la cercanía que aportan los retratos: mejor onboarding, formación más amena o soporte guiado con señales sociales.

  SysMain en Windows 11: qué es, cómo funciona y cuándo debes desactivarlo

En sectores más tradicionales —banca, seguros, industria o administración— la IA sigue en gran parte asociada a la productividad pura y dura. Aquí una interfaz emocional puede percibirse como innecesaria, frívola o invasiva si no se explica la utilidad con números. La exigencia de ROI a corto plazo impone barreras a experimentos de cara visible.

Además, hay un reto de percepción: dotar al asistente de gestualidad, voz y memoria puede generar desconfianza si no se comunica bien para qué sirve y cómo protege los datos. El cumplimiento regulatorio (por ejemplo, GDPR) pesa especialmente cuando se trata de conversaciones sensibles o datos personales.

También está el desafío de integración. Muchas organizaciones no están listas técnica ni culturalmente para trabajar con agentes que gestionen voz y señales no verbales. Esto implica cambios en procesos, diseño de experiencias y, en ocasiones, en habilidades del equipo que orquesta la IA.

  • La propuesta de valor debe quedar clara: mejor atención, menos fricción o mayor retención.
  • El cumplimiento y la gobernanza deben estar al día: controles, auditoría y transparencia.
  • Conviene un piloto acotado para medir impacto real y calcular el ROI.

Relación con otros proyectos del ecosistema Copilot

Mientras Retratos explora la capa visual de la conversación, Microsoft empuja otras líneas para ampliar el alcance de Copilot, como DALL·E 3 con Copilot. Un ejemplo es Gaming Copilot, un asistente pensado para jugadores de PC que se integra en la Game Bar de Windows y en dispositivos como ROG Ally.

Este asistente puede interactuar por voz o texto, ofreciendo recomendaciones tácticas, ayuda en misiones y estrategias en tiempo real. Incluye un modo “Mini” que permanece en pantalla sin interrumpir la partida y opciones push‑to‑talk para consultas rápidas, concebido para acompañar el flujo del juego sin sacarte de la acción.

Según Microsoft, Gaming Copilot cruza información del perfil del usuario con datos públicos de Bing para adaptar las respuestas al contexto exacto de la partida, con la posibilidad de que creadores de contenido aporten recomendaciones en el futuro. Aunque sea un ámbito distinto, refleja el mismo enfoque: IA contextual, útil y con interfaz cuidada.

Preguntas rápidas

  • ¿Cuántos retratos hay? Más de 40 avatares humanos estilizados con diversidad de estilos, edades y estéticas.
  • ¿Es fotorrealista? No. Están diseñados para evitar confusiones con personas reales y mantener claridad ética.
  • ¿Dónde está disponible? De momento en Estados Unidos, Reino Unido y Canadá, y para mayores de 18 años.
  • ¿Necesito Copilot Pro? Algunas guías mencionan que puede requerirse en ciertos casos; el acceso se gestiona desde Copilot Labs.
  • ¿Cómo funciona técnicamente? Con VASA‑1, que genera animación facial, movimientos de cabeza y sincronización labial a partir de una imagen y un audio.
  • ¿Para qué sirve? Para hacer la conversación por voz más natural, reduciendo la frialdad del chat sin dar la impresión de hablar con un humano.

Retratos en Copilot es un paso medido hacia interfaces conversacionales más humanas sin cruzar la línea del fotorrealismo: avatares que gesticulan, sincronizan labios y asienten con naturalidad para quienes prefieren hablar a “una cara” y no a un recuadro vacío. Con VASA‑1 como motor, límites claros de uso, avisos visibles y un despliegue restringido, Microsoft busca comprobar hasta qué punto una presencia visual mejora la experiencia y la confianza, y en qué escenarios de la vida real —desde el hogar al trabajo— esta capa puede aportar valor tangible.

dall-e 3 gratis en copilot-8
Artículo relacionado:
Cómo usar DALL-E 3 gratis con Copilot: guía completa en español