- Ang advanced na voice mode ng Chat GPT Ito ay isinama sa parehong chat window bilang ang teksto.
- Ang mga user ay maaaring magsalita, tumingin ng mga real-time na transcript, at makatanggap ng mga larawan, mapa, o iba pang visual sa isang interface.
- Ang opsyon na i-activate ang "Separate Mode" ay nananatili upang mapanatili ang klasikong virtual assistant-style na audio-only na karanasan.
- Inilalabas ang update sa web at sa app mga mobile ng iOS at Android para sa lahat ng user, na may mga karagdagang feature para sa mga bayad na account.

Ang katulong OpenAI Ito ay nangangailangan ng isang mahalagang hakbang sa paraan ng ating kaugnayan sa artipisyal na katalinuhan. Pagkatapos nito, Voice mode ng ChatGPT hindi na ito magiging hiwalay na screen at ito ngayon ay direktang umiiral sa text chat, pinapasimple ang pang-araw-araw na paggamit at inaalis ang maraming hindi kinakailangang window switch.
Sa update na ito, kahit sino ay maaari makipag-usap sa ChatGPT, tingnan ang transcript ng usapan at tumanggap ng mga mapa, larawan, o iba pang visual na nilalaman nang hindi umaalis sa parehong chat thread. Ang ideya ay upang ilapit ang karanasan sa isang natural na pag-uusap, kung saan ang boses at screen ay nagtutulungan sa halip na magkahiwalay.
Voice mode sa loob ng chat: kung ano ang eksaktong nagbabago
Hanggang ngayon, kailangan ng mga gustong gumamit ng boses sa ChatGPT lumaktaw sa isang nakalaang audio interfacepinangungunahan ng klasikong asul na globo o isang full-screen mode na naiiba sa karaniwang chat. Nagdulot ito ng ilang alitan, lalo na kung gusto ng user na suriin ang mga nakaraang mensahe o kumonsulta sa visual na impormasyon habang nagsasalita.
Gamit ang bagong bersyon, Ang advanced na voice mode ay direktang isinaaktibo mula sa bar ng pag-type.Sa pamamagitan ng pag-tap sa icon ng sound wave sa kanan ng text box. Walang biglang pagbabago sa kapaligiran: ang parehong thread ng pag-uusap at ang kumpletong kasaysayan ay nananatiling nakikita.
Sa sandaling pinindot ang icon na iyon, magsisimulang makinig ang ChatGPT at Nagpapakita ito ng live na transcript ng kung ano ang sinasabi sa screen.mula sa user at sa katulong. Ang resulta ay isang hybrid na karanasan kung saan maaari mong sundan ang pag-uusap sa pamamagitan ng boses nang hindi nawawala ang kontrol sa kung ano ang lumalabas sa chat.
Ang pagsasama ay nagpapahintulot din sa katulong na makipag-ugnayan sa panahon ng diyalogo. Magdagdag ng mga real-time na visual gaya ng mga mapa, mga kaugnay na larawan, mga snippet ng web page, o iba pang mapagkukunan. Ang lahat ng ito ay ipinakita na naka-embed sa parehong thread, nang hindi kinakailangang umalis sa voice mode o magbukas ng mga karagdagang window.
Ang isang praktikal na detalye ay iyon Maaari kang magpalit-palit sa pagitan ng patuloy na pagsulat at pagsasalitaKahit na aktibo ang voice mode, kung mas gusto ng user na mag-type ng bahagi ng query, tatanggapin ito ng system at tutugon ito sa pamamagitan ng boses, na pinapanatili ang pagpapatuloy ng pag-uusap.

Mas natural at mas mabilis na karanasan: latency, emosyon at GPT-5.1
Ang pagsasama ng boses at teksto ay hindi nangyayari sa sarili nitong. Ipinakilala ng OpenAI Mga teknikal na pagsasaayos upang gawing mas maayos ang pakikipag-ugnayan ng bosesna may mga oras ng pagtugon na tinatayang ang bilis ng pag-uusap sa pagitan ng dalawang tao. Ang kumpanya ay nag-uulat ng mga tugon sa rehiyon na 200 millisecond, na makabuluhang binabawasan ang pakiramdam ng paghihintay.
Kasabay nito, isinasama ng katulong pagpapabuti sa intonasyon at pagpapahayag ng mga bosesAng layunin ay gawing hindi gaanong robotic ang mga ito at mas parang pang-araw-araw na pag-uusap. Ang ideya ay para sa user na madama ang isang mas personal na tono, na may kakayahang maghatid ng mga banayad na nuances at emosyon habang nananatiling isang automated na tool.
Sa teknikal na antas, umaasa ang mga bagong feature na ito sa pagsasama sa mas bagong mga modelo, gaya ng GPT-5.1na nagbibigay-daan para sa mas tumpak na pagsasaayos ng pitch, bilis, at ang paraan kung saan ang IA Tumutugon ito sa pamamagitan ng audio. Bagama't hindi ginagawa ng mga pagsulong na ito ang katulong bilang isang taong kausap, binabawasan ng mga ito ang ilang distansya na karaniwang nauugnay sa mga sintetikong boses.
Ang diskarte na ito ay umaangkop sa trend ng industriya patungo mas mayamang multimodal na pakikipag-ugnayan, kung saan ang teksto, boses, at mga larawan ay pinagsama sa isang stream. Kung ikukumpara sa mga karibal na solusyon tulad ng Gemini Live mula sa GoogleAng diskarte ng OpenAI ay upang isama ang lahat sa parehong interface, sa halip na pilitin ang mga gumagamit na lumipat mula sa isang konteksto patungo sa isa pa.
Para sa end user, ang praktikal na kahihinatnan ay iyon maaaring humawak ng hands-free na pag-uusap mas tuluy-tuloyhabang kumukuha din ng visual na suporta kapag kailangan ito ng konsultasyon, kung i-orient ang sarili sa isang mapa, suriin ang isang graph o sundin ang isang diagram sa screen.

Paano ito i-activate, sa aling mga device, at mga pagkakaiba sa pagitan ng libre at bayad na mga user
Ang bagong karanasan sa boses ay unti-unting inilalabas ito sa web at mobile app mula sa ChatGPT para sa iOS at AndroidSa karamihan ng mga kaso, ang simpleng pag-update ng app mula sa kaukulang tindahan o pag-refresh sa web na bersyon ay gagawing available ang pagbabago.
Kapag na-install na ang pinakabagong bersyon, ang pag-access ay simple: I-tap lang ang icon ng voice wave sa tabi ng text box mula sa chat. Mula sa sandaling iyon, nakikinig ang application sa user at ipinapakita ang transcript at mga tugon sa window, nang hindi binabago ang mga screen.
Para sa mga gumagamit ng libreng bersyon ng serbisyo, available ang online na voice mode. Magagamit nang walang dagdag na gastos, bagama't may mga limitasyon sa oras ginagamit kung wala kang bayad na subscription. Gayunpaman, ang mga plano tulad ng ChatGPT Plus, Pro, o Teams ay nag-aalok ng higit pang mga minuto ng chat at access sa isang advanced na voice mode na may mas detalyadong boses at pinahusay na mga kakayahan sa audio.
Sila, sa katunayan, ay umiiral dalawang natatanging karanasan sa boses: isang karaniwang isa, naa-access ng sinumang gumagamit, batay sa mas kumbensyonal na pagkilala at mga teknolohiya ng synthesis; at isang advanced na isa, na sinasamantala ang mga kakayahan ng mas makapangyarihang mga modelo upang mag-alok ng mas makahulugang mga tugon at mas pinakintab na pakikipag-ugnayan sa real time.
Sa Spain at sa iba pang bahagi ng Europe, ang pag-update ay sumusunod sa parehong pattern tulad ng sa iba pang mga merkado: Unti-unti itong ina-activate sa mga mobile device at sa webSamakatuwid, hindi lahat ng mga gumagamit ay natatanggap ito sa parehong araw. Gayunpaman, ipinapahiwatig ng OpenAI na ang paglulunsad ay idinisenyo upang maabot ang lahat ng mga account, nang walang mga paghihigpit sa rehiyon, lampas sa pagkakaiba sa pagitan ng libre at bayad na mga plano.

Higit pang kontrol ng user: "Separate mode" at mga setting ng boses
Ang pagsasama ng teksto at boses ay ang default na diskarte, ngunit Hindi inalis ng OpenAI ang klasikong audio-only na karanasanPara sa mga mas gusto ang isang mas nakaka-engganyong pakikipag-ugnayan, nang hindi nakikita ang chat o ang transcript, mayroon pa ring opsyon na gamitin ang tinatawag na "Separate Mode".
Maaaring paganahin ang mode na ito mula sa Menu ng mga setting ng ChatGPT, sa seksyong Voice ModeKapag na-activate, ang application ay babalik sa nakaraang disenyo, kung saan ang user ay pumapasok sa isang kapaligiran na eksklusibong nakatuon sa audio na pag-uusap, katulad ng pakikipag-usap sa isang tradisyunal na digital assistant.
Paglipat sa pagitan ng pinagsamang interface at hiwalay na mode Walang limitasyon sa bilang ng mga pag-activate.Maaaring subukan ng user ang isa, bumalik sa isa, at ayusin ang mga setting hangga't gusto nila. Ang kakayahang umangkop na ito ay naglalayong magsilbi kapwa sa mga taong pinahahalagahan ang pagkakaroon ng kanilang kasaysayan ng chat na laging nakikita at sa mga mas komportable sa isang malinis at nakatutok sa boses na screen.
Bilang karagdagan sa pagpili ng uri ng interface, posible na ma-access ang mga setting i-customize ang ilang aspeto ng bosesgaya ng pagpili sa pagitan ng iba't ibang magagamit na boses. Sa advanced mode, ang mga boses na ito ay idinisenyo upang maging mas natural at may bahagyang mas magandang intonasyon, habang pinapanatili pa rin ang kanilang function bilang isang tulong na tool.
Ang katotohanan na ang kumpanya ay nagpapanatili ng parehong mga pagpipilian ay sumasalamin sa isang tiyak na antas ng pag-iingat: Hindi lahat ng user ay agad na tumatanggap ng mga pagbabago sa disenyoAt ang paglipat sa iisang interface ay maaaring makabuo ng pagtutol sa mga nasanay na sa nakaraang daloy. Samakatuwid, ang pag-update ay nag-aalok ng mga bagong tampok nang hindi isinasara ang pinto sa mga nakaraang gawi.
Epekto sa pagiging produktibo, mga startup at mga kaso ng paggamit sa Europe
Ang pagsasama-sama ng boses at teksto sa isang window ay hindi lamang nagpapabuti sa kaginhawahan para sa mga gumagamit sa bahay; bumukas din ito mga bagong posibilidad para sa mga startup at team na nagtatrabaho sa automationAng kakayahang pagsamahin ang pagdidikta, pasalitang tugon, at visual na nilalaman sa iisang interface ay nagpapasimple sa paggawa ng mga katulong at mga tool sa pakikipag-usap.
Sa kontekstong European, ang pagsasamang ito ay maaaring maging kapaki-pakinabang lalo na sa hybrid at malalayong kapaligiran sa trabahokung saan ang kakayahang gumawa ng mabilis na boses na mga query habang sinusuri ang mga dokumento, mapa, o dashboard sa screen ay lalong pinahahalagahan. Ang mga sektor tulad ng serbisyo sa customer, online na edukasyon, o teknikal na suporta ay maaaring makinabang mula sa multimodal na diskarte na ito.
Para sa mga founder at technical team, na may access sa Ang isang kapaligiran para sa teksto at boses ay nagpapadali sa patunay ng konsepto at ang pagbuo ng mga produkto na nagsasama ng voice input nang hindi kinakailangang magdisenyo ng hiwalay na mga interface. Kahit na may mga tool na walang code, mas madaling mag-eksperimento sa mga katulong na pinagsasama ang pagdidikta, pasalitang tugon, at visual na elemento sa loob ng parehong daloy ng trabaho.
Higit pa rito, ang pagkakaroon ng voice mode na naa-access mula sa bersyon ng web at mga mobile app nagpapababa ng mga hadlang sa accessibility Para sa mga taong mas gustong huwag mag-type sa keyboard o may mga problema sa paningin, na marinig ang mga sagot nang hindi ibinibigay ang visual na impormasyon kapag kailangan nila ito.
Ang paglipat ay umaangkop sa isang industriya ng AI na, kapwa sa Spain at sa iba pang bahagi ng kontinente, ay nakakaranas ng sandali ng pagpapalawak sa paggamit at pamumuhunanAng mga pangunahing platform, kabilang ang OpenAI, ay nakikipagkumpitensya upang mag-alok ng mas kumpleto at mas madaling gamitin na mga karanasan, alam na ang maliliit na pagpapabuti sa kakayahang magamit ay maaaring gumawa ng lahat ng pagkakaiba sa mass adoption.
Sa pagbabagong ito, ang ChatGPT ay gagawa ng isa pang hakbang tungo sa a Isang tunay na multimodal na pakikipag-ugnayan, kung saan ang pagsasalita, pagbabasa, at panonood ng nilalaman ay nangyayari sa parehong lugarAng opsyong pumili sa pagitan ng pinagsama-samang interface o isang hiwalay na mode, na sinamahan ng mga pagpapahusay sa bilis at pagiging natural ng mga boses, ay naglalagay sa katulong sa isang mas komportableng posisyon para sa pang-araw-araw na paggamit, kapwa ng mga indibidwal na user at mga organisasyong naghahanap upang ipakilala ang boses sa kanilang mga daloy ng trabaho nang walang karagdagang mga komplikasyon.
Masigasig na manunulat tungkol sa mundo ng mga byte at teknolohiya sa pangkalahatan. Gustung-gusto kong ibahagi ang aking kaalaman sa pamamagitan ng pagsusulat, at iyon ang gagawin ko sa blog na ito, ipakita sa iyo ang lahat ng mga pinaka-kagiliw-giliw na bagay tungkol sa mga gadget, software, hardware, teknolohikal na uso, at higit pa. Ang layunin ko ay tulungan kang mag-navigate sa digital na mundo sa simple at nakakaaliw na paraan.