ChatGPT integrerer talemodus i chat med transkripsjon

Mundobytes » Kunstig intelligens » ChatGPT integrerer endelig talemodus i selve chatten.

Den avanserte stemmemodusen til ChatGPT Den blir integrert i samme chatvindu som teksten.
Brukere kan snakke, se transkripsjoner i sanntid og motta bilder, kart eller andre visuelle elementer, alt i ett grensesnitt.
Alternativet for å aktivere «Separat modus» er fortsatt tilgjengelig for å bevare den klassiske lydopplevelsen i virtuell assistentstil.
Oppdateringen rulles ut på nettet og i apps mobiler av iOS og Android for alle brukere, med ekstra funksjoner for betalte kontoer.

chatgpt-stemmemodus i chatten

Assistenten OpenAI Det tar et viktig skritt i måten vi forholder oss til kunstig intelligens. Heretter, ChatGPTs stemmemodus den slutter å være en separat skjerm og den sameksisterer nå direkte med tekstchatten, noe som forenkler daglig bruk og eliminerer mange unødvendige vindusbytter.

Med denne oppdateringen kan hvem som helst snakk med ChatGPT, se transkripsjon av samtalen og motta kart, bilder eller annet visuelt innhold uten å forlate den samme chattetråden. Tanken er å bringe opplevelsen nærmere en naturlig samtale, der stemme og skjerm fungerer sammen i stedet for å være separate.

Stemmemodus i chatten: hva endres egentlig

Frem til nå måtte de som ønsket å bruke stemme i ChatGPT hopp til et dedikert lydgrensesnittdominert av den klassiske blå kulen eller en fullskjermmodus forskjellig fra den vanlige chatten. Dette genererte noe friksjon, spesielt hvis brukeren ønsket å se gjennom tidligere meldinger eller se visuell informasjon mens han snakket.

Med den nye versjonen, Avansert talemodus aktiveres direkte fra skrivefeltet.Ved å trykke på lydbølgeikonet til høyre for tekstboksen, skjer det ingen brå endring av miljøet: den samme samtaletråden og hele historikken forblir synlige.

Så snart du trykker på ikonet, begynner ChatGPT å lytte og Den viser en live transkripsjon av det som blir sagt på skjermen.fra både brukeren og assistenten. Resultatet er en hybridopplevelse der du kan følge samtalen med stemmen uten å miste kontrollen over hva som vises i chatten.

Integrasjonen lar også assistenten samhandle under dialogen. Legg til visuelle elementer i sanntid som kart, relaterte bilder, nettsideutdrag eller andre ressurser. Alt dette presenteres innebygd i samme tråd, uten at du må forlate talemodus eller åpne flere vinduer.

En praktisk detalj er at Du kan veksle mellom å skrive og snakke kontinuerligSelv om talemodus er aktiv, vil systemet godta og svare med stemmen hvis brukeren foretrekker å skrive en del av forespørselen, slik at samtalen fortsetter.

Slik slår du Copilots minne av eller på: Personvern, annonser og innstillinger i Microsoft 365 og Outlook

chatgpt-grensesnitt med integrert talemodus

En mer naturlig og raskere opplevelse: latens, følelser og GPT-5.1

Integrering av tale og tekst skjer ikke av seg selv. OpenAI har introdusert Tekniske justeringer for å gjøre stemmeinteraksjonen smidigeremed responstider som tilnærmet tilsvarer tempoet i en samtale mellom to personer. Selskapet rapporterer svar i området 200 millisekunder, noe som reduserer følelsen av å vente betydelig.

Samtidig innlemmer assistenten forbedringer i intonasjon og uttrykksevne i stemmerMålet er å få dem til å høres mindre robotiske ut og mer som en hverdagssamtale. Tanken er at brukeren skal oppfatte en mer personlig tone, som er i stand til å formidle subtile nyanser og følelser, samtidig som den forblir et automatisert verktøy.

På et teknisk nivå er disse nye funksjonene avhengige av integrasjon med nyere modeller, som GPT-5.1som gir mulighet for mer presis justering av tonehøyde, hastighet og måten IA Den svarer via lyd. Selv om disse fremskrittene ikke forvandler assistenten til en menneskelig samtalepartner, reduserer de noe av avstanden som vanligvis forbindes med syntetiske stemmer.

Denne tilnærmingen passer inn i bransjens trend mot rikere multimodale interaksjoner, der tekst, tale og bilder kombineres til én strøm. Sammenlignet med konkurrerende løsninger som Gemini Lev fra GoogleOpenAIs tilnærming er å integrere alt i samme grensesnitt, i stedet for å tvinge brukere til å hoppe fra én kontekst til en annen.

For sluttbrukeren er den praktiske konsekvensen at kan føre en håndfri samtale mye mer kontinuerligsamtidig som man får visuell støtte når konsultasjonen krever det, enten det er å orientere seg med et kart, se på en graf eller følge et diagram på skjermen.

Bruk av chatgpt i talemodus på mobil

Hvordan aktivere det, på hvilke enheter, og forskjeller mellom gratis og betalte brukere

Den nye stemmeopplevelsen er gradvis rulle det ut på både nett- og mobilapper fra ChatGPT for iOS og AndroidI de fleste tilfeller vil endringen være tilgjengelig ved å oppdatere appen fra den tilhørende butikken eller oppdatere nettversjonen.

Når den nyeste versjonen er installert, er tilgangen enkel: Bare trykk på talebølgeikonet ved siden av tekstboksen fra chatten. Fra det øyeblikket lytter applikasjonen til brukeren og viser transkripsjonen og svarene i vinduet, uten å bytte skjermbilder.

For de som bruker gratisversjonen av tjenesten, er online talemodus tilgjengelig. Tilgjengelig uten ekstra kostnad, men med begrensninger i tiden av bruk hvis du ikke har et betalt abonnement. Abonnementer som ChatGPT Plus, Pro eller Teams tilbyr imidlertid flere chatminutter og tilgang til en avansert stemmemodus med mer forseggjorte stemmer og forbedrede lydfunksjoner.

AMD fullfører oppkjøpet av ZT Systems for 4.900 milliarder dollar for å styrke fokuset på kunstig intelligens

De finnes faktisk to forskjellige stemmeopplevelseren standard, tilgjengelig for alle brukere, basert på mer konvensjonelle gjenkjennings- og synteseteknologier; og en avansert, som utnytter mulighetene til kraftigere modeller for å tilby mer uttrykksfulle responser og en mer polert interaksjon i sanntid.

I Spania og resten av Europa følger oppdateringen samme mønster som i andre markeder: Den aktiveres gradvis på mobile enheter og på nettet.Derfor mottar ikke alle brukere den samme dag. Likevel indikerer OpenAI at utrullingen er utformet for å nå alle kontoer, uten regionale begrensninger, utover forskjellen mellom gratis og betalte abonnementer.

chatgpt-innstillinger for stemmemodus

Mer brukerkontroll: «Separat modus» og stemmeinnstillinger

Integrering av tekst og tale er standardmetoden, men OpenAI har ikke eliminert den klassiske lydopplevelsenFor de som foretrekker en mer oppslukende interaksjon, uten å se chatten eller transkripsjonen, finnes det fortsatt muligheten til å bruke den såkalte «Separat modus».

Denne modusen kan aktiveres fra ChatGPT-innstillingsmenyen, i Stemmemodus-delenNår den aktiveres, går applikasjonen tilbake til den forrige designen, der brukeren går inn i et miljø dedikert utelukkende til lydsamtaler, likt å snakke med en tradisjonell digital assistent.

Veksle mellom integrert grensesnitt og separat modus Det er ingen grense for antall aktiveringer.Brukeren kan prøve den ene, gå tilbake til den andre og justere innstillingene så mange ganger de vil. Denne fleksibiliteten har som mål å imøtekomme både de som verdsetter å ha chathistorikken sin alltid synlig og de som er mer komfortable med en ren, stemmefokusert skjerm.

I tillegg til å velge grensesnitttype, er det mulig å få tilgang til innstillingene tilpasse noen aspekter ved stemmensom for eksempel valget mellom forskjellige tilgjengelige stemmer. I avansert modus er disse stemmene utformet for å høres mer naturlige ut og med en litt rikere intonasjon, samtidig som de beholder funksjonen som et hjelpeverktøy.

Det faktum at selskapet opprettholder begge alternativene gjenspeiler en viss grad av forsiktighet: Ikke alle brukere godtar designendringer umiddelbartOg overgangen til et enkelt grensesnitt kan skape motstand blant de som allerede var vant til den forrige flyten. Derfor tilbyr oppdateringen nye funksjoner uten å lukke døren for tidligere vaner.

Slik bruker du MAI-Image-1: komplett guide, tilgang og funksjoner

Innvirkning på produktivitet, oppstartsbedrifter og brukstilfeller i Europa

Å samle tale og tekst i ett vindu forbedrer ikke bare bekvemmeligheten for hjemmebrukere; det åpner også opp nye muligheter for oppstartsbedrifter og team som jobber med automatiseringÅ kunne kombinere diktering, muntlige svar og visuelt innhold i ett enkelt grensesnitt forenkler opprettelsen av assistenter og samtaleverktøy.

I europeisk sammenheng kan denne integrasjonen være spesielt nyttig i hybride og eksterne arbeidsmiljøerder muligheten til å foreta raske taleforespørsler mens man gjennomgår dokumenter, kart eller dashbord på skjermen blir stadig mer verdsatt. Sektorer som kundeservice, nettbasert utdanning eller teknisk støtte kan dra nytte av denne multimodale tilnærmingen.

For grunnleggere og tekniske team, å ha tilgang til Et enkelt miljø for tekst og tale forenkler konseptbevis og utvikling av produkter som integrerer taleinndata uten behov for å designe separate grensesnitt. Selv med verktøy uten kode er det enklere å eksperimentere med assistenter som kombinerer diktering, talte svar og visuelle elementer i samme arbeidsflyt.

Videre tilstedeværelsen av en stemmemodus tilgjengelig fra nettversjonen og mobilapper senker tilgjengelighetsbarrierer For folk som foretrekker å ikke skrive på tastaturet eller som har synsvansker, å kunne høre svarene uten å gi opp visuell informasjon når de trenger det.

Flyttingen passer inn i en AI-bransje som, både i Spania og resten av kontinentet, opplever et øyeblikk med ekspansjon i bruk og investeringerDe store plattformene, inkludert OpenAI, konkurrerer om å tilby mer komplette og enklere å ta i bruk opplevelser, vel vitende om at små forbedringer i brukervennlighet kan utgjøre hele forskjellen i masseadopsjon.

Med denne endringen tar ChatGPT et nytt skritt mot en En virkelig multimodal interaksjon, der snakking, lesing og visning av innhold skjer på samme stedMuligheten til å velge mellom et integrert grensesnitt eller en separat modus, kombinert med forbedringer i hastighet og naturlighet i stemmene, setter assistenten i en mer komfortabel posisjon for daglig bruk, både av individuelle brukere og organisasjoner som ønsker å introdusere stemme i arbeidsflytene sine uten ytterligere komplikasjoner.

Relatert artikkel:

Google Meet integrerer sanntids taleoversettelse med AI: funksjoner og bruksscenarier

Isaac

Lidenskapelig forfatter om verden av bytes og teknologi generelt. Jeg elsker å dele kunnskapen min gjennom å skrive, og det er det jeg skal gjøre i denne bloggen, vise deg alle de mest interessante tingene om dingser, programvare, maskinvare, teknologiske trender og mer. Målet mitt er å hjelpe deg med å navigere i den digitale verden på en enkel og underholdende måte.