Samtaler med din computer kan blive mere realistiske

Indholdsfortegnelse:

2024 Forfatter: Abigail Brown | [email protected]. Sidst ændret: 2023-12-17 06:43

Key takeaways

Meta bruger kunstig intelligens til at lave programmer, der kan udtrykke følelser i tale.
Virksomhedens AI-team sagde, at det har gjort fremskridt med at modellere udtryksfulde vokaliseringer, såsom latter, gaben, gråd og "spontan chat-chat" i re altid.
AI bliver også brugt til at styrke forbedringer i talegenkendelse.

Du vil måske snart være i stand til at få en mere naturlig chat med din computer, takket være kraften i kunstig intelligens (AI).

Meta sagde, at det har gjort betydelige fremskridt i sin indsats for at skabe mere realistiske AI-genererede talesystemer. Virksomhedens AI-team sagde, at det har gjort fremskridt i evnen til at modellere udtryksfulde vokaliseringer, såsom latter, gaben og gråd, ud over "spontan chat-chat" i re altid.

"I enhver given samtale udveksler folk spækket med nonverbale signaler, såsom intonationer, følelsesmæssige udtryk, pauser, accenter, rytmer - som alle er vigtige for menneskelige interaktioner," skrev holdet i det seneste blogindlæg.. "Men nutidens kunstig intelligens-systemer formår ikke at fange disse rige, udtryksfulde signaler, fordi de kun lærer af skrevet tekst, som fanger, hvad vi siger, men ikke hvordan vi siger det."

Smartere tale

I blogindlægget sagde Meta AI's team, at de arbejder på at overvinde begrænsningerne ved traditionelle AI-systemer, der ikke kan forstå non-verbale signaler i tale, såsom intonationer, følelsesmæssige udtryk, pauser, accenter og rytmer. Systemerne holdes tilbage, fordi de kun kan lære af skrevet tekst.

Men Metas arbejde adskiller sig fra tidligere bestræbelser, fordi dets AI-modeller kan bruge naturlige sprogbehandlingsmodeller til at fange det t alte sprogs fulde natur. Metaforskere siger, at de nye modeller kan give kunstig intelligens-systemer mulighed for at formidle den følelse, de ønsker at formidle - såsom kedsomhed eller ironi.

"I den nærmeste fremtid vil vi fokusere på at anvende tekstløse teknikker til at bygge nyttige downstream-applikationer uden at kræve hverken ressourcekrævende tekstetiketter eller automatiske talegenkendelsessystemer (ASR), såsom besvarelse af spørgsmål (f.eks. "Hvordan er vejret?"), skrev holdet i blogindlægget. "Vi mener, at prosodi i tale kan hjælpe med at analysere en sætning bedre, hvilket igen letter forståelsen af hensigten og forbedrer ydeevnen af besvarelse af spørgsmål."

AI Powers Comprehension

Ikke kun bliver computere bedre til at kommunikere mening, men AI bliver også brugt til at styrke forbedringer i talegenkendelse.

Computerforskere har arbejdet på computertalegenkendelse siden mindst 1952, hvor tre Bell Labs-forskere skabte et system, der kunne genkende enkelte numeriske cifre, sagde den tekniske chef for AI Dynamics, Ryan Monsurate, i en e-mail til Lifewire. I 1990'erne var talegenkendelsessystemer kommercielt tilgængelige, men de havde stadig en fejlrate, der var høj nok til at fraråde brug uden for meget specifikke applikationsdomæner såsom sundhedspleje.

"Nu hvor deep learning-modeller har gjort det muligt for ensemblemodeller (som dem fra Microsoft) at opnå overmenneskelig ydeevne ved talegenkendelse, har vi teknologien til at muliggøre taleruafhængig verbal kommunikation med computere i stor skala," sagde Monsurate. "Den næste fase vil omfatte en sænkning af omkostningerne, så alle, der bruger Siri eller Googles AI-assistenter, vil have adgang til dette niveau af talegenkendelse."

AI er nyttig til talegenkendelse, fordi den kan forbedres over tid gennem læring, fort alte Ariel Utnik, chief revenue officer og general manager hos AI-stemmefirmaet Verbit.ai, til Lifewire i et e-mailinterview. For eksempel hævder Verbit, at dens interne AI-teknologi registrerer og filtrerer baggrundsstøj og ekkoer og transskriberer højttalere uanset accent for at generere detaljerede, professionelle transskriptioner og billedtekster fra live og optaget video og lyd.

Men Utnik sagde, at de fleste nuværende talegenkendelsesplatforme kun er 75-80 % nøjagtige.

"AI vil aldrig fuldt ud erstatte mennesker, da den personlige anmeldelse fra transskribentere, korrekturlæsere og redaktører er nødvendig for at sikre en endelig transskription af høj kvalitet og toppræcision," tilføjede han.

Bedre stemmegenkendelse kunne også bruges til at forhindre hackere, sagde Sanjay Gupta, vicepræsident global leder for produkt- og virksomhedsudvikling hos stemmegenkendelsesfirmaet Mitek Systems, i en e-mail. Forskning viser, at inden for to år vil 20 procent af alle vellykkede kontoovertagelsesangreb bruge syntetisk stemmeforstærkning, tilføjede han.

"Det betyder, at efterhånden som dyb falsk teknologi bliver mere sofistikeret, skal vi samtidig skabe avanceret sikkerhed, der kan bekæmpe disse taktikker sammen med dybe forfalskninger af billeder og videoer," sagde Gupta. "Bekæmpelse af stemmespoofing kræver teknologi til liveness-detektion, der er i stand til at skelne mellem en levende stemme og en optaget, syntetisk eller computergenereret version af en stemme."

Rettelse 2022-05-04: Rettede stavningen af Ryan Monsurates navn i afsnit 9.