Snart ved du måske ikke, at du taler med en computer

Indholdsfortegnelse:

2024 Forfatter: Abigail Brown | [email protected]. Sidst ændret: 2023-12-17 06:43

Key takeaways

Den dag nærmer sig hurtigt, hvor du ikke vil være i stand til at skelne computergenereret tale fra den ægte vare.
Google afslørede for nylig LaMDA, en model, der kunne give mulighed for mere naturlige samtaler.
At producere menneskelignende tale kræver også enorme mængder processorkraft.

Lige nu er det nemt at se, hvornår du taler til en computer, men det kan snart ændre sig takket være de seneste fremskridt inden for kunstig intelligens.

Google afslørede for nylig LaMDA, en eksperimentel model, som virksomheden hævder kunne booste evnen hos dets samtale-AI-assistenter og give mulighed for mere naturlige samtaler. LaMDA sigter mod til sidst at tale norm alt om næsten alt uden nogen form for forudgående træning.

Det er et af et voksende antal AI-projekter, der kan få dig til at spekulere på, om du taler med et menneske.

"Mit skøn er, at brugerne inden for de næste 12 måneder vil begynde at blive eksponeret for og vænne sig til disse nye, mere følelsesladede stemmer," James Kaplan, administrerende direktør for MeetKai, en virtuel AI-stemmeassistent og søgning. motor, sagde i et e-mailinterview.

"Når dette sker, vil dagens syntetiserede tale lyde for brugerne, som talen fra begyndelsen af 2000'erne lyder for os i dag."

Stemmeassistenter med karakter

Googles LaMDA er bygget på Transformer, en neural netværksarkitektur opfundet af Google Research. I modsætning til andre sprogmodeller blev Googles LaMDA trænet i ægte dialog.

En del af udfordringen med at lave naturligt klingende AI-tale er samtalernes åbne natur, skrev Googles Eli Collins i et blogindlæg.

"En chat med en ven om et tv-program kunne udvikle sig til en diskussion om det land, hvor showet blev optaget, før man sluttede sig til en debat om landets bedste regionale køkken," tilføjede han.

Tingene går hurtigt med robottale. Eric Rosenblum, en administrerende partner hos Tsingyuan Ventures, som investerer i konversations-AI, sagde, at nogle af de mest fundamentale problemer inden for computerstøttet tale er praktisk t alt løst.

For eksempel er nøjagtigheden af taleforståelse allerede ekstrem høj i tjenester såsom transskriptioner udført af softwaren Otter.ai eller medicinske noter taget af DeepScribe.

"Den næste grænse er dog meget vanskeligere," tilføjede han.

"Bevarelse af forståelse af kontekst, som er et problem, der rækker langt ud over naturlig sprogbehandling, og empati, såsom computere, der interagerer med mennesker, har brug for at forstå frustration, vrede, utålmodighed osv. Der arbejdes på begge disse spørgsmål, men begge er ret langt fra tilfredsstillende."

Neurale netværk er nøglen

For at generere naturtro stemmer bruger virksomheder teknologi som dybe neurale netværk, en form for maskinlæring, der klassificerer data gennem lag, Matt Muldoon, nordamerikansk præsident hos ReadSpeaker, en virksomhed, der udvikler tekst-til-tale-software, sagde i et e-mailinterview.

"Disse lag forfiner signalet og sorterer det i mere komplekse klassifikationer," tilføjede han. "Resultatet er syntetisk tale, der lyder uhyggeligt som et menneske."

En anden teknologi under udvikling er Prosody Transfer, som involverer at kombinere lyden af en tekst-til-tale stemme med en andens talestil, sagde Muldoon. Der er også transfer learning, som reducerer mængden af træningsdata, der er nødvendig for at producere en ny neural tekst-til-tale-stemme.

Kaplan sagde, at det at producere menneskelignende tale også kræver enorme mængder processorkraft. Virksomheder udvikler neurale acceleratorchips, som er brugerdefinerede moduler, der fungerer sammen med almindelige processorer.

"Den næste fase i dette vil være at sætte disse chips i mindre hardware, da det i øjeblikket allerede er gjort for kameraer, når AI til syn er påkrævet," tilføjede han. "Det vil ikke vare længe, før denne type computerfunktion er tilgængelig i selve hovedtelefonerne."

En udfordring ved at udvikle AI-drevet tale er, at alle taler forskelligt, så computere har en tendens til at have svært ved at forstå os.

"Tænk Georgia vs. Boston vs. North Dakota accenter, og om engelsk er dit primære sprog eller ej," sagde Monica Dema, der arbejder med stemmesøgningsanalyse hos MDinc, i en e-mail. "Når man tænker glob alt, er det dyrt at gøre dette for alle regionerne i Tyskland, Kina og Indien, men det betyder ikke, at det ikke er eller kan gøres."