Hvordan AI kunne gøre computertale mere naturlig

Indholdsfortegnelse:

2024 Forfatter: Abigail Brown | [email protected]. Sidst ændret: 2023-12-17 06:43

Key takeaways

Virksomheder ræser om at finde måder at få computergenereret tale til at lyde mere realistisk.
NVIDIA afslørede for nylig værktøjer, der kan fange lyden af naturlig tale ved at lade dig træne en AI med din egen stemme.
Intonation, følelser og musikalitet er de funktioner, som computerstemmer stadig mangler, siger en ekspert.

Computergenereret tale kan snart lyde meget mere menneskelig.

Produceren af computerdele NVIDIA afslørede for nylig værktøjer, der kan fange lyden af naturlig tale ved at lade dig træne en AI med din stemme. Softwaren kan også levere en højttalers ord ved hjælp af en anden persons stemme. Det er en del af et spirende fremstød for at gøre computertale mere realistisk.

"Avanceret stemme-AI-teknologi giver brugerne mulighed for at tale naturligt, kombinerer mange forespørgsler i en enkelt sætning og eliminerer behovet for konstant at gentage detaljer fra den oprindelige forespørgsel," Michael Zagorsek, den administrerende direktør for talegenkendelsesfirmaet SoundHound, fort alte Lifewire i et e-mailinterview.

"Tilføjelsen af flere sprog, som nu er tilgængelig på de fleste stemme-AI-platforme, gør digitale stemmeassistenter tilgængelige i flere geografier og for flere befolkningsgrupper," tilføjede han.

Robospeech Rising

Amazons Alexa og Apples Siri lyder meget bedre end computertale fra selv for et årti siden, men de vil ikke snart blive forvekslet med autentiske menneskestemmer.

For at få kunstig tale til at lyde mere naturligt udviklede NVIDIAs tekst-til-tale forskerhold en RAD-TTS-model. Systemet giver enkeltpersoner mulighed for at undervise i en tekst-til-tale-model (TTS) med deres stemme, inklusive tempo, tonalitet, klang og andre faktorer.

Virksomheden brugte sin nye model til at bygge mere samtale-lydende stemmefortælling til sin I Am AI-videoserie.

"Med denne grænseflade kunne vores videoproducent optage sig selv, mens han læste videoscriptet og derefter bruge AI-modellen til at konvertere sin tale til den kvindelige fortællerstemme. Ved at bruge denne basisfortælling kunne producenten derefter dirigere AI'en som en stemmeskuespiller-tweaking den syntetiserede tale for at understrege specifikke ord og ændre tempoet i fortællingen for bedre at udtrykke videoens tone," skrev NVIDIA på sin hjemmeside.

Hårdere end det lyder

At få computergenereret tale til at lyde naturligt er et vanskeligt problem, siger eksperter.

"Du er nødt til at optage hundredvis af timer af en persons stemme for at skabe en computerversion af den," fort alte Nazim Ragimov, CEO for tekst-til-tale-softwarefirmaet Kukarella, til Lifewire i et e-mailinterview.”Og optagelsen skal være af høj kvalitet, optaget i et professionelt studie. Jo flere timers tale af høj kvalitet, der indlæses og behandles, jo bedre bliver resultatet."

Tekst-til-tale kan bruges i spil, til at hjælpe personer med stemmehandicap eller til at hjælpe brugere med at oversætte mellem sprog med deres egen stemme.

Intonation, følelser og musikalitet er de funktioner, som computerstemmer stadig mangler, sagde Ragimov.

Hvis AI kan tilføje disse manglende links, vil computergenereret tale være "ikke skelnes fra stemmerne fra rigtige skuespillere," tilføjede han. "Det er et igangværende arbejde. Andre stemmer vil være i stand til at konkurrere med radioværter. Snart vil du se stemmer, der kan synge og læse lydbøger."

Taleteknologi bliver mere populær i en lang række virksomheder.

"Bilindustrien har for nylig taget i brug stemme-AI som en måde at skabe sikrere og mere forbundet køreoplevelser på," sagde Zagorsek.

"Siden da er stemmeassistenter blevet mere og mere allestedsnærværende, da brands søger måder at forbedre kundeoplevelser på og imødekomme efterspørgslen efter nemmere, sikrere, mere bekvemme, effektive og hygiejniske metoder til at interagere med deres produkter og tjenester."

Stemme-AI konverterer typisk forespørgsler til svar i en to-trins-proces, der begynder med at transskribere tale til tekst ved hjælp af automatisk talegenkendelse (ASR) og derefter føre denne tekst ind i en naturlig sprogforståelsesmodel (NLU).

SoundHounds tilgang kombinerer disse to trin i én proces for at spore tale i re altid. Virksomheden hævder, at denne teknik gør det muligt for stemmeassistenter at forstå betydningen af brugerforespørgsler, selv før personen er færdig med at tale.

Fremtidige fremskridt inden for computertale, herunder tilgængeligheden af en række tilslutningsmuligheder fra kun indlejret (ingen cloudforbindelse påkrævet) til hybrid (indlejret plus sky) og kun skyen "vil give flere valgmuligheder til virksomheder på tværs af brancher med hensyn til omkostninger, privatliv og tilgængelighed af processorkraft," sagde Zagoresk.

NVIDIA sagde, at deres nyheds-AI-modeller går ud over voiceover-arbejde.

"Tekst-til-tale kan bruges i spil, til at hjælpe personer med stemmehandicap eller til at hjælpe brugere med at oversætte mellem sprog med deres egen stemme," skrev virksomheden. "Den kan endda genskabe ikoniske sangeres præstationer, der matcher ikke kun melodien i en sang, men også det følelsesmæssige udtryk bag vokalen."