Er disse superimponerende AI-lydbogstemmer gode eller dårlige?

Indholdsfortegnelse:

Er disse superimponerende AI-lydbogstemmer gode eller dårlige?
Er disse superimponerende AI-lydbogstemmer gode eller dårlige?
Anonim

Key takeaways

  • DeepZen bruger AI (kunstig intelligens) til at skabe overraskende realistiske lydbøger ud fra tekst.
  • Teknikken bruger rigtige menneskelige stemmeskuespillere til at levere byggestenene.
  • Amazon og Audible accepterer i øjeblikket ikke computergenererede lydbøger.
Image
Image

DeepZen er en virksomhed, der skaber computerstemmer, der bruges i lydbøger, baseret på de virkelige stemmer fra menneskelige skuespillere. Kvaliteten er skræmmende-let god nok til at lytte til i timevis af gangen. Gimmicken her er AI-komponenten (kunstig intelligens), som kan læse teksten og udlede den korrekte følelsesmæssige reaktion baseret på kontekst. Det sætter så den følelse i stemmen.

Det er imponerende og meget praktisk. Men ønsker vi virkelig en homogeniseret lydbogsoplevelse? Og hvad med de stemmeskuespillere?

"Fra indie-udgiverens perspektiv er alt, hvad der reducerer omkostningerne ved produktion af lydbøger, meget interessant," fort alte Rick Carlile, ejer af det uafhængige udgiver Carlile Media, til Lifewire via e-mail.

"Men den attraktion forudsætter, at produktet ville være af samme kvalitet som traditionel fortælling. Jeg tror ikke, vi er hundrede procent der endnu. Misforstå mig ikke, DeepZen er forbløffende godt. Det er en et enormt gennembrud, og dets skabere fortjener enorm ros og succes. Men det er endnu ikke perfekt."

Lyd der er 'god nok'

Den bedste måde at forstå kvaliteten af DeepZen på er at lytte til samples. Hvis du ikke vidste, at de var computer-genererede, ville du måske ikke engang indse det. Ikke i et stykke tid i hvert fald. Lad os antage, at DeepZens AI er perfekt, og at den aldrig fejlfortolker de følelsesmæssige toner, den formodes at slå.

Image
Image

Selv da kan et menneske tilbyde mere nuancerede og ofte mere overraskende fortolkninger. En skuespiller sætter måske et uventet twist på ordene, som en computer aldrig ville overveje. Og i virkeligheden er AI-fortolkningen bestemt endnu ikke så god som en professionel stemmeskuespillers.

"Som en, der arbejder på film og senest i lydfortællingens verden, mens jeg er imponeret over AI'en, ved jeg med sikkerhed, at der er dybe betydningsdybder, som en maskine ikke kan fortolke," professionel stemme skuespiller Paul Cram fort alte Lifewire via e-mail.

"Vil der være en bølge af ukendte forfattere, der bruger det? Det garanterer jeg, fordi det er 'godt nok'."

At være god nok kombineret med bekvemmeligheden og omkostningsbesparelserne kan være tilstrækkeligt til at drive indie-udgivere til tjenesten.

"Lydbøger kan koste op til $500 pr. færdig time med lyd (meget mere for en berømthedsstemme), og det inkluderer ikke tidsomkostningerne for ledelse og admin," siger Carlile. "At være i stand til at halvere disse omkostninger ved blot at uploade et manuskript til en udbyder som DeepZen er ekstremt attraktivt."

Talking Trouble

Det er endnu ikke helt så nemt som at fyre dine stemmeskuespillere og uploade manuskripter til DeepZen. Der er i øjeblikket én barriere for nem lydbogs kunstig intelligens, og den er fra Amazon.

Image
Image

"I øjeblikket accepterer ACX, selvudgiverens vej til Audible og Amazon lydbogsdistribution, ikke lydbøger, som et menneske ikke har optaget," siger Carlile.

Hvorfor? Kvalitet. Her er spørgsmålet med ofte stillede spørgsmål fra hjemmesiden:

"Tekst-til-tale eller andre automatiserede optagelser er ikke tilladt. Lydbare lyttere vælger lydbøger til fremførelsen af materialet såvel som historien. For at opfylde denne forventning skal din lydbog være optaget af et menneske."

Det betyder, at DeepZen-genererede lydbøger i det mindste er ude for nu. Dette er ren spekulation, men DeepZen ser ud til at være et ret godt opkøb for Amazon, der lader det sælge tjenesten og beholde den udelukkende til Audible-bøger. Og selvom det ikke sker, hvis kvaliteten af computergenererede lydbøger er så god som denne, så synes der ingen grund til ikke at gøre en undtagelse fra denne regel.

Ville du være glad for at lytte til lydbøger lavet på denne måde? Når det sker, vil de fleste mennesker ikke engang have mistanke. Nogle foretrækker måske computer-genererede stemmers perfektion, fordi de vil være fri for de vokale tics og vaner, der nogle gange kan distrahere. Teknologien er også velegnet til videospil, tv- og radioreklamer og ethvert andet scenarie, hvor du vil hyre en stemmeskuespiller.

DeepZens teknologi ville også være en fantastisk måde at automatisk oprette nyhedspodcasts fra skrevne artikler, hvilket kunne være praktisk til pendling.

Og hvad med de stemmeskuespillere? Nå, der vil være mindst én mulighed: De kan gå og arbejde for DeepZen.

Anbefalede: