AI kan nu forstå dine videoer ved at se dem

Indholdsfortegnelse:

AI kan nu forstå dine videoer ved at se dem
AI kan nu forstå dine videoer ved at se dem
Anonim

Key takeaways

  • Forskere siger, at de kan lære kunstig intelligens at mærke videoer ved at se og lytte.
  • AI-systemet lærer at repræsentere data for at fange koncepter, der deles mellem visuelle og lyddata.
  • Det er en del af et forsøg på at lære kunstig intelligens at forstå begreber, som mennesker ikke har problemer med at lære, men som computere har svært ved at forstå.

Image
Image

Et nyt kunstig intelligenssystem (AI) kunne se og lytte til dine videoer og mærke ting, der sker.

MIT-forskere har udviklet en teknik, der lærer kunstig intelligens at fange handlinger, der deles mellem video og lyd. For eksempel kan deres metode forstå, at handlingen med en baby, der græder i en video, er relateret til det t alte ord "græder" i et lydklip. Det er en del af et forsøg på at lære kunstig intelligens at forstå begreber, som mennesker ikke har problemer med at lære, men som computere har svært ved at forstå.

"Det fremherskende læringsparadigme, overvåget læring, fungerer godt, når du har datasæt, der er godt beskrevet og komplet," fort alte AI-ekspert Phil Winder til Lifewire i et e-mailinterview. "Desværre er datasæt sjældent komplette, fordi den virkelige verden har en dårlig vane med at præsentere nye situationer."

Smarter AI

Computere har svært ved at finde ud af hverdagsscenarier, fordi de har brug for at knuse data i stedet for lyd og billeder som mennesker. Når en maskine "ser" et foto, skal den kode det foto til data, som den kan bruge til at udføre en opgave som en billedklassificering. AI kan hænge fast, når input kommer i flere formater, såsom videoer, lydklip og billeder.

"Den største udfordring her er, hvordan kan en maskine tilpasse disse forskellige modaliteter? Som mennesker er det nemt for os," sagde Alexander Liu, en MIT-forsker og førsteforfatter til et papir om emnet, i en nyhedsmeddelelse. "Vi ser en bil og hører derefter lyden af en bil, der kører forbi, og vi ved, at det er det samme. Men for maskinlæring er det ikke så ligetil."

Lius team udviklede en kunstig intelligens-teknik, som de siger lærer at repræsentere data for at fange koncepter, der deles mellem visuelle og lyddata. Ved at bruge denne viden kan deres maskinlæringsmodel identificere, hvor en specifik handling finder sted i en video og mærke den.

Den nye model tager rådata, såsom videoer og deres tilhørende teksttekster, og koder dem ved at udtrække funktioner eller observationer om objekter og handlinger i videoen. Det kortlægger derefter disse datapunkter i et gitter, kendt som et indlejringsrum. Modellen grupperer lignende data sammen som enkelte punkter i gitteret; hvert af disse datapunkter eller vektorer er repræsenteret af et individuelt ord.

For eksempel kan et videoklip af en person, der jonglerer, tilknyttes en vektor mærket "jonglering."

Forskerne designede modellen, så den kun kan bruge 1.000 ord til at mærke vektorer. Modellen kan bestemme, hvilke handlinger eller koncepter den vil indkode i en enkelt vektor, men den kan kun bruge 1.000 vektorer. Modellen vælger de ord, den mener bedst repræsenterer dataene.

"Hvis der er en video om grise, kan modellen tildele ordet "gris" til en af de 1.000 vektorer. Så, hvis modellen hører nogen sige ordet "gris" i et lydklip, den skal stadig bruge den samme vektor til at kode det," forklarede Liu.

Dine videoer, afkodet

Bedre mærkningssystemer som det, der er udviklet af MIT, kan hjælpe med at reducere bias i AI, fort alte Marian Beszedes, leder af forskning og udvikling hos biometrifirmaet Innovatrics, til Lifewire i et e-mailinterview. Beszedes foreslog, at dataindustrien kan se AI-systemer fra et produktionsprocesperspektiv.

"Systemerne accepterer rådata som input (råmaterialer), forbehandler dem, indtager dem, træffer beslutninger eller forudsigelser og outputanalyser (færdige varer)," sagde Beszedes. "Vi kalder dette procesflow "datafabrikken", og ligesom andre fremstillingsprocesser bør det være underlagt kvalitetskontrol. Dataindustrien er nødt til at behandle AI-bias som et kvalitetsproblem.

"Fra et forbrugerperspektiv gør fejlmærkede data f.eks. onlinesøgning efter specifikke billeder/videoer vanskeligere," tilføjede Beszedes. "Med korrekt udviklet AI kan du lave mærkning automatisk, meget hurtigere og mere neutral end med manuel mærkning."

Image
Image

Men MIT-modellen har stadig nogle begrænsninger. For det første fokuserede deres forskning på data fra to kilder ad gangen, men i den virkelige verden møder mennesker mange typer information samtidigt, sagde Liu

"Og vi ved, at 1.000 ord fungerer på denne type datasæt, men vi ved ikke, om det kan generaliseres til et problem i den virkelige verden," tilføjede Liu.

MIT-forskerne siger, at deres nye teknik overgår mange lignende modeller. Hvis kunstig intelligens kan trænes til at forstå videoer, kan du i sidste ende springe over at se din vens ferievideoer og få en computergenereret rapport i stedet.

Anbefalede: