ciot Cercetătorii AI creează un program pentru a genera efecte sonore pentru filme și alte medii - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Cercetătorii AI proiectează un program pentru a genera efecte sonore pentru filme și alte medii

mm
Actualizat on

Cercetătorii de la Universitatea din Texas San Antonio au creat o aplicație bazată pe inteligență artificială, capabilă să observe acțiunile care au loc într-un videoclip și să creeze efecte de sunet artificiale care să se potrivească acelor acțiuni. Se pare că efectele sonore generate de program sunt atât de realiste încât, atunci când observatorii umani au fost chestionați, de obicei au crezut că efectele sonore sunt legitime.

Programul responsabil cu generarea efectelor sonore, AudioFoley, a fost detaliat într-un studiu publicat recent în IEEE Transactions on Multimedia. Potrivit IEEE Spectrum, programul AI a fost dezvoltat de Jeff Provost, profesor la UT San Antonio și Ph.D. elevul Sanchita Ghose. Cercetătorii au creat programul utilizând mai multe modele de învățare automată combinate.

Prima sarcină în generarea de efecte sonore adecvate acțiunilor de pe un ecran a fost recunoașterea acelor acțiuni și maparea lor la efectele sonore. Pentru a realiza acest lucru, cercetătorii au proiectat două modele diferite de învățare automată și au testat abordările lor diferite. Primul model funcționează prin extragerea cadrelor din videoclipurile cu care este alimentat și analizând aceste cadre pentru caracteristici relevante precum mișcări și culori. Ulterior, un al doilea model a fost folosit pentru a analiza modul în care poziția unui obiect se schimbă în cadrul cadrelor, pentru a extrage informații temporale. Aceste informații temporale sunt folosite pentru a anticipa următoarele acțiuni probabile din videoclip. Cele două modele au metode diferite de analiză a acțiunilor din clip, dar ambele folosesc informațiile conținute în clip pentru a ghici ce sunet l-ar însoți cel mai bine.

Următoarea sarcină este de a sintetiza sunetul, iar acest lucru este realizat prin potrivirea activităților/mișcărilor prezise cu posibile mostre de sunet. Potrivit lui Ghose și Prevost, AutoFoley a fost folosit pentru a genera sunet pentru 1000 de clipuri scurte, prezentând acțiuni și obiecte precum un foc, un cal care alergă, ceasuri care țineau și ploaia care cade pe plante. În timp ce AutoFoley a avut cel mai mare succes în a crea sunet pentru clipuri în care nu trebuia să existe o potrivire perfectă între acțiuni și sunete și a avut probleme cu potrivirea clipurilor în care acțiunile au avut loc cu mai multe variații, programul a fost încă capabil să păcălească mulți observatori umani. pentru a alege sunetele sale generate peste sunetul care a însoțit inițial un clip.

Prevost și Ghose au recrutat 57 de studenți și i-au pus să vizioneze diferite clipuri. Unele clipuri au conținut audio original, altele au conținut audio generat de AutoFoley. Când a fost testat primul model, aproximativ 73% dintre elevi au selectat sunetul sintetizat ca audio original, neglijând sunetul adevărat care a însoțit clipul. Celălalt model a avut rezultate puțin mai proaste, doar 66% dintre participanți selectând sunetul generat față de sunetul original.

Prevost a explicat că AutoFoley ar putea fi utilizat pentru a accelera procesul de producere a filmelor, televiziunii și a altor piese media. Prevost observă că o pistă Foley realistă este importantă pentru a face media atractivă și credibilă, dar că procesul Foley durează adesea o perioadă semnificativă de timp pentru a se finaliza. Având un sistem automatizat care ar putea gestiona crearea elementelor de bază Foley ar putea face producția de media mai ieftină și mai rapidă.

În prezent, AutoFoley are câteva limitări notabile. În primul rând, în timp ce modelul pare să funcționeze bine în timp ce observă evenimente care au mișcări stabile și previzibile, acesta are de suferit atunci când încearcă să genereze audio pentru evenimente cu variații în timp (cum ar fi furtunile). Dincolo de aceasta, mai cere ca subiectul de clasificare să fie prezent în întregul clip și să nu părăsească cadrul. Echipa de cercetare își propune să abordeze aceste probleme cu versiunile viitoare ale aplicației.