Îstîxbaratê ya sûnî

Guhertina Naveroka Vîdyoyê ya AI-ê ya Berdewam bi Ketina Rêber-Text re

Demê on December 9, 2022

Dema ku civaka VFX-a profesyonel meraq dike - û carinan jî hest dike hinekî tehdît kirin - ji hêla nûbûnên nû ve di berhevkirina wêne û vîdyoyê de, nebûna domdariya demkî di piraniya projeyên guherandina vîdyoyê-based AI-ê de gelek ji van hewldanan vediguhezîne qada 'psîkedelîk', bi dibiriqe û bi lez diguhere tevn û avahî, bandorên nakokî û celebê teknolojiyê-pevçûnek xav ku bi bîr tîne serdema fotokîmyayî bandorên dîtbarî.

Heke hûn dixwazin di vîdyoyek ku nekeve qada kûrahiyên kûr de tiştek pir taybetî biguhezînin (ango, ferzkirina nasnameyek nû li ser dîmenên heyî yên kesek), piraniya çareseriyên heyî di bin sînorên pir giran de dixebitin, di warê rastbûna ku ji bo bandorên dîtbar ên kalîteya hilberînê hewce dike.

Yek îstîsna xebata domdar a komeleyek akademîsyenên ji Enstîtuya Zanistî ya Weizmann e. Di sala 2021-an de, sê lêkolînerên wê, bi hevkariya Adobe, ragihand rêbazek nû ya ji bo veqetandina vîdyoyê û danîna nexşeyek navxweyî ya domdar - a atlasa neuralî ya qatkirî - nav hilberek pêkhatî de, bi kanalên alpha û bi hilberek hevgirtî ya demkî re tije.

Ji kaxeza 2021-an: Texmînek rêwîtiya bêkêmasî ya rê di klîpa çavkaniyê de bi torgilokek neuralî ve bi rengekî ku bi kevneşopî pêdivî bi rotoskopî û tevger-livîna berfireh hewce dike tê guherandin. Ji ber ku hêmanên paşîn û pêşîn ji hêla torên cûda ve têne rêve kirin, mask bi rastî 'otomatîk' in. Çavkanî: https://layered-neural-atlases.github.io/

Her çend ew li cîhekî dikeve nav qada ku pê ve girêdayî ye herikîna optîk di lûleyên VFX de, atlasa qatkirî di karûbarên kevneşopî yên CGI de hevwateya rasterast tune, ji ber ku ew di bingeh de 'nexşeya tevna demkî' pêk tîne ku dikare bi rêbazên nermalava kevneşopî were hilberandin û sererast kirin. Di wêneya duyemîn a di nîgara li jor de, paşxaneya rûyê rê (bi rengdêrî) li seranserê dema xebitandina vîdyoyê tê xuyang kirin. Guhertina wê wêneya bingehîn (wêneya sêyemîn ji çepê di nîgara li jor de) di paşerojê de guherînek domdar çêdike.

Wêneyên atlasê yên 'pêvekirî' yên li jor tenê çarçoveyên şîrovekirî yên takekesî temsîl dikin; Guhertinên domdar di her çarçoweya vîdyoya armancê de vedigerin çarçoweya orîjînal, her girtina pêdivî û bandorên dîmenê yên pêwîst ên din, wek sîwan an refleks, diparêzin.

Mîmariya bingehîn Perceptronek Pirrengî (MLP) bikar tîne da ku atlasên nevekirî, kanalên alfa û nexşeyan temsîl bike, ku hemî di konserê de, û bi tevahî di cîhek 2D de hatine xweşbîn kirin, zanîna pêşîn a şêwaza NeRF ya xalên geometrî 3D, nexşeyên kûrahiyê ji holê radike. û pêlên mîna CGI-style.

Atlasa referansê ya tiştên kesane jî dikare bi pêbawer were guheztin:

Di çarçoveya 2021-an de guherînek domdar a tiştek tevgerî. Çavkanî: https://www.youtube.com/watch?v=aQhakPFC4oQ

Di bingeh de pergala 2021-ê lihevhatina geometrî, guheztina hevberdanê, nexşekirin, ji nû ve-texturîzekirin û rotoskopîkirinê di pêvajoyek neuralî ya veqetandî de pêk tîne.

Text2Live

Sê lêkolînerên orîjînal ên kaxeza 2021-an, digel lêkolîna NVIDIA-yê, di nav hevkarên nûbûnek nû de ne li ser teknîka ku hêza atlasên qat bi cûrbecûr teknolojiya CLIP-ê ya ku bi nivîsê ve hatî rêve kirin ku vê heftê dîsa derketiye pêş. OpenAI's berdan ya çarçoveya DALL-E 2.

Mîmariya nû, bi navê Text2Live, destûrê dide bikarhênerek dawî ku li ser bingeha daxwazên nivîsê li ser naveroka vîdyoyê ya rastîn guherandinên herêmî biafirîne:

Du mînakên sererastkirina pêşîn. Ji bo çareserî û pênase çêtir, vîdyoyên orîjînal li ser https://text2live.github.io/sm/pages/video_results_atlases.html binihêrin

Du mînakên sererastkirina pêşîn. Ji bo çareserî û pênase çêtir, li vîdyoyên orîjînal binihêrin https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live bêyî karanîna jeneratorek pêş-perwerdekirî, bi karanîna databasek hundurîn a ku taybetî ji bo klîba vîdyoyê tê bandor kirin, sererastkirina semantîk û pir herêmî pêşkêşî dike.

Veguherandinên paşxane û pêş (objekt) di bin Text2Live de. Çavkanî: https://text2live.github.io/sm/pages/video_results_atlases.html

Teknîkî hewce nake ku maskên ku ji hêla bikarhêner ve hatî peyda kirin, wek rotoscopingek tîpîk an tevgera xebata dîmendera kesk, lê bêtir texmîn dike. nexşeyên têkildariyê bi rêya teknîka bootstrapping li ser bingeha 2021 lêkolîn ji Dibistana Zanistiya Komputerê li Zanîngeha Tel Aviv û Lêkolîna AI ya Facebook (FAIR).

Nexşeyên derketinê bi navgîniya modelek baldariya gelemperî ya bingehîn-transformer têne hilberandin.

The nû kaxez sernavkirî ye Text2LIVE: Veguherandina Wêne û Vîdyoyê ya Qat-Dervekirî ya Nivîsar. Tîma orîjînal a 2021-an bi Weizmann's Omer Bar-Tal, û Yoni Kasten ya Lêkolîna NVIDIA ve tê.

avakarî

Text2Live jeneratorek ku li ser wêneyek têketinê ya yekane hatî perwerde kirin û pêşnumayên nivîsê armanc pêk tîne. Modela Pêşperwerdekirina Ziman-Wêne ya Berevajî (CLIP) ku li ser 400 mîlyon cotên nivîs/wêne pêş-perwerdekirî ye, materyalek dîtbarî ya têkildar peyda dike ku veguherînên têketina bikarhêner jê dikare were şîrove kirin.

Hilberîner wêneyek têketinê (çarçove) qebûl dike û qatek RGBA-ya armancê ku agahdariya reng û zelaliyê vedihewîne derdixe. Dûv re ev qat bi zêdekirinên din ve di dîmenên orjînal de tê berhev kirin.

Kanala alfa ya di qata RGBA-ya hatî hilberandin de fonksiyonek pêkhatî ya hundurîn bêyî vegerandina lûleyên kevneşopî yên ku nermalava pixel-based wekî After Effects vedihewîne peyda dike.

Bi perwerdehiya li ser wêneyên hundurîn ên têkildarî vîdyoya an wêneyê armanc, Text2Live ji hewcedariyê jî dûr dikeve zivirandin wêneya têketina nav cîhê veşartî ya Tora Dijbera Generative (GAN), pratîkek ku niha tê dûr ji têra xwe rast ji bo hewcedariyên guherandina vîdyoya hilberînê, an wekî din modelek Diffusion bikar bînin ku rasttir û mîhengbar e, lê nikare dilsoziyê biparêze ji bo vîdyoya armancê.

Ji Text2Live guherandinên li ser bingehê bilez têne guhertin.

Nêzîkatiyên berê an bikar anîne rêbazên-based belavkirinê or herikîna optîk-based nêzîk dibe. Ji ber ku van teknîkan heya radeyekê an deverek din li ser çarçoweyê ne, ne jî nekarin dîmenek demkî ya domdar a guhertinên di vîdyoya derketinê de biafirînin. Di şûna wê de, atlasek neuralî ya neuralî cîhek yekane peyda dike ku tê de guheztinan çareser bike, ku dûv re dema ku vîdyoyê pêşve diçe dikare ji guheztina pêbawer re dilsoz bimîne.

Xalucînasyonên 'şeqtengî' an rasthatî tune: Text2Live şiroveya nivîsê ya bilez a 'jeep rusty' werdigire, û wê carekê li ser atlasa neuralî ya gerîdeyê ya di vîdyoyê de bicîh dike, li şûna ku veguherîna her çarçoveyek şîrovekirî ji nû ve bide destpêkirin.

Xalucînasyonên 'şeqtengî' an rasthatî tune: Text2Live şîroveyek ji nivîsara bilez a 'jeep gemarî' werdigire, û wê carek li ser atlasa neuralî ya gerîdeyê ya di vîdyoyê de bicîh dike, li şûna ku veguherîna her çarçoweya şîrovekirî ji nû ve bide destpêkirin.

Xebata veguheztina domdar a Text2Live ya Jeepek bermayîyek zirav.

Text2Live di berhevkirina bingeha AI-ê de bêtir nêzikî pêşkeftinek e, ne li cîhê dewlemend-nivîs-bi-wêne ya ku vê hefteyê bi serbestberdana wêneyê pir bal kişandiye ser xwe. nifşa duyemîn di çarçoveya DALL-E ya OpenAI-yê de (ku dikare wêneyên hedef wekî beşek ji pêvajoya veguherînê bi nav bike, lê di şiyana xwe ya ku rasterast destwerdana wêneyek de, ji bilî sansûrkirina daneyên perwerdehiya çavkaniyê û danîna parzûnan, ji bo pêşîlêgirtina destdirêjiya bikarhêner hatî çêkirin).

Di şûna wê de, Text2Live destûrê dide bikarhênerê dawî ku atlasek derxe û dûv re wê di yek derbasbûnê de li hawîrdorên pixel-based-kontrol-bilind ên wekî Photoshop-ê biguherîne (û bê guman hê bêtir çarçoveyên hevsengkirina wêneyê abstrakt, mîna NeRF), berî ku ew vegere nav hawîrdorek rast-rast-rast ku di heman demê de xwe dispêre texmîna 3D an nêzîkatiyên CGI-bingeha paşverû.

Wekî din, Text2Live, nivîskar îddîa dikin, yekem çarçoweya berawirdî ye ku bi rengek bi tevahî otomatîk bi destxistina maske û berhevkirinê ye.

Yekem di 7-ê Avrêl 2022 de hate weşandin.