Ceangal leinn

Artificial Intelligence

CameraCtrl: A’ comasachadh smachd camara airson gineadh teacsa-gu-bhideo

mm

Published

 on

Bidh frèaman o chionn ghoirid a’ feuchainn ri teacsa gu bhidio no ginealach T2V a’ cleachdadh mhodalan sgaoilidh luamhan gus seasmhachd a chuir ris a’ phròiseas trèanaidh aca, agus tha am Modail Sgaoileadh Bhidio, aon de na tùsairean anns an teacsa gu frèaman gineadh bhidio, a’ leudachadh ailtireachd sgaoilidh ìomhaigh 2D ann an oidhirp gabhail ris. dàta bhidio, agus trèanadh am modail air bhidio agus ìomhaigh còmhla bhon fhìor thoiseach. A’ togail air an aon rud, agus gus gineadair ìomhaigh cumhachdach ro-thrèanadh a chuir an gnìomh mar Stable Diffusion, bidh obraichean o chionn ghoirid a’ toirt a-steach an ailtireachd 2D aca le bhith ag eadar-fhighe sreathan ùineail eadar na sreathan 2D ro-thrèanadh, agus a’ mionnachadh a’ mhodail ùr air stòran-dàta mòra nach fhacas a-riamh. A dh’ aindeoin an dòigh-obrach a th’ aca, tha dùbhlan mòr mu choinneamh mhodalan eadar-sgaoilidh teacsa gu bhidio leis gu bheil an t-eadar-dhealachadh ann an tuairisgeulan teacsa a-mhàin airson an sampall bhidio a ghineadh gu tric a’ ciallachadh gu bheil smachd nas laige aig a’ mhodal teacsa gu bhidio air a’ ghinealach. Gus dèiligeadh ris a’ chuingealachadh seo, bidh cuid de mhodalan a’ toirt seachad stiùireadh leasaichte fhad ‘s a bhios cuid eile ag obair le comharran mionaideach gus smachd a chumail air an t-sealladh no gluasadan daonna anns na bhideothan synthesized gu mionaideach. Air an làimh eile, tha grunn fhrèamaichean teacsa gu bhidio ann a bhios a’ gabhail ri ìomhaighean mar an comharra smachd don ghineadair bhidio a’ leantainn gu modaladh dàimh ùine neo-mhearachdach, no càileachd bhidio àrd. 

Bhiodh e sàbhailte a ràdh gu bheil àite deatamach aig smachd ann an gnìomhan gineadh ìomhaigh is bhidio leis gu bheil e a’ leigeil le luchd-cleachdaidh an susbaint a tha iad ag iarraidh a chruthachadh. Ach, bidh na frèaman a th’ ann mar-thà gu tric a’ coimhead thairis air smachd mionaideach air suidheachadh camara a tha mar chànan cinematic gus na h-aithrisean nas doimhne a chuir an cèill don mhodail nas fheàrr. Gus dèiligeadh ris na crìochan smachd a th’ ann an-dràsta, san artaigil seo, bruidhnidh sinn mu CameraCtrl, beachd ùr a bhios a’ feuchainn ri smachd a chumail air camara ceart airson modalan teacsa gu bhidio. Às deidh dha paramadair a dhèanamh air slighe a’ chamara gu mionaideach, bidh am modail a’ trèanadh modal camara plug and play air modal teacsa gu bhidio, agus a’ fàgail na pàirtean eile gun suathadh. A bharrachd air an sin, bidh am modal CameraCtrl cuideachd a’ dèanamh sgrùdadh coileanta air buaidh diofar stòran-dàta, agus a’ moladh gum faod bhideothan le coltas coltach ri chèile agus cuairteachadh camara eadar-mheasgte àrdachadh a thoirt air smachd iomlan agus comasan coitcheann a’ mhodail. Tha deuchainnean a chaidh a dhèanamh gus sgrùdadh a dhèanamh air coileanadh modal CameraCtrl air gnìomhan fìor san t-saoghal a’ nochdadh èifeachdas an fhrèam ann a bhith a’ coileanadh smachd camara mionaideach agus freagarrach airson fearann, a’ snaidheadh ​​slighe air adhart airson gineadh bhidio gnàthaichte is fiùghantach bho shuidheachadh camara agus cuir a-steach teacsa. 

Tha an artaigil seo ag amas air frèam CameraCtrl a chòmhdach gu domhainn, agus bidh sinn a’ sgrùdadh an uidheamachd, an dòigh-obrach, ailtireachd an fhrèam còmhla ri a choimeas ri frèaman ùr-nodha. Mar sin leig leinn tòiseachadh. 

CameraCtrl: Smachd camara airson gineadh T2V

Tha leasachadh agus adhartachadh mhodalan sgaoilidh o chionn ghoirid air gineadh bhidio treòraichte le teacsa adhartachadh gu mòr anns na bliadhnachan mu dheireadh, agus air sruthan obrach dealbhadh susbaint ath-nuadhachadh. Tha àite cudromach aig smachd ann an tagraidhean gineadh bhidio practaigeach oir leigidh e le luchd-cleachdaidh na toraidhean a chaidh a chruthachadh a ghnàthachadh a rèir am feumalachdan agus na feumalachdan aca. Le smachd àrd, tha am modail comasach air fìor-eòlas, càileachd, agus comasachd nam bhideothan a chruthaich e àrdachadh, agus ged a bhios cuir a-steach teacsa agus ìomhaigh air a chleachdadh gu cumanta le modalan gus smachd iomlan a neartachadh, gu tric bidh dìth smachd mionaideach aca air gluasad agus susbaint. . Gus dèiligeadh ris a’ chuingealachadh seo, tha cuid de fhrèaman air moladh comharran smachd a luathachadh leithid suidheachadh cnàimhneach, sruthadh optigeach, agus comharran ioma-mhodhail eile gus smachd nas cinntiche a chomasachadh gus gineadh bhidio a stiùireadh. Is e cuingealachadh eile a tha mu choinneamh nam frèaman a th’ ann mar-thà nach eil smachd mionaideach aca air a bhith a’ brosnachadh no ag atharrachadh puingean camara ann an gineadh bhidio leis gu bheil an comas smachd a chumail air a’ chamara deatamach leis gu bheil e chan ann a-mhàin ag àrdachadh fìor-eòlas nam bhideothan a chaidh a chruthachadh, ach le bhith a’ ceadachadh seallaidhean àbhaisteach, tha e cuideachd ag àrdachadh conaltradh luchd-cleachdaidh, feart a tha riatanach ann an leasachadh geama, fìrinn leasaichte, agus fìrinn fhìrinneach. A bharrachd air an sin, tha a bhith a’ riaghladh ghluasadan camara gu sgileil a’ leigeil le luchd-cruthachaidh dàimhean caractar a shoilleireachadh, cuideam a chuir air faireachdainnean, agus fòcas an luchd-èisteachd cuimsichte a stiùireadh, rudeigin air leth cudromach ann an gnìomhachasan film is sanasachd. 

Gus dèiligeadh ris na cuingeadan sin agus faighinn thairis orra, tha frèam CameraCtrl, modal camara plug is cluich a tha furasta ionnsachadh agus mionaideach le comas smachd a chumail air seallaidhean a’ chamara airson gineadh bhidio. Ach, tha e nas fhasa camara gnàthaichte a thoirt a-steach do loidhne-phìoban modal teacsa gu bhidio a tha ann mar-thà, a’ toirt air frèam CameraCtrl dòighean a lorg air mar as urrainn dhut an camara a riochdachadh agus a stealladh gu h-èifeachdach ann an ailtireachd a’ mhodail. Air an aon nota, tha frèam CameraCtrl a’ gabhail ri greimeachadh plucker mar a’ phrìomh chruth de pharamadairean camara, agus faodar an adhbhar airson a bhith a’ roghnachadh greimeachadh plucker a chreidsinn don chomas aca tuairisgeulan geoimeatrach a chòdachadh air fiosrachadh suidheachadh a’ chamara. A bharrachd air an sin, gus dèanamh cinnteach à coitcheann agus iomchaidheachd modal CameraCtrl an dèidh trèanadh, tha am modail a’ toirt a-steach modal smachd camara nach gabh ach ri greimeachadh plucker mar chur-a-steach. Gus dèanamh cinnteach gu bheil am modal smachd camara air a thrèanadh gu h-èifeachdach, bidh am frèam agus an luchd-leasachaidh a’ dèanamh sgrùdadh coileanta gus sgrùdadh a dhèanamh air mar a tha dàta trèanaidh eadar-dhealaichte a’ toirt buaidh air an fhrèam bho dàta synthetigeach gu dàta fìor. Tha na toraidhean deuchainneach a’ nochdadh gu bheil cur an gnìomh dàta le cuairteachadh suidheachadh camara eadar-mheasgte agus coltas coltach ris a’ mhodail bhunaiteach tùsail a’ coileanadh a’ mhalairt as fheàrr eadar smachd agus coitcheann. Tha luchd-leasachaidh frèam CameraCtrl air am modail a chuir an gnìomh a bharrachd air frèam AnimateDiff, mar sin a’ comasachadh smachd mionaideach ann an gineadh bhidio thairis air diofar dhaoine pearsanaichte, a’ nochdadh cho sùbailteachd agus a tha e ann an raon farsaing de cho-theacsan cruthachadh bhidio. 

Bidh frèam AnimateDiff a’ gabhail ris an èifeachdach LoRA dòigh-obrach grinn gus cuideaman a’ mhodail fhaighinn airson diofar sheòrsaichean de dhealbhan. Tha am frèam Direct-a-video a’ moladh inneal-laighe camara a chuir an gnìomh gus smachd a chumail air suidheachadh nan camarathan rè pròiseas gineadh bhidio, ach chan eil e a ’suidheachadh ach air trì paramadairean camara, a’ cuingealachadh comas smachd a ’chamara don mhòr-chuid de sheòrsan bunaiteach. Air an làimh eile, bidh frèaman a’ toirt a-steach MotionCtrl a’ dealbhadh rianadair gluasad a ghabhas ri barrachd air trì paramadairean cuir a-steach agus a tha comasach air bhideothan a dhèanamh le suidheachadh camara nas iom-fhillte. Ach, tha an fheum air pàirtean de na bhideothan a chaidh a chruthachadh a mhion-atharrachadh a’ cur bacadh air comasachd a’ mhodail. A bharrachd air an sin, tha cuid de fhrèaman a’ toirt a-steach comharran smachd structarail a bharrachd leithid mapaichean doimhneachd a-steach don phròiseas gus smachd a mheudachadh airson gineadh ìomhaigh is teacsa. Mar as trice, bidh am modail a’ biathadh nan comharran smachd sin a-steach do chòdadair a bharrachd, agus an uairsin a’ stealladh na comharran a-steach do ghineadair a’ cleachdadh diofar obrachaidhean. 

CameraCtrl: Ailtireachd Modail

Mus urrainn dhuinn sùil a thoirt air an ailtireachd agus paradigm trèanaidh airson a’ chòdadair camara, tha e deatamach gun tuig sinn diofar riochdachaidhean camara. Mar as trice, bidh suidheachadh camara a’ toirt iomradh air paramadairean gnèitheach agus taobh a-muigh, agus is e aon de na roghainnean sìmplidh airson suidheachadh gineadair bhidio a leigeil air suidheachadh a’ chamara a bhith a ’biathadh luachan amh a thaobh paramadairean a’ chamara a-steach don ghineadair. Ach, is dòcha nach leasaich buileachadh dòigh-obrach mar seo smachd camara ceart airson grunn adhbharan. An toiseach, ged a tha am matrix cuairteachaidh air a chuingealachadh le orthogonality, mar as trice tha an vectar eadar-theangachaidh gun chuingealachadh ann am meud, agus a’ leantainn gu mì-chothromachadh sa phròiseas ionnsachaidh a bheir buaidh air cunbhalachd smachd. San dàrna àite, le bhith a’ cleachdadh paramadairean camara amh gu dìreach faodaidh e a dhèanamh duilich don mhodail na luachan sin a cho-cheangal ri piogsail ìomhaigh, a’ leantainn gu smachd nas lugha air mion-fhiosrachadh lèirsinneach. Gus na cuingeadan sin a sheachnadh, bidh frèam CameraCtrl a’ taghadh sgeadachadh plucker mar an riochdachadh airson suidheachadh a’ chamara leis gu bheil riochdachaidhean geoimeatrach de gach piogsail den fhrèam bhidio aig na h-ionadan plucker, agus faodaidh iad tuairisgeul nas mionaidiche a thoirt seachad air fiosrachadh suidheachadh a’ chamara. 

Smachd camara ann an gineadairean bhidio

Mar a bhios am modail a’ dèanamh paramadair air slighe a’ chamara ann an sreath in-ghabhail plucker ie mapaichean spàsail, tha roghainn aig a’ mhodail modal encoder a chleachdadh gus feartan a’ chamara a thoirt a-mach, agus an uairsin feartan a’ chamara a thoirt a-steach do ghineadairean bhidio. Coltach ri teacsa gu ìomhaigh adapter, tha am modal CameraCtrl a’ toirt a-steach encoder camara a chaidh a dhealbhadh gu sònraichte airson bhideothan. Tha an encoder camara a’ toirt a-steach modal aire ùineail às deidh gach bloc connspaideach, a’ leigeil leis na dàimhean ùineail a th’ aig suidheachadh camara a ghlacadh air feadh a’ chriomag bhidio. Mar a chithear san ìomhaigh a leanas, chan eil an encoder camara a’ gabhail ach ri cuir a-steach greimeachadh plucker, agus a’ lìbhrigeadh feartan ioma-sgèile. Às deidh dha na feartan camara ioma-sgèile fhaighinn, tha am modal CameraCtrl ag amas air na feartan sin fhilleadh a-steach do ailtireachd U-net den mhodal teacsa gu bhidio gu sgiobalta, agus a’ dearbhadh na sreathan a bu chòir a chleachdadh gus am fiosrachadh camara a thoirt a-steach gu h-èifeachdach. A bharrachd air an sin, leis gu bheil mòr-chuid de na frèaman a th ’ann mar-thà a’ gabhail ri ailtireachd coltach ri U-Net anns a bheil an dà chuid na sreathan aire ùineail agus spàsail, bidh am modal CameraCtrl a ’toirt a-steach riochdachaidhean camara a-steach don bhloc aire ùineail, co-dhùnadh a tha a’ faighinn taic bho chomas an aire ùineail. sreathan gus dàimhean ùineail a ghlacadh, a’ co-thaobhadh ri nàdar gnèitheach cas is sreath slighe camara leis na sreathan de dh’ aire spàsail a’ sealltainn nam frèaman fa leth. 

Ionnsachadh Camara Sgaoileadh

Feumaidh trèanadh co-phàirt còdaidh camara taobh a-staigh frèam CameraCtrl air gineadair bhidio tòrr bhideothan le deagh leubail agus le notaichean leis a’ mhodail comasach air slighe a ’chamara fhaighinn a’ cleachdadh structar bho ghluasad no dòigh-obrach SfM. Bidh frèam CameraCtrl a’ feuchainn ris an t-seata dàta a thaghadh le coltas a tha a’ maidseadh dàta trèanaidh an teacsa bunaiteach ri modal bhidio gu dlùth, agus gum bi cuairteachadh suidheachadh camara cho farsaing ‘s a ghabhas. Tha sampaill anns an t-seata dàta a chaidh a chruthachadh le bhith a’ cleachdadh einnseanan mas-fhìor a’ nochdadh cuairteachadh camara eadar-mheasgte leis gu bheil sùbailteachd aig luchd-leasachaidh smachd a chumail air paramadairean a’ chamara rè na h-ìre tairgse, ged a tha e a’ fulang le beàrn cuairteachaidh an taca ri stòran-dàta anns a bheil sampallan fìor san t-saoghal. Nuair a bhios tu ag obair le stòran-dàta anns a bheil sampallan fìor san t-saoghal, mar as trice bidh cuairteachadh a’ chamara cumhang, agus ann an leithid de chùisean, feumaidh am frèam cothromachadh a lorg eadar an iomadachd am measg diofar shlighean camara agus iom-fhillteachd slighe camara fa-leth. Tha iom-fhillteachd slighe camara fa leth a’ dèanamh cinnteach gu bheil am modail ag ionnsachadh smachd a chumail air slighean iom-fhillte tron ​​​​phròiseas trèanaidh, fhad ‘s a tha an iomadachd am measg diofar shlighean camara a’ dèanamh cinnteach nach bi am modail a ’dol thairis air cuid de phàtranan stèidhichte. A bharrachd air an sin, gus sùil a chumail air pròiseas trèanaidh a’ chòdadair camara, tha frèam CameraCtrl a’ moladh meatrach co-thaobhadh a’ chamara gus càileachd smachd a’ chamara a thomhas le bhith a’ tomhas a’ mhearachd eadar slighe camara nan sampallan a chaidh a chruthachadh agus suidheachadh a’ chamara a-steach. 

CameraCtrl: Deuchainnean agus Toraidhean

Tha frèam CameraCtrl a’ cur an gnìomh modal AnimateDiff mar a mhodail teacsa gu bhidio bunaiteach agus is e prìomh adhbhar air cùl an aon rud gu bheil ro-innleachd trèanaidh a’ mhodail AnimateDiff a’ leigeil leis a’ mhodal gluasad aige amalachadh le teacsa gu modalan bunait ìomhaigh no teacsa gu ìomhaigh LoRAn gus gabhail ri bhidio. ginealach thar diofar ghnèithean agus raointean. Bidh am modail a’ cleachdadh an Adam optimizer gus am modail a thrèanadh le ìre ionnsachaidh seasmhach de 1e-4. A bharrachd air an sin, gus dèanamh cinnteach nach toir am modail buaidh air comasan gineadh bhidio an dreach tùsail modal teacsa gu bhidio gu h-àicheil, bidh frèam CameraCtrl a’ cleachdadh an FID no Frechet Inception Aist metric gus càileachd coltas a’ bhidio a mheasadh, agus a’ dèanamh coimeas eadar càileachd a’ bhidio a chaidh a chruthachadh ro agus às deidh a bhith a’ toirt a-steach modal a’ chamara. 

Gus a choileanadh a mheasadh, tha frèam CameraCtrl air a mheasadh an aghaidh dà fhrèam smachd camara a th’ ann mar-thà: MotionCtrl agus AnimateDiff. Ach, leis gu bheil taic aig frèam AnimateDiff airson dìreach ochd slighean camara bunaiteach, tha an coimeas eadar CameraCtrl agus AnimateDiff cuingealaichte ri trì slighean bunaiteach. Air an làimh eile, airson coimeas a dhèanamh an aghaidh MotionCtrl, bidh am frèam a’ taghadh còrr air mìle slighe camara air thuaiream bhon t-seata dàta a th’ ann mar-thà a bharrachd air slighean camara bunaiteach, a’ gineadh bhideothan a’ cleachdadh nan slighean sin, agus gan luachadh a’ cleachdadh metrics TransErr agus RotErr. 

Mar a chithear, tha frèam CameraCtrl a’ coileanadh nas fheàrr na frèam AnimateDiff ann an slighe bunaiteach, agus a’ lìbhrigeadh toraidhean nas fheàrr an taca ri frèam MotionCtrl air an t-slighe iom-fhillte meatrach. 

A bharrachd air an sin, tha am figear a leanas a’ sealltainn a’ bhuaidh a tha aig ailtireachd còdaidh a’ chamara air càileachd iomlan nan sampallan a chaidh a chruthachadh. Tha Row a to Row d a’ riochdachadh nan toraidhean a chaidh a chruthachadh le encoder camara air a chuir an gnìomh san ailtireachd: ControlNet, ControlNet le aire temporal, T2I Adaptor, agus adapter T2I le aire ùineail fa leth. 

Anns an fhigear a leanas, tha a’ chiad dà a’ cuir às don bhidio a chaidh a chruthachadh le bhith a’ cleachdadh measgachadh de chòdachadh RGB frèam SparseCtrl, agus an dòigh a thathar a’ cleachdadh ann am frèam CameraCtrl. 

Final Thoughts

San artaigil seo, tha sinn air bruidhinn mu CameraCtrl, beachd ùr-nodha a tha a’ feuchainn ri smachd seasamh camara ceart a chomasachadh airson modalan teacsa gu bhidio. Às deidh dha paramadair a dhèanamh air slighe a’ chamara gu mionaideach, bidh am modail a’ trèanadh modal camara plug and play air modal teacsa gu bhidio, agus a’ fàgail na pàirtean eile gun suathadh. A bharrachd air an sin, bidh am modal CameraCtrl cuideachd a’ dèanamh sgrùdadh coileanta air buaidh diofar stòran-dàta, agus a’ moladh gum faod bhideothan le coltas coltach ri chèile agus cuairteachadh camara eadar-mheasgte àrdachadh a thoirt air smachd iomlan agus comasan coitcheann a’ mhodail. Tha deuchainnean a chaidh a dhèanamh gus mion-sgrùdadh a dhèanamh air coileanadh modal CameraCtrl air gnìomhan fìor san t-saoghal a’ nochdadh èifeachdas an fhrèam ann a bhith a’ coileanadh smachd camara mionaideach agus freagarrach airson fearann, a’ snaidheadh ​​slighe air adhart airson gineadh bhidio gnàthaichte is fiùghantach bho shuidheachadh camara agus cuir a-steach teacsa. 

“Einnseanair le dreuchd, sgrìobhadair le cridhe”. Tha Kunal na sgrìobhadair teignigeach le gaol agus tuigse dhomhainn air AI agus ML, a tha gu sònraichte airson bun-bheachdan iom-fhillte anns na raointean sin a dhèanamh nas sìmplidhe tro na sgrìobhainnean tarraingeach agus fiosrachail aige.