stub Sgaoileadh bhidio seasmhach: Modalan sgaoileadh bhidio falaichte gu seataichean dàta mòra - Unite.AI
Ceangal leinn

Artificial Intelligence

Sgaoileadh bhidio seasmhach: Modalan sgaoileadh bhidio falaichte gu seataichean dàta mòra

mm
Ùraichte on

Ginealach AI air a bhith na phrìomh dhraibheadh ​​​​anns a’ choimhearsnachd AI airson ùine a-nis, agus tha na h-adhartasan a chaidh a dhèanamh ann an raon modaladh ìomhaighean ginealach gu sònraichte le bhith a ’cleachdadh mhodalan sgaoilidh air cuideachadh leis na modalan bhidio ginealach adhartas gu mòr chan ann a-mhàin ann an rannsachadh, ach cuideachd a thaobh tagraidhean saoghal fìor. Gu h-àbhaisteach, tha modalan bhidio ginealach air an trèanadh bhon fhìor thoiseach, no tha iad gu ìre no gu tur air an sgeadachadh bho mhodalan ìomhaigh ro-thrèanadh le sreathan ùineail a bharrachd, air measgachadh de sheata dàta ìomhaigh is bhidio. 

A’ toirt air adhart adhartasan ann am modalan bhidio ginealach, san artaigil seo, bruidhnidh sinn mu dheidhinn an Modail sgaoilidh bhidio seasmhach, modal sgaoileadh bhidio falaichte a tha comasach air ìomhaigh àrd-rùn, ùr-nodha a ghineadh gu bhidio, agus teacsa gu susbaint bhidio. Bruidhnidh sinn mu mar a tha modalan sgaoilidh falaichte air an trèanadh airson a bhith a’ co-chur ìomhaighean 2D air comasan & èifeachdas mhodalan bhidio ginealach a leasachadh le bhith a’ cur sreathan ùineail ris, agus a’ gleusadh mhodailean air stòran-dàta beaga anns a bheil bhideothan àrd-inbhe. Bidh sinn a’ faighinn dàibheadh ​​​​nas doimhne a-steach do ailtireachd agus obrachadh a ’Mhodail Sgaoileadh Bhidio Stàbaill, agus dèan measadh air a choileanadh air grunn mheatairean agus dèan coimeas eadar e agus na frèaman ùr-nodha airson gineadh bhidio. Mar sin leig leinn tòiseachadh. 

Modail sgaoilidh bhidio seasmhach agus modalan bhidio ginealach: Ro-ràdh

Mar thoradh air a chomas cha mhòr gun chrìoch, tha Generative AI air a bhith na phrìomh chuspair sgrùdaidh airson cleachdaichean AI agus ML airson greis a-nis, agus anns na beagan bhliadhnaichean a dh’ fhalbh tha adhartas mòr air fhaicinn an dà chuid a thaobh èifeachdas agus coileanadh mhodalan ìomhaigh ginealach. Tha an ionnsachadh bho mhodalan ìomhaigh ginealach air leigeil le luchd-rannsachaidh agus luchd-leasachaidh adhartas a dhèanamh air modalan bhidio ginealach a tha a’ leantainn gu practaigeach nas fheàrr agus tagraidhean san t-saoghal fhìor. Ach, tha a’ mhòr-chuid den rannsachadh a tha a’ feuchainn ri comasan mhodalan bhidio ginealach a leasachadh a’ cuimseachadh gu sònraichte air an dearbh rèiteachadh de shreathan ùineail is spàsail, le glè bheag de dh’ aire ga thoirt airson sgrùdadh a dhèanamh air buaidh taghadh an dàta ceart air toradh nam modalan ginealach sin.

Mar thoradh air an adhartas a rinn modalan ìomhaigh ginealach, tha luchd-rannsachaidh air faicinn gu bheil buaidh cuairteachadh dàta trèanaidh air coileanadh mhodalan ginealach gu dearbh cudromach agus gun teagamh. A bharrachd air an sin, tha luchd-rannsachaidh cuideachd air mothachadh gu bheil a bhith a’ ro-thrèanadh modal ìomhaigh ginealach air stòr-dàta mòr agus eadar-mheasgte agus an uairsin ga ghleusadh air stòr-dàta nas lugha le càileachd nas fheàrr gu tric a’ leantainn gu leasachadh coileanaidh gu mòr. Gu traidiseanta, bidh modalan bhidio ginealach a’ cur an gnìomh an ionnsachadh a gheibhear bho mhodalan ìomhaigh ginealach soirbheachail, agus tha luchd-rannsachaidh fhathast gun sgrùdadh a dhèanamh air buaidh dàta, agus tha ro-innleachdan trèanaidh fhathast ri sgrùdadh. Tha am Modail Sgaoileadh Bhidio Stàbaill na oidhirp air comasan mhodalan bhidio ginealach àrdachadh le bhith a’ dol a-steach gu sgìrean nach deach a chlàradh roimhe le fòcas sònraichte air taghadh dàta. 

Tha modalan bhidio ginealach o chionn ghoirid an urra ri modalan sgaoilidh, agus modhan teacsadh no suidheachadh ìomhaigh gus grunn fhrèamaichean bhidio no ìomhaighean cunbhalach a cho-chur. Tha modalan sgaoilidh ainmeil airson an comas a bhith ag ionnsachadh mar a dhèiligeas iad mean air mhean sampall bho chuairteachadh àbhaisteach le bhith a’ cur an gnìomh pròiseas ath-nuadhachaidh ath-aithriseach, agus tha iad air toraidhean ion-mhiannaichte a lìbhrigeadh air bhidio àrd-rèiteachaidh, agus teacsa gu synthesis ìomhaigh. A’ cleachdadh an aon phrionnsapal aig a chridhe, bidh am Modail Sgaoileadh Bhidio Stàbaill a’ trèanadh modal sgaoilidh bhidio falaichte air an t-seata bhidio aige còmhla ri bhith a’ cleachdadh Lìonraidhean Nàimhdeil Gineadach no GANn, agus eadhon modalan fèin-ghluasadach gu ìre. 

Tha am Modail Sgaoileadh Bhidio Stàbaill a’ leantainn ro-innleachd gun samhail nach deach a chuir an gnìomh le modal bhidio ginealach sam bith leis gu bheil e an urra ri bunaitean sgaoileadh bhidio falaichte le ailtireachd stèidhichte, agus ro-innleachd trèanaidh stèidhichte air a leantainn le bhith a’ measadh buaidh leigheas an dàta. Tha am Modail Sgaoileadh Bhidio Stàbaill ag amas air na tabhartasan a leanas a dhèanamh ann an raon modaladh bhidio ginealach. 

  1. Gus sruth-obrach leigheas dàta eagarach agus èifeachdach a thaisbeanadh ann an oidhirp cruinneachadh mòr de shamhlaichean bhidio gun chùram a thionndadh gu seata dàta àrd-inbhe a bhios an uairsin air a chleachdadh leis na modalan bhidio ginealach. 
  2. Gus ìomhaigh ùr-nodha a thrèanadh gu bhidio, agus modalan teacsa gu bhidio a tha a’ coileanadh nas fheàrr na na frèaman a th’ ann. 
  3. A’ dèanamh dheuchainnean a tha sònraichte don àrainn gus tuigse 3D a sgrùdadh, agus ro-ghluasad làidir a’ mhodail. 

A-nis, tha am Modail Sgaoileadh Bhidio Stàbaill a’ buileachadh na tha air ionnsachadh bho Mhodail Sgaoileadh Bhidio Latent, agus dòighean leigheas dàta aig cridhe a bhunait. 

Modalan sgaoileadh bhidio falaichte

Bidh Modalan Sgaoileadh Bhidio Latent no Video-LDMan a’ leantainn an dòigh-obrach airson a bhith a’ trèanadh a’ phrìomh mhodail ginealach ann an àite falaichte le iom-fhillteachd coimpiutaireachd nas lugha, agus bidh a’ mhòr-chuid de Video-LDMan a’ cur an gnìomh modal teacsa gu ìomhaigh ro-thrèanadh còmhla ri sreathan measgachadh ùineail a chur ris anns an ro-thrèanadh. ailtireachd. Mar thoradh air an sin, chan eil a’ mhòr-chuid de mhodalan sgaoilidh falaichte bhidio ach a’ trèanadh sreathan ùineail, no a’ leum air a’ phròiseas trèanaidh gu tur eu-coltach ris a’ Mhodal Stable Video Disfusion a bhios a’ gleusadh an fhrèam gu lèir. A bharrachd air an sin, airson a bhith a’ co-chur teacsa gu dàta bhidio, tha am Modail Sgaoileadh Bhidio Stàbaill ga shuidheachadh fhèin gu dìreach air sgiobalta teacsa, agus tha na toraidhean a’ nochdadh gum faodar am frèam a thig às a dhealbhadh gu bhith na synthesis ioma-shealladh no ìomhaigh gu modal bhidio gu furasta. 

Glèidhteachas Dàta

Tha leigheas dàta na phàirt riatanach chan ann a-mhàin den Mhodal Stable Video Disfusion, ach airson modalan ginealach gu h-iomlan oir tha e riatanach modalan mòra a ro-thrèanadh air stòran-dàta mòr gus coileanadh àrdachadh thar diofar ghnìomhan a’ gabhail a-steach modaladh cànain, no teacsa leth-bhreith gu gineadh ìomhaighean. , agus mòran a bharrachd. Chaidh leigheas dàta a chuir an gnìomh gu soirbheachail air modalan ìomhaigh ginealach le bhith a’ cleachdadh comasan riochdachaidhean ìomhaigh cànain èifeachdach, ged nach deach a leithid de chòmhraidhean a-riamh a chuimseachadh airson modalan bhidio ginealach a leasachadh. Tha grunn chnapan-starra aig luchd-leasachaidh nuair a bhios iad a’ glèidheadh ​​dàta airson modalan bhidio ginealach, agus gus dèiligeadh ris na dùbhlain sin, tha am Modail Sgaoileadh Bhidio Stàbaill a’ cur an gnìomh ro-innleachd trèanaidh trì ìrean, a’ leantainn gu toraidhean leasaichte, agus àrdachadh mòr ann an coileanadh. 

Glèidheadh ​​​​dàta airson synthesis bhidio de chàileachd àrd

Mar a chaidh a dheasbad san earrann roimhe seo, tha am Modail Sgaoileadh Bhidio Stàbaill a’ cur an gnìomh ro-innleachd trèanaidh trì ìrean, a’ leantainn gu toraidhean leasaichte, agus àrdachadh mòr ann an coileanadh. Tha ìre I an ro-thrèanadh ìomhaigh àrd-ùrlar a bhios a’ cleachdadh teacsa 2D gu modal sgaoilidh ìomhaigh. Tha Ìre II airson ro-thrèanadh bhidio anns a bheil am frèam a’ trèanadh air tòrr dàta bhidio. Mu dheireadh, tha Ìre III againn airson mion-sgrùdadh bhidio anns a bheil am modail air ùrachadh air fo-sheata bheag de bhideothan àrd-inbhe agus àrd-rèiteachaidh. 

Ach, mus cuir am Modail Sgaoileadh Bhidio Stàbaill na trì ìrean sin an gnìomh, tha e deatamach an dàta a phròiseasadh agus a chomharrachadh mar a tha e na bhunait airson Ìre II no an ìre ro-thrèanaidh bhidio, agus tha pàirt deatamach aige ann a bhith a’ dèanamh cinnteach à an toradh as fheàrr. Gus dèanamh cinnteach à èifeachdas as àirde, bidh am frèam an-toiseach a’ cur an gnìomh loidhne-phìoban lorgaidh gearraidh cascade aig 3 ìrean eadar-dhealaichte FPS no Frames Per Second, agus tha an fheum air an loidhne-phìoban seo air a nochdadh san ìomhaigh a leanas. 

An ath rud, bidh am Modail Sgaoileadh Bhidio Stàbaill a’ comharrachadh gach criomag bhidio a’ cleachdadh trì diofar dhòighean captioning synthetigeach. Tha an clàr a leanas a’ dèanamh coimeas eadar na stòran-dàta a chaidh a chleachdadh san Fhrèam Sgaoileadh Stàbaill ro agus às deidh a’ phròiseas sìolachaidh. 

Ìre I: Ìomhaigh Ro-thrèanadh

Is e a’ chiad ìre anns an loidhne-phìoban trì-ìrean a chaidh a chuir an gnìomh anns a’ Mhodal Sgaoileadh Bhidio Stàbaill ro-thrèanadh ìomhaigh, agus gus seo a choileanadh, tha a’ chiad fhrèam Modail Sgaoileadh Bhidio Stàbaill stèidhichte air modal sgaoilidh ìomhaigh ro-thrèanadh, is e sin an Sgaoileadh seasmhach 2.1 modail a tha ga uidheamachadh le riochdachaidhean lèirsinneach nas làidire. 

Ìre II: Ro-thrèanadh Bhidio

Is e an dàrna ìre an ìre Ro-thrèanaidh Bhidio, agus bidh e a’ togail air na co-dhùnaidhean gu bheil cleachdadh leigheas dàta ann am modalan ìomhaigh ginealach ioma-mhodh gu tric a’ leantainn gu toraidhean nas fheàrr, agus èifeachdas nas fheàrr còmhla ri gineadh ìomhaighean leth-bhreith cumhachdach. Ach, air sgàth dìth riochdachaidhean cumhachdach far na sgeilp gus sampallan nach eileas ag iarraidh a shìoladh airson modalan bhidio ginealach, tha am Modail Sgaoileadh Bhidio Stàbaill an urra ri roghainnean daonna mar chomharran cuir a-steach airson cruthachadh stòr-dàta iomchaidh a thèid a chleachdadh airson am frèam a thrèanadh ro-làimh. Tha am figear a leanas a’ sealltainn a’ bhuaidh mhath a tha aig ro-thrèanadh am frèam air seata dàta curanta a chuidicheas le bhith ag àrdachadh coileanadh iomlan airson ro-thrèanadh bhidio air stòran-dàta nas lugha. 

Gus a bhith nas mionaidiche, bidh am frèam a’ cleachdadh diofar dhòighean gus fo-bhuidhnean de Latent Video Diffusion a leigheas, agus a’ beachdachadh air rangachadh mhodalan LVD air an trèanadh air na stòran-dàta sin. A bharrachd air an sin, tha am frèam Stable Video Disfusion cuideachd a’ faighinn a-mach gu bheil cleachdadh stòran-dàta curanta airson trèanadh nam frèaman a’ cuideachadh le bhith ag àrdachadh coileanadh an fhrèam, agus modalan sgaoilidh san fharsaingeachd. A bharrachd air an sin, tha ro-innleachd leigheas dàta cuideachd ag obair air stòran-dàta nas motha, nas buntainniche agus gu math practaigeach. Tha am figear a leanas a’ sealltainn a’ bhuaidh mhath a tha aig ro-thrèanadh am frèam air stòr-dàta curanta a chuidicheas le bhith ag àrdachadh coileanadh iomlan airson ro-thrèanadh bhidio air stòran-dàta nas lugha. 

Ìre III: Àrd-chàileachd gleusadh

Gu ìre II, tha am frèam Stable Video Difffusion a’ cuimseachadh air a bhith a’ leasachadh coileanadh ro ro-thrèanadh bhidio, agus anns an treas ìre, tha am frèam a’ cur cuideam air a bhith a’ dèanamh an fheum as fheàrr no ag àrdachadh coileanadh an fhrèam às deidh gleusadh bhidio de chàileachd àrd, agus mar a tha an gluasad bho Ìre II gu Ìre III air a choileanadh san fhrèam. Ann an Ìre III, tha am frèam a’ tarraing air dòighean trèanaidh a fhuaireadh air iasad bho mhodalan sgaoilidh ìomhaigh falaichte, agus a’ meudachadh fuasgladh nan eisimpleirean trèanaidh. Gus sgrùdadh a dhèanamh air èifeachdas an dòigh-obrach seo, tha am frèam ga choimeas ri trì modalan co-ionann a tha eadar-dhealaichte a-mhàin a thaobh an tùsachaidh. Tha cuideaman a’ chiad mhodail co-ionann air tòiseachadh, agus tha am pròiseas trèanaidh bhidio air a leigeil seachad ach tha an dà mhodail co-ionann eile air an tòiseachadh leis na cuideaman a chaidh fhaighinn air iasad bho mhodalan bhidio falaichte eile. 

Toraidhean agus Co-dhùnaidhean

Tha an t-àm ann sùil a thoirt air mar a bhios am frèam Stable Video Difffusion a’ coileanadh air gnìomhan san t-saoghal fhìor, agus mar a tha e an coimeas ris na frèaman ealain gnàthach. Bidh am frèam Stable Video Difffusion an-toiseach a’ cleachdadh an dòigh dàta as fheàrr airson modal bunaiteach a thrèanadh, agus an uairsin a’ dèanamh gleusadh gus grunn mhodalan ùr-nodha a ghineadh, far am bi gach modail a’ coileanadh gnìomh sònraichte. 

Tha an dealbh gu h-àrd a’ riochdachadh an ìomhaigh àrd-rèiteachaidh gu sampallan bhidio a chaidh a chruthachadh leis an fhrèam ach tha am figear a leanas a’ sealltainn comas an fhrèam gus teacsa àrd-inbhe a ghineadh gu sampallan bhidio. 

Bunait ro-thrèanadh Model

Mar a chaidh a dheasbad na bu thràithe, tha am modal Stable Video Diffusion air a thogail air frèam Stable Diffusion 2.1, agus air bunait co-dhùnaidhean o chionn ghoirid, bha e deatamach do luchd-leasachaidh gabhail ris a ’chlàr fuaim agus am fuaim àrdachadh gus ìomhaighean fhaighinn le rùn nas fheàrr nuair a bhios iad a’ trèanadh sgaoileadh ìomhaigh. modailean. Mar thoradh air an dòigh-obrach seo, bidh am modal bunait Stable Video Diffusion ag ionnsachadh riochdachaidhean gluasad cumhachdach, agus sa phròiseas, a’ coileanadh nas fheàrr na modalan bun-loidhne airson teacsa gu gineadh bhidio ann an suidheachadh peilear neoni, agus tha na toraidhean air an taisbeanadh sa chlàr a leanas. 

Eadar-theangachadh frèam agus gineadh ioma-shealladh

Bidh am frèam Stable Video Diffusion a’ gleusadh an ìomhaigh gu modal bhidio air stòran-dàta ioma-shealladh gus iomadh sealladh ùr fhaighinn air nì, agus canar SVD-MV no modal Stable Video Diffusion- Multi View ris a’ mhodail seo. Tha am modail SVD tùsail air a sgeadachadh le cuideachadh bho dhà sheata dàta ann an dòigh a tha am frèam a’ toirt a-steach aon ìomhaigh, agus a’ tilleadh sreath de dhealbhan ioma-shealladh mar thoradh. 

Mar a chithear anns na h-ìomhaighean a leanas, tha am frèam Stable Video Diffusion Multi View a’ lìbhrigeadh àrd-choileanadh a tha coltach ri frèam Scratch Multi View ùr-nodha, agus tha na toraidhean nan taisbeanadh soilleir de chomas SVD-MV gus brath a ghabhail air an ionnsachadh a fhuaireadh. bhon fhrèam SVD tùsail airson gineadh ìomhaigh ioma-shealladh. A bharrachd air an sin, tha na toraidhean cuideachd a’ nochdadh gu bheil a bhith a’ ruith a’ mhodail airson àireamh an ìre mhath nas lugha de dh’ itealain a’ cuideachadh le bhith a’ lìbhrigeadh nan toraidhean as fheàrr mar a thachras leis a’ mhòr-chuid de mhodalan air an deagh ghleusadh bhon fhrèam SVD. 

Anns an fhigear gu h-àrd, tha na meatrach air an comharrachadh air an taobh chlì agus mar a chìthear, tha am frèam Stable Video Diffusion Multi View a’ coileanadh nas fheàrr na frèam Scratch-MV agus SD2.1 Multi-View le iomall reusanta. Tha an dàrna ìomhaigh a’ sealltainn a’ bhuaidh a tha aig an àireamh de dh’aithrisean trèanaidh air coileanadh iomlan an fhrèam a thaobh Sgòr Clip, agus tha frèaman SVD-MV a’ lìbhrigeadh toraidhean seasmhach. 

Final Thoughts

San artaigil seo, tha sinn air bruidhinn mu dheidhinn Stable Video Diffusion, modal sgaoilidh bhidio falaichte a tha comasach air ìomhaigh àrd-rùn, ùr-nodha a ghineadh gu bhidio, agus teacsa gu susbaint bhidio. Tha am Modail Sgaoileadh Bhidio Stàbaill a’ leantainn ro-innleachd gun samhail nach deach a chuir an gnìomh le modal bhidio ginealach sam bith leis gu bheil e an urra ri bunaitean sgaoileadh bhidio falaichte le ailtireachd stèidhichte, agus ro-innleachd trèanaidh stèidhichte air a leantainn le bhith a’ measadh buaidh leigheas an dàta. 

Tha sinn air bruidhinn air mar a tha modalan sgaoilidh falaichte air an trèanadh airson ìomhaighean 2D a cho-chur air comasan agus èifeachdas modalan bhidio ginealach le bhith a’ cur sreathan ùineail ris, agus a’ gleusadh nam modalan air stòran-dàta beaga anns a bheil bhideothan àrd-inbhe. Gus an dàta ro-thrèanaidh a chruinneachadh, bidh am frèam a’ dèanamh sgrùdadh sgèileachaidh agus a’ leantainn cleachdaidhean cruinneachadh dàta eagarach, agus aig a’ cheann thall a’ moladh dòigh airson tòrr dàta bhidio a leigheas, agus ag atharrachadh bhideothan fuaimneach gu dàta cuir a-steach a tha freagarrach airson modalan bhidio ginealach. 

A bharrachd air an sin, tha am frèam Stable Video Difffusion a’ cleachdadh trì ìrean trèanaidh modal bhidio sònraichte a tha air an sgrùdadh gu neo-eisimeileach gus a’ bhuaidh aca air coileanadh an fhrèam a mheasadh. Aig a’ cheann thall bidh am frèam a’ toirt a-mach riochdachadh bhidio a tha cumhachdach gu leòr airson na modalan a mhion-atharrachadh airson an synthesis bhidio as fheàrr, agus tha na toraidhean an coimeas ri modalan ginealach bhidio ùr-nodha a thathas a’ cleachdadh mu thràth. 

“Einnseanair le dreuchd, sgrìobhadair le cridhe”. Tha Kunal na sgrìobhadair teignigeach le gaol agus tuigse dhomhainn air AI agus ML, a tha gu sònraichte airson bun-bheachdan iom-fhillte anns na raointean sin a dhèanamh nas sìmplidhe tro na sgrìobhainnean tarraingeach agus fiosrachail aige.