Kuungana na sisi

Artificial General Intelligence

AI ya Kizazi cha Video: Kuchunguza Muundo wa Sora wa OpenAI

mm

Imechapishwa

 on

Sora, jenereta ya msingi ya OpenAI ya kubadilisha maandishi kwa video

OpenAI ilizindua uundaji wake mpya wa AI - Sora, jenereta ya kimapinduzi ya kubadilisha maandishi hadi video yenye uwezo wa kutoa video zenye uaminifu wa hali ya juu, zenye uthabiti wa hadi dakika 1 kutoka kwa vidokezo rahisi vya maandishi. Sora inawakilisha hatua kubwa ya kusonga mbele katika AI ya uzalishaji ya video, yenye uwezo unaopita zaidi miundo ya hali ya juu ya hapo awali.

Katika chapisho hili, tutatoa upigaji mbizi wa kina wa kiufundi katika Sora - jinsi inavyofanya kazi chini ya kofia, mbinu za riwaya za OpenAI zilizosaidiwa kufikia uwezo wa ajabu wa kutengeneza video wa Sora, nguvu zake muhimu na mapungufu ya sasa, na uwezo mkubwa wa Sora unaashiria kwa mustakabali wa ubunifu wa AI.

Muhtasari wa Sora

Katika kiwango cha juu, Sora huchukua kidokezo cha maandishi kama ingizo (kwa mfano, "mbwa wawili wanaocheza kwenye uwanja") na kutoa video inayolingana iliyokamilika yenye taswira halisi, mwendo na sauti.

Baadhi ya uwezo muhimu wa Sora ni pamoja na:

  • Inazalisha video hadi sekunde 60 kwa ubora wa juu (1080p au zaidi)
  • Inazalisha uaminifu wa hali ya juu, video dhabiti zenye vitu, maumbo na miondoko thabiti
  • Inasaidia mitindo tofauti ya video, uwiano wa vipengele na maazimio
  • Kuweka picha na video ili kupanua, kuhariri au kubadilisha kati yao
  • Inaonyesha uwezo ibuka wa uigaji kama vile uthabiti wa 3D na udumifu wa kitu wa muda mrefu

Chini ya kofia, Sora inachanganya na kuongeza uvumbuzi mbili muhimu za AI - mifano ya uenezi na transfoma - kufikia uwezo wa kutengeneza video ambao haujawahi kufanywa.

Misingi ya Kiufundi ya Sora

Sora inajenga juu ya mbinu mbili za msingi za AI ambazo zimeonyesha mafanikio makubwa katika miaka ya hivi karibuni - mifano ya uenezi wa kina na transfoma:

Mifano ya Kueneza

Miundo ya mtawanyiko ni darasa la miundo ya kina inayozalisha ambayo inaweza kuunda uhalisia wa hali ya juu picha na video za syntetisk. Wanafanya kazi kwa kuchukua data halisi ya mafunzo, kuongeza kelele ili kuiharibu, na kisha mafunzo a neural mtandao kuondoa kelele hiyo kwa hatua kwa hatua ili kurejesha data asili. Hili hufunza muundo huo kutoa sampuli za ubora wa juu, tofauti zinazonasa ruwaza na maelezo ya data ya ulimwengu halisi inayoonekana.

Sora hutumia aina ya modeli ya uenezaji inayoitwa a denoising uenezi probabilistic mfano (DDPM). DDPM hugawanya mchakato wa kutengeneza picha/video katika hatua nyingi ndogo za kutoa deno, na hivyo kurahisisha kutoa mafunzo kwa kielelezo ili kubadilisha mchakato wa uenezaji na kutoa sampuli wazi.

Hasa, Sora hutumia lahaja ya video ya DDPM iitwayo DVD-DDPM ambayo imeundwa kuiga video moja kwa moja katika kikoa cha saa huku ikipata uthabiti thabiti wa muda kwenye fremu. Hii ni mojawapo ya funguo za uwezo wa Sora wa kutoa video zinazoshikamana na za uaminifu wa hali ya juu.

transfoma

Transfoma ni aina ya kimapinduzi ya usanifu wa mtandao wa neural ambao umekuja kutawala usindikaji wa lugha asilia katika miaka ya hivi karibuni. Transfoma huchakata data sambamba katika vizuizi vinavyozingatia umakini, na kuziruhusu kuiga utegemezi changamano wa masafa marefu katika mfuatano.

Sora hubadilisha transfoma kufanya kazi kwenye data inayoonekana kwa kupitisha alama za video badala ya tokeni za maandishi. Hii inaruhusu mtindo kuelewa uhusiano wa anga na wa muda katika mfuatano wa video. Usanifu wa kibadilishaji cha Sora pia huwezesha mshikamano wa masafa marefu, kudumu kwa kitu, na uwezo mwingine unaoibuka wa uigaji.

Kwa kuchanganya mbinu hizi mbili - kutumia DDPM kwa usanisi wa video wa uaminifu wa hali ya juu na vibadilishaji umeme kwa uelewaji wa kimataifa na uwiano - Sora inasukuma mipaka ya kile kinachowezekana katika AI ya uzalishaji ya video.

Mapungufu na Changamoto za Sasa

Ingawa Sora ana uwezo mkubwa, bado ana vikwazo muhimu:

  • Ukosefu wa ufahamu wa kimwili - Sora hana ufahamu thabiti wa ndani wa fizikia na sababu-na-athari. Kwa mfano, vitu vilivyovunjika vinaweza "kuponya" wakati wa video.
  • Kutoshikamana kwa muda mrefu - Vizalia vya programu vinavyoonekana na kutofautiana vinaweza kujilimbikiza katika sampuli za zaidi ya dakika 1. Kudumisha mshikamano kamili kwa video ndefu sana bado ni changamoto wazi.
  • Kasoro za vitu vya hapa na pale - Sora wakati mwingine hutengeneza video ambapo vitu huhamisha maeneo isivyo asili au moja kwa moja kuonekana/kutoweka kutoka fremu hadi fremu.
  • Ugumu wa vidokezo vya kutosambaza - Vidokezo vya riwaya nyingi nje ya usambazaji wa mafunzo ya Sora vinaweza kusababisha sampuli za ubora wa chini. Uwezo wa Sora ni thabiti zaidi karibu na data yake ya mafunzo.

Kuongeza zaidi kwa mifano, data ya mafunzo, na mbinu mpya zitahitajika kushughulikia mapungufu haya. Uzalishaji wa video AI bado ana njia ndefu mbele.

Maendeleo ya Kuwajibika ya AI ya Uzalishaji wa Video

Kama ilivyo kwa teknolojia yoyote inayoendelea kwa kasi, kuna hatari zinazowezekana za kuzingatia pamoja na faida:

  • Taarifa potofu za syntetisk - Sora hurahisisha uundaji wa video iliyodanganywa na ghushi kuliko hapo awali. Ulinzi utahitajika ili kugundua video zilizotolewa na kupunguza matumizi mabaya mabaya.
  • Upendeleo wa data - Miundo kama Sora huakisi upendeleo na vikwazo vya data yao ya mafunzo, ambayo inahitaji kuwa tofauti na wakilishi.
  • Maudhui hatari - Bila udhibiti unaofaa, AI ya maandishi-kwa-video inaweza kutoa maudhui ya vurugu, hatari au yasiyo ya kimaadili. Sera makini za udhibiti wa maudhui ni muhimu.
  • Masuala ya Hakimiliki - Mafunzo kuhusu data iliyo na hakimiliki bila ruhusa huibua masuala ya kisheria kuhusu kazi zinazotokana na kazi zingine. Utoaji wa leseni ya data unahitaji kuzingatiwa kwa uangalifu.

OpenAI itahitaji kuchukua tahadhari kubwa kuabiri masuala haya wakati hatimaye itapeleka Sora hadharani. Kwa ujumla, ingawa, ikitumiwa kwa kuwajibika, Sora inawakilisha zana yenye nguvu sana ya ubunifu, taswira, burudani na zaidi.

Mustakabali wa Uzalishaji wa Video AI

Sora inaonyesha kwamba maendeleo ya ajabu katika AI ya video ya uzalishaji yako kwenye upeo wa macho. Hapa kuna mielekeo ya kufurahisha ambayo teknolojia hii inaweza kuelekea inapoendelea maendeleo ya haraka:

  • Sampuli za muda mrefu zaidi - Miundo hivi karibuni inaweza kutoa saa za video badala ya dakika huku zikidumisha mshikamano. Hii inapanua programu zinazowezekana kwa kiasi kikubwa.
  • Udhibiti kamili wa nafasi - Zaidi ya maandishi na picha, watumiaji wanaweza kuendesha moja kwa moja nafasi fiche za video, kuwezesha uwezo mkubwa wa kuhariri video.
  • Uigaji unaoweza kudhibitiwa - Miundo kama Sora inaweza kuruhusu kudhibiti ulimwengu ulioigwa kupitia maongozi ya maandishi na mwingiliano.
  • Video iliyobinafsishwa - AI inaweza kutoa maudhui ya video yaliyoundwa mahususi kwa watazamaji binafsi au muktadha.
  • Mchanganyiko wa Multimodal - Muunganisho mkali wa mbinu kama vile lugha, sauti na video unaweza kuwezesha uzoefu wa midia mchanganyiko wa mwingiliano.
  • Vikoa maalum - Miundo ya video mahususi ya kikoa inaweza kufaulu katika matumizi maalum kama vile taswira ya kimatibabu, ufuatiliaji wa kiviwanda, injini za michezo ya kubahatisha na zaidi.

Hitimisho

pamoja Sora, OpenAI imepiga hatua kubwa mbele katika video za AI ya kuzalisha, kuonyesha uwezo ambao ulionekana miongo kadhaa tu mwaka jana. Ingawa kazi inasalia kushughulikia changamoto zilizo wazi, uwezo wa Sora unaonyesha uwezo mkubwa wa teknolojia hii kwa siku moja kuiga na kupanua mawazo ya kibinadamu ya kuona kwa kiwango kikubwa.

Miundo mingine kutoka DeepMind, Google, Meta na zaidi pia itaendelea kusukuma mipaka katika nafasi hii. Mustakabali wa video inayozalishwa na AI unaonekana kung'aa sana. Tunaweza kutarajia teknolojia hii kupanua uwezekano wa ubunifu na kupata matumizi muhimu sana katika miaka ijayo, huku tukihitaji usimamizi wa busara ili kupunguza hatari.

Ni wakati wa kusisimua kwa watengenezaji na watendaji wa AI kama vielelezo vya kutengeneza video kama vile Sora kufungua upeo mpya kwa kile kinachowezekana. Madhara ambayo maendeleo haya yanaweza kuwa nayo kwenye vyombo vya habari, burudani, uigaji, taswira na mengine ndiyo yanaanza kujitokeza.

Nimetumia miaka mitano iliyopita kujitumbukiza katika ulimwengu wa kuvutia wa Kujifunza kwa Mashine na Kujifunza kwa Kina. Shauku yangu na utaalam umeniongoza kuchangia zaidi ya miradi 50 ya uhandisi wa programu tofauti, nikizingatia haswa AI/ML. Udadisi wangu unaoendelea pia umenivutia kuelekea Uchakataji wa Lugha Asilia, uwanja ambao nina hamu ya kuchunguza zaidi.