Хиймэл ерөнхий оюун ухаан

Video Generation AI: OpenAI-ийн цоо шинэ Sora загварыг судлах

Нийтэлсэн

2 сарын өмнө

Гуравдугаар сарын 1, 2024

Sora, OpenAI-ийн шинэчилсэн текстээс видео үүсгэгч

OpenAI хамгийн сүүлийн үеийн AI бүтээлээ танилцууллаа - Сора, энгийн текстийн сануулгаас 1 минутын урттай, өндөр нарийвчлалтай, уялдаатай видео бүтээх чадвартай, хувьсгалт текстийг видео үүсгэгч. Сора нь өмнөх орчин үеийн загваруудаас хол давсан чадвараараа хиймэл хиймэл оюун ухаанд асар том үсрэлт хийж байна.

Энэ нийтлэлд бид Сора хэрхэн ажилладаг талаар, Сорагийн гайхалтай видео бүтээх чадваруудад хүрэхийн тулд OpenAI-ийн ашигласан шинэ техникүүд, түүний гол давуу тал, одоогийн хязгаарлалт, Сорагийн асар их боломжийн талаар дэлгэрэнгүй мэдээлэл өгөх болно. AI бүтээлч байдлын ирээдүй.

Сорагийн тойм

Өндөр түвшинд Сора текстийн сануулгыг оролт болгон (жишээ нь "талбайд тоглож буй хоёр нохой") авч, бодит зураглал, хөдөлгөөн, аудио бүхий тохирох гаралтын видеог үүсгэдэг.

Sora-ийн зарим гол чадварууд нь:

Өндөр нягтаршилтай (60p ба түүнээс дээш) 1080 секунд хүртэл видео үүсгэх
Тохиромжтой объект, бүтэц, хөдөлгөөн бүхий өндөр нарийвчлалтай, уялдаа холбоотой видео бүтээх
Төрөл бүрийн видеоны хэв маяг, талуудын харьцаа, нягтрал зэргийг дэмжих
Зураг болон видеог өргөтгөх, засварлах, хооронд нь шилжүүлэх нөхцөлийг тохируулна
3D тууштай байдал, объектын урт хугацааны тогтвортой байдал зэрэг гэнэтийн симуляцийн чадварыг харуулах

Бүрээсний доор Сора хоёр үндсэн AI инновацийг нэгтгэж, өргөжүүлж байна. диффузын загварууд болон трансформаторууд - урьд өмнө байгаагүй видео үүсгэх чадварыг бий болгох.

Сорагийн техникийн суурь

Сора нь сүүлийн жилүүдэд асар их амжилт үзүүлсэн хиймэл оюун ухааны хоёр шинэ техник дээр тулгуурладаг - гүн тархалтын загварууд болон трансформаторууд:

Диффузын загварууд

Диффузын загварууд нь маш бодит байдлыг бий болгож чаддаг гүн үүсгүүрийн загваруудын ангилал юм синтетик зураг, видео. Тэд сургалтын бодит өгөгдлийг авч ажилладаг. үүнийг эвдэхийн тулд дуу чимээ нэмж байна, дараа нь сургалт a мэдрэлийн сүлжээ анхны өгөгдлийг сэргээхийн тулд энэ чимээг алхам алхмаар арилгах. Энэ нь бодит ертөнцийн харааны өгөгдлийн хэв маяг, нарийн ширийн зүйлийг багтаасан өндөр нарийвчлалтай, олон янзын дээжийг бий болгоход загварыг сургадаг.

Сора нь a гэж нэрлэгддэг тархалтын загварыг ашигладаг denoising диффузийн магадлалын загвар (DDPM). DDPM нь зураг/видео үүсгэх процессыг ялгах олон жижиг үе шат болгон задалж, тархалтын процессыг буцаах, тодорхой дээж үүсгэх загварыг сургахад хялбар болгодог.

Тодруулбал, Сора нь DVD-DDPM хэмээх DDPM-ийн видео хувилбарыг ашигладаг бөгөөд энэ нь видеог шууд цаг хугацааны домэйнд загварчлахын зэрэгцээ фрэймийн хооронд цаг хугацааны тогтвортой байдлыг бий болгох зорилготой юм. Энэ нь Сорагийн уялдаа холбоотой, өндөр нарийвчлалтай видео бүтээх чадварын нэг түлхүүр юм.

Трансформатор

Трансформаторууд нь сүүлийн жилүүдэд байгалийн хэлний боловсруулалтад давамгайлах болсон мэдрэлийн сүлжээний архитектурын хувьсгалт төрөл юм. Трансформаторууд нь анхаарал төвлөрсөн блокуудад өгөгдлийг зэрэгцүүлэн боловсруулж, урт хугацааны нарийн төвөгтэй хамаарлыг дарааллаар загварчлах боломжийг олгодог.

Сора нь текстийн токенуудын оронд видеоны токенжуулсан засваруудыг дамжуулах замаар визуал өгөгдөл дээр ажиллах трансформаторуудыг тохируулдаг. Энэ нь загварт видео дараалал дахь орон зайн болон цаг хугацааны харилцааг ойлгох боломжийг олгодог. Сорагийн трансформаторын бүтэц нь урт хугацааны уялдаа холбоо, объектын тогтвортой байдал болон бусад яаралтай симуляцийн чадварыг идэвхжүүлдэг.

Эдгээр хоёр арга техникийг хослуулснаар – өндөр нарийвчлалтай видео синтезийн DDPM болон дэлхий дахины ойлголт, уялдаа холбоог бий болгохын тулд трансформаторуудыг ашигласнаар Сора видео хиймэл оюун ухаанд боломжтой зүйлсийн хил хязгаарыг давж байна.

Одоогийн хязгаарлалт ба сорилтууд

Өндөр чадвартай хэдий ч Сора хэд хэдэн гол хязгаарлалттай хэвээр байна:

Бие махбодийн ойлголт дутмаг – Сора физикийн болон шалтгаан-үр дагаврын талаар баттай төрөлхийн ойлголтгүй. Жишээлбэл, эвдэрсэн объектууд видео бичлэгийн явцад "эдгээж" болно.
Удаан хугацааны туршид үл нийцэх байдал – Дээжинд 1 минутаас илүү хугацаанд харааны олдворууд болон үл нийцэх байдал үүсч болно. Маш урт видеонуудын төгс уялдаа холбоог хадгалах нь нээлттэй сорилт хэвээр байна.
Объектийн спордик согогууд – Сора заримдаа объектуудын байршлыг байгалийн бусаар эсвэл аяндаа гарч ирэх/алга болж буй видеог бүтээдэг.
Түгээлтээс гадуурх сануулгатай холбоотой хүндрэл – Сорагийн сургалтын хуваарилалтаас хол давсан шинэ мэдээллүүд нь чанар муутай дээж авахад хүргэдэг. Сорагийн чадвар нь сургалтын өгөгдлийнх нь дэргэд хамгийн хүчтэй байдаг.

Загваруудыг цаашид өргөжүүлэх, сургалтын өгөгдөл, мөн эдгээр хязгаарлалтыг арилгахын тулд шинэ техник хэрэгтэй болно. Видео үүсгэх AI өмнө нь урт зам байна.

Видео үүсгэх AI-г хариуцлагатай хөгжүүлэх

Аливаа хурдацтай хөгжиж буй технологийн нэгэн адил ашиг тусын зэрэгцээ авч үзэх боломжит эрсдэлүүд байдаг:

Синтетик төөрөгдөл - Сора хуурамч, хуурамч видеог бүтээх ажлыг урьд өмнөхөөс илүү хялбар болгож байна. Үүсгэсэн видеог илрүүлж, хор хөнөөлтэй буруу ашиглалтыг хязгаарлахад хамгаалалтын арга хэмжээ шаардлагатай болно.
Өгөгдлийн хазайлт – Сора гэх мэт загварууд нь сургалтын өгөгдлийнхөө гажуудал, хязгаарлалтыг тусгадаг бөгөөд энэ нь олон талт, төлөөлөлтэй байх шаардлагатай.
Хортой контент – Зохих хяналтгүй бол текстээс видео бичлэгт хиймэл оюун ухаан нь хүчирхийлэлтэй, аюултай эсвэл ёс зүйгүй контент үүсгэж болзошгүй. Контентыг зохицуулах бодлого зайлшгүй шаардлагатай.
Оюуны өмчийн асуудал - Зохиогчийн эрхээр хамгаалагдсан өгөгдөлд зөвшөөрөлгүйгээр сургалт явуулах нь үүсмэл бүтээлийн талаархи хууль эрх зүйн асуудлыг үүсгэдэг. Өгөгдлийн лицензийг анхааралтай авч үзэх шаардлагатай.

OpenAI нь Sora-г олон нийтэд түгээхдээ эдгээр асуудлуудад маш болгоомжтой хандах хэрэгтэй болно. Ерөнхийдөө Сора нь бүтээлч байдал, дүрслэл, зугаа цэнгэл болон бусад зүйлд зориулагдсан гайхалтай хүчирхэг хэрэгсэл юм.

Видео үеийн AI-ийн ирээдүй

Сора дүрс бичлэгийн хиймэл оюун ухаанд гайхалтай дэвшил гарахыг харуулж байна. Энэхүү технологи нь хурдацтай ахиц дэвшлийг үргэлжлүүлж байгаа тул зарим сонирхолтой чиглэлүүд энд байна:

Илүү урт хугацааны дээж – Загвар өмсөгчид удалгүй уялдаа холбоог хадгалахын зэрэгцээ минутын оронд хэдэн цаг видео үүсгэх боломжтой болно. Энэ нь боломжит програмуудыг ихээхэн өргөжүүлдэг.
Орон зайн цагийн бүрэн хяналт – Текст болон зургаас гадна хэрэглэгчид видеоны далд орон зайг шууд удирдаж, видео засварлах хүчирхэг чадварыг идэвхжүүлдэг.
Хянах боломжтой симуляци – Сора гэх мэт загварууд нь текстийн сануулга болон харилцан үйлчлэлээр дамжуулан дуурайсан ертөнцийг удирдах боломжийг олгодог.
Хувийн болгосон видео – Хиймэл оюун ухаан нь тухайн үзэгчид эсвэл контекстэд зориулан тусгайлан тохируулсан видео контент үүсгэх боломжтой.
Multimodal fusion – Хэл, аудио, видео зэрэг аргуудыг илүү нягт уялдуулах нь холимог хэвлэл мэдээллийн өндөр интерактив туршлагыг бий болгож чадна.
Тусгай домэйнууд – Домэйн тусгай видео загварууд нь эмнэлгийн дүрслэл, үйлдвэрлэлийн хяналт, тоглоомын хөдөлгүүр гэх мэт тусгайлан тохируулсан программуудад илүү сайн ажиллах боломжтой.

Дүгнэлт

Хамтран Сора, OpenAI нь өнгөрсөн жил л гэхэд хэдэн арван жилийн өмнө байсан юм шиг чадвараа харуулсан хиймэл хиймэл оюун ухаанд асар том үсрэлт хийсэн. Нээлттэй сорилтуудыг шийдвэрлэх ажил хэвээр байгаа ч Сорагийн давуу тал нь энэхүү технологи нь хэзээ нэгэн цагт хүний харааны төсөөллийг асар их хэмжээгээр дуурайж, өргөжүүлэх асар их боломжийг харуулж байна.

DeepMind, Google, Meta болон бусад бусад загварууд ч энэ орон зайд хил хязгаарыг үргэлжлүүлэх болно. Хиймэл оюун ухаанаар бүтээсэн видеоны ирээдүй гайхалтай гэрэл гэгээтэй харагдаж байна. Энэхүү технологи нь ирэх жилүүдэд бүтээлч боломжуудыг өргөжүүлж, гайхалтай ашигтай хэрэглээг олж авахын зэрэгцээ эрсдэлийг бууруулахын тулд ухаалаг засаглалыг шаарддаг.

Sora зэрэг видео бүтээх загварууд нь боломжтой зүйлд шинэ боломжуудыг нээж өгдөг тул хиймэл оюун ухаан хөгжүүлэгчид болон дадлагажигч нарын хувьд сэтгэл хөдөлгөм цаг үе юм. Эдгээр дэвшил нь хэвлэл мэдээлэл, зугаа цэнгэл, симуляци, дүрслэл болон бусад зүйлд үзүүлэх нөлөөлөл дөнгөж эхэлж байна.

Дараа хүртэл

Бид 5 жилийн дотор AGI-д хүрч чадах уу? NVIDIA-ийн гүйцэтгэх захирал Женсен Хуан үүнийг боломжтой гэж үзэж байна

Бүү саад бол

Gemini 1.5-ийг судлах нь: Google-ийн хамгийн сүүлийн үеийн олон талт хиймэл оюун ухаант загвар нь хиймэл оюун ухааны ландшафтыг өмнөх хувилбараасаа хэрхэн дээшлүүлж байна вэ?

Аюуш Миттал

Би сүүлийн таван жилийг Machine Learning болон Deep Learning хэмээх гайхалтай ертөнцөд шимтэн өнгөрүүлэхэд зарцуулсан. Миний хүсэл тэмүүлэл, туршлага намайг AI/ML-д онцгойлон анхаарч, 50 гаруй төрлийн програм хангамжийн инженерийн төсөлд хувь нэмрээ оруулахад хүргэсэн. Миний байнгын сониуч зан намайг цаашид судлахыг хүсч буй Байгалийн хэлний боловсруулалт руу татсан.