Хиймэл оюун

AI дахь тархалтын загварууд - Таны мэдэх ёстой бүх зүйл

Нийтэлсэн

1 жилийн өмнө

Гуравдугаар сарын 31, 2023

AI дүрс үүсгэгч ашиглан бүтээсэн хүний царайны эвлүүлэг

AI экосистемд тархалтын загварууд нь технологийн дэвшлийн чиглэл, хурдыг тогтоож байна. Тэд бидний цогц арга барилд хувьсгал хийж байна үүсгэгч AI даалгавар. Эдгээр загварууд нь гауссын зарчим, дисперс, дифференциал тэгшитгэл, үүсгэгч дарааллын математик дээр суурилдаг. (Бид техникийн хэллэгийг доор тайлбарлах болно)

Nvidia, Google, Adobe, OpenAI нарын боловсруулсан хиймэл оюун ухаанд суурилсан орчин үеийн бүтээгдэхүүн, шийдлүүд нь тархалтын загваруудыг олны анхаарлын төвд оруулав. DALL.E 2, Тогтвортой тархалтБолон Замын дунд Сүүлийн үед интернетээр эргэлдэж байгаа диффузийн загваруудын тод жишээнүүд юм. Хэрэглэгчид оролт болгон энгийн текстийн сануулга өгдөг бөгөөд эдгээр загварууд нь тэдгээрийг доор үзүүлсэн шиг бодит зураг болгон хувиргах боломжтой.

Оролтын сануулгыг ашиглан Midjourney v5 ашиглан үүсгэсэн зураг: эрч хүчтэй Калифорнийн намуу. Эх сурвалж: Замын дунд

Тархалтын загваруудын ажиллах үндсэн зарчмууд болон тэдгээр нь өнөөгийн бидний харж байгаагаар дэлхийн чиглэл, хэм хэмжээг хэрхэн өөрчилж байгааг судалж үзье.

Диффузын загвар гэж юу вэ?

Судалгааны нийтлэлийн дагуу "Denoising диффузийн магадлалын загварууд"," тархалтын загваруудыг дараах байдлаар тодорхойлно.

"Диффузийн загвар эсвэл магадлалын тархалтын загвар нь хязгаарлагдмал хугацааны дараа өгөгдөлд тохирсон дээжийг гаргахын тулд вариацын дүгнэлтийг ашиглан сургагдсан параметржүүлсэн Марковын гинжин хэлхээ юм."

Энгийнээр хэлбэл, тархалтын загварууд нь сургагдсантай ижил төстэй өгөгдлийг үүсгэж чаддаг. Хэрэв загвар өмсөгч муурны зураг дээр сургах юм бол муурны ижил төстэй бодит дүр төрхийг бий болгож чадна.

Одоо дээр дурдсан техникийн тодорхойлолтыг задлахыг хичээцгээе. Тархалтын загварууд нь хөрөнгийн зах зээлийн өгөөж эсвэл тахлын тархалтыг урьдчилан таамаглах гэх мэт цаг хугацааны явцад өөрчлөгддөг системийн зан төлөвт дүн шинжилгээ хийж, урьдчилан таамаглах боломжтой магадлалын загварын ажлын зарчим, математик үндэслэлээс санаа авдаг.

Тодорхойлолт нь эдгээр нь вариацын дүгнэлтээр бэлтгэгдсэн параметржүүлсэн Марковын гинж юм. Марковын хэлхээ нь цаг хугацааны явцад янз бүрийн төлөвүүдийн хооронд шилжих системийг тодорхойлдог математик загварууд юм. Системийн одоо байгаа төлөв нь зөвхөн тодорхой төлөвт шилжих магадлалыг тодорхойлж чадна. Өөрөөр хэлбэл, системийн одоогийн төлөв нь тухайн систем ямар ч үед дагаж, олж авах боломжтой төлөвүүдийг агуулна.

Вариацын дүгнэлтийг ашиглан загварыг сургах нь магадлалын тархалтын нарийн төвөгтэй тооцоог агуулдаг. Энэ нь тодорхой хугацааны дараа ажиглагдсан (мэдэгдэж байгаа эсвэл бодит) өгөгдөлтэй тохирох Марковын гинжин хэлхээний нарийн параметрүүдийг олох зорилготой юм. Энэ процесс нь урьдчилан таамагласан (үл мэдэгдэх) болон ажиглагдсан (мэдэгдэж байгаа) төлөвийн хоорондох ялгаа болох загварын алдагдлын функцийн утгыг багасгадаг.

Сургалтанд хамрагдсаны дараа загвар нь ажиглагдсан өгөгдөлд тохирсон дээжийг үүсгэж болно. Эдгээр дээжүүд нь боломжит замналыг илэрхийлдэг, эсвэл систем нь цаг хугацааны явцад дагаж, олж авч болох төлөвийг илэрхийлдэг бөгөөд траектор бүр өөр өөр тохиолдох магадлалтай байдаг. Тиймээс загвар нь олон тооны дээжийг гаргаж, тэдгээрийн магадлалыг (эдгээр үйл явдал болох магадлал) олох замаар системийн ирээдүйн үйл ажиллагааг урьдчилан таамаглах боломжтой.

AI дахь диффузын загварыг хэрхэн тайлбарлах вэ?

Тархалтын загварууд нь бэлэн байгаа сургалтын өгөгдөлд шуугиан (Гаусын дуу чимээ) нэмж (мөн урагш тархах процесс гэж нэрлэдэг) дараа нь өгөгдлийг сэргээхийн тулд процессыг буцаах (denoising эсвэл урвуу тархалтын процесс гэж нэрлэдэг) ажилладаг гүн үүсгэгч загварууд юм. Загвар нь аажим аажмаар дуу чимээг арилгахад суралцдаг. Энэхүү сурсан шуугиан тайлах үйл явц нь доорх зурагт үзүүлсэн шиг санамсаргүй үрээс (санамсаргүй шуугиантай зургууд) шинэ, өндөр чанартай зураг үүсгэдэг.

Урвуу тархалтын процесс: Сургагдсан тархалтын загвараар дамжуулан анхны дүрсийг сэргээх (эсвэл түүний өөрчлөлтийг үүсгэх) тулд чимээ шуугиантай дүрсийг сааруулдаг. Эх сурвалж: Denoising диффузийн магадлалын загварууд

Тархалтын загварын 3 ангилал

байдаг гурван үндсэн математикийн хүрээ Энэ нь диффузийн загваруудын цаадах шинжлэх ухааны үндэс суурь юм. Гурвуулаа дуу чимээ нэмж, дараа нь шинэ дээж үүсгэхийн тулд түүнийг арилгах ижил зарчим дээр ажилладаг. Тэдгээрийн талаар доор ярилцъя.

Диффузын загвар нь зураг дээрх дуу чимээг нэмж, арилгадаг. Эх сурвалж: Алсын хараа дахь диффузын загварууд: Судалгаа

1. Диффузын магадлалын загвар (DDPMs)

Дээр тайлбарласны дагуу DDPM нь визуал болон аудио өгөгдлөөс дуу чимээг арилгахад голчлон ашигладаг үүсгэгч загварууд юм. Тэд янз бүрийн зураг, дуу чимээг арилгах даалгаврууд дээр гайхалтай үр дүнг харуулсан. Жишээлбэл, кино үйлдвэрлэлийн салбар нь үйлдвэрлэлийн чанарыг сайжруулахын тулд орчин үеийн зураг, видео боловсруулах хэрэгслийг ашигладаг.

2. Дуу чимээний нөхцөлт оноонд суурилсан үүсгэгч загварууд (SGMs)

SGM нь өгөгдсөн тархалтаас шинэ дээж үүсгэж болно. Тэд зорилтот тархалтын бүртгэлийн нягтыг тооцоолж болох үнэлгээний онооны функцийг сурах замаар ажилладаг. Бүртгэлийн нягтын тооцоолол нь боломжтой өгөгдлийн цэгүүдэд үл мэдэгдэх өгөгдлийн багцын (туршилтын багц) нэг хэсэг гэсэн таамаглалыг гаргадаг. Энэ онооны функц нь тархалтаас шинэ өгөгдлийн цэгүүдийг үүсгэж болно.

Жишээлбэл, гүн хуурамч алдартай хүмүүсийн хуурамч бичлэг, аудиог үйлдвэрлэдэг гэдгээрээ алдартай. Гэхдээ тэд ихэвчлэн холбоотой байдаг Өрсөлдөөнт сүлжээ (GANs). Гэсэн хэдий ч SGM-д байдаг ижил төстэй чадавхийг харуулсан - заримдаа илүү сайн ажилладаг - өндөр чанартай алдартнуудын нүүр царайг бий болгоход. Түүнчлэн, SGM нь хатуу дүрэм журам, салбарын стандартын улмаас их хэмжээгээр олддоггүй эрүүл мэндийн мэдээллийн багцыг өргөжүүлэхэд тусалдаг.

3. Стохастик дифференциал тэгшитгэл (SDEs)

SDE нь санамсаргүй үйл явц дахь цаг хугацааны өөрчлөлтийг тодорхойлдог. Эдгээр нь зах зээлийн үр дүнд ихээхэн нөлөөлдөг санамсаргүй хүчин зүйлсийг хамарсан физик, санхүүгийн зах зээлд өргөн хэрэглэгддэг.

Жишээлбэл, бараа бүтээгдэхүүний үнэ маш динамик бөгөөд олон тооны санамсаргүй хүчин зүйлсийн нөлөөнд автдаг. SDE нь фьючерсийн гэрээ (түүхий газрын тосны гэрээ гэх мэт) санхүүгийн деривативуудыг тооцдог. Тэд аюулгүй байдлын мэдрэмжийг өгөхийн тулд хэлбэлзлийг загварчилж, таатай үнийг зөв тооцоолох боломжтой.

AI дахь диффузын загваруудын гол хэрэглээ

AI дахь тархалтын загваруудын өргөн хэрэглэгддэг дадлага, хэрэглээг харцгаая.

Өндөр чанартай видео үүсгэх

ашиглан дээд зэрэглэлийн видео бүтээх гүн гүнзгий суралцах Энэ нь видео фрэймийн өндөр тасралтгүй байдлыг шаарддаг тул хэцүү байдаг. Энд диффузийн загварууд нь дутуу фреймүүдийг нөхөхийн тулд хэд хэдэн видео фрэймүүдийг үүсгэж, хоцрогдолгүй өндөр чанартай, жигд видеонуудыг гаргах боломжтой байдаг.

Судлаачид боловсруулсан Уян хатан диффузын загвар ба үлдэгдэл видео тархалт Энэ зорилгод үйлчлэх техник. Эдгээр загварууд нь бодит фреймүүдийн хооронд хиймэл оюун ухаанаар үүсгэсэн фрэймүүдийг саадгүй нэмж бодитой видеог бүтээх боломжтой.

Эдгээр загварууд нь боломжит фрэймүүдийн хэв маягийг сурсны дараа дамми фреймүүдийг нэмснээр бага FPS видеоны FPS (секундэд фрэйм)-ийг нэмэгдүүлэх боломжтой. Бараг ямар ч хүрээ алдагдуулахгүйгээр эдгээр фрэймворкүүд нь гүнзгий суралцахад суурилсан загваруудад өндөр чанартай камерын тохиргооноос авсан байгалийн зураг шиг харагдах хиймэл оюун ухаанд суурилсан видеог эхнээс нь үүсгэхэд туслах болно.

Өргөн хүрээний гайхалтай AI видео генераторууд видео контент үйлдвэрлэх, засварлах ажлыг хурдан бөгөөд хялбар болгох үүднээс 2023 онд ашиглах боломжтой.

Текстээс зураг үүсгэх

Текстээс дүрстэй загварууд нь өндөр чанартай зураг үүсгэхийн тулд оролтын сануулгыг ашигладаг. Жишээлбэл, "хавган дээрх улаан алим" гэсэн мэдээлэл өгөх, тавган дээрх алимны фото бодит дүр төрхийг гаргах. Холимог тархалт болон тайлах Хэрэглэгчийн оруулсан мэдээлэлд тулгуурлан өндөр хамааралтай, үнэн зөв зураг үүсгэж чаддаг ийм загваруудын хоёр тод жишээ юм.

Мөн OpenAI-ийн GLIDE нь 2021 онд гаргасан өөр нэг алдартай шийдэл бөгөөд хэрэглэгчийн оруулсан мэдээллийг ашиглан фото бодит зураг гаргадаг. Хожим нь OpenAI DALL.E-2-г гаргасан бөгөөд түүний хамгийн дэвшилтэт зураг үүсгэх загвар.

Үүний нэгэн адил Google нь зураг үүсгэх загварыг боловсруулсан Imagen, энэ нь оролтын текстийн талаар гүн гүнзгий текстийн ойлголтыг хөгжүүлэхийн тулд том хэлний загварыг ашигладаг бөгөөд дараа нь фото бодит зураг үүсгэдэг.

Midjourney болон Stable Diffusion (Stable Diffusion) зэрэг бусад алдартай зураг үүсгэх хэрэгслүүдийг бид дурьдсан.мөрөөдлийн студи) дээр. Тогтвортой тархалтыг ашиглан бүтээсэн зургийг доороос харна уу.

Stable Diffusion 1.5 ашиглан бүтээсэн хүний нүүрний эвлүүлэг

"Тогтвортой тархалт 1.5"-ын тусламжтайгаар дараах командыг ашиглан бүтээсэн зураг: "Эхлүүлэг, хэт бодитой, маш эртний Том Йоркийн хөрөг зураг, царайны хувилбарууд, дуучин-дуу зохиогч, (хажуу ) профайл, янз бүрийн нас, макро линз, хязгаарын орон зай, by Ли Бермежо, Альфонс Мука, Грег Рутковский, саарал сахал, толигор царай, хацрын яс”

AI дахь тархалтын загварууд - Ирээдүйд юу хүлээж байна вэ?

Тархалтын загварууд нь нарийн төвөгтэй зураг, видео өгөгдлийн багцаас өндөр чанартай дээжийг бий болгох найдвартай арга болох ирээдүйтэй боломжуудыг илрүүлсэн. Хүний өгөгдлийг ашиглах, удирдах чадварыг сайжруулснаар тархалтын загвар нь өнөөгийн бидний харж буй дэлхийг өөрчлөх боломжтой. Бидний өдөр тутмын амьдралын салшгүй хэсэг болох диффузийн загваруудын хэрэглээ улам бүр нэмэгдэнэ гэж бид найдаж болно.

Үүнийг хэлэхэд диффузийн загварууд нь хиймэл оюун ухааны цорын ганц үүсгэгч техник биш юм. Судлаачид мөн Generative Adversarial Networks (GANs), Variational ашигладаг Автомат кодлогч, мөн AI контент үүсгэх урсгалд суурилсан гүн үүсгэгч загварууд. Тархалтын загварыг бусад үүсгэгч загвараас ялгах үндсэн шинж чанаруудыг ойлгох нь ойрын өдрүүдэд илүү үр дүнтэй шийдлийг гаргахад тусална.

AI-д суурилсан технологийн талаар илүү ихийг мэдэхийг хүсвэл зочилно уу Unite.ai. Хиймэл оюуны үүсгүүрийн хэрэгслүүдийн талаарх бидний бэлтгэсэн эх сурвалжуудыг доороос үзнэ үү.