Изкуствен интелект

Дифузионни модели в AI – всичко, което трябва да знаете

Публикуван

Преди 1 година

Март 31, 2023

Колаж от човешки лица, създаден с помощта на AI генератор на изображения

В екосистемата на AI дифузионните модели определят посоката и темпото на технологичния напредък. Те революционизират начина, по който подхождаме комплексно генеративен AI задачи. Тези модели се основават на математиката на принципите на Гаус, дисперсията, диференциалните уравнения и генеративните последователности. (Ще обясним техническия жаргон по-долу)

Съвременните продукти и решения, ориентирани към AI, разработени от Nvidia, Google, Adobe и OpenAI, поставиха дифузионните модели в центъра на вниманието. DALL.E 2, Стабилна дифузия, и По средата на пътуването са видни примери за дифузионни модели, които напоследък обикалят интернет. Потребителите предоставят проста текстова подкана като вход и тези модели могат да ги конвертират в реалистични изображения, като това, показано по-долу.

Изображение, генерирано с Midjourney v5 с помощта на подкана за въвеждане: живи калифорнийски макове. източник: По средата на пътуването

Нека проучим основните принципи на работа на дифузионните модели и как те променят посоките и нормите на света, както го виждаме днес.

Какво представляват дифузионните модели?

Според изследователската публикация „Вероятностни модели за премахване на шума при дифузия”, дифузионните модели се дефинират като:

„Дифузионен модел или вероятностен дифузионен модел е параметризирана верига на Марков, обучена с помощта на вариационен извод за получаване на проби, съответстващи на данните след крайно време“

Просто казано, дифузионните модели могат да генерират данни, подобни на тези, на които са обучени. Ако моделът тренира върху изображения на котки, той може да генерира подобни реалистични изображения на котки.

Сега нека се опитаме да разбием техническото определение, споменато по-горе. Моделите на дифузия се вдъхновяват от принципа на работа и математическата основа на вероятностен модел, който може да анализира и прогнозира поведението на системата, което варира с времето, като например прогнозиране на възвръщаемостта на фондовия пазар или разпространението на пандемията.

Дефиницията гласи, че те са параметризирани вериги на Марков, обучени с вариационен извод. Веригите на Марков са математически модели, които дефинират система, която превключва между различни състояния във времето. Съществуващото състояние на системата може да определи само вероятността за преминаване към определено състояние. С други думи, текущото състояние на системата съдържа възможните състояния, които системата може да следва или придобие във всеки даден момент.

Обучението на модела с помощта на вариационен извод включва сложни изчисления за вероятностни разпределения. Тя има за цел да намери точните параметри на веригата на Марков, които съответстват на наблюдаваните (известни или действителни) данни след определено време. Този процес минимизира стойността на функцията на загуба на модела, която е разликата между прогнозираното (неизвестно) и наблюдаваното (известно) състояние.

Веднъж обучен, моделът може да генерира проби, съответстващи на наблюдаваните данни. Тези проби представляват възможни траектории или посочват, че системата може да следва или придобие с течение на времето, и всяка траектория има различна вероятност да се случи. Следователно моделът може да предскаже бъдещото поведение на системата чрез генериране на набор от проби и намиране на съответните им вероятности (вероятността тези събития да се случат).

Как да интерпретираме дифузионни модели в AI?

Дифузионните модели са дълбоки генеративни модели, които работят чрез добавяне на шум (гаусов шум) към наличните данни за обучение (известен също като процес на дифузия напред) и след това обръщане на процеса (известен като премахване на шума или процес на обратна дифузия), за да се възстановят данните. Моделът постепенно се научава да премахва шума. Този научен процес на премахване на шума генерира нови, висококачествени изображения от произволни семена (случайни изображения с шум), както е показано на илюстрацията по-долу.

Процес на обратна дифузия: Шумно изображение се обезшумява, за да се възстанови оригиналното изображение (или да се генерират негови варианти) чрез обучен модел на дифузия. източник: Вероятностни модели за премахване на шума при дифузия

3 категории дифузионни модели

Има три основни математически рамки които са в основата на науката зад дифузионните модели. И трите работят на едни и същи принципи на добавяне на шум и след това премахването му, за да генерират нови проби. Нека ги обсъдим по-долу.

Модел на дифузия добавя и премахва шум от изображение. източник: Дифузионни модели във Vision: Анкета

1. Вероятностни модели за намаляване на шума на дифузията (DDPM)

Както е обяснено по-горе, DDPM са генеративни модели, използвани главно за премахване на шум от визуални или аудио данни. Те показаха впечатляващи резултати при различни задачи за обезшумяване на изображения и аудио. Например филмовата индустрия използва модерни инструменти за обработка на изображения и видео, за да подобри качеството на продукцията.

2. Обусловени от шум генеративни модели, базирани на резултати (SGM)

SGM могат да генерират нови проби от дадено разпространение. Те работят, като научават функция за оценка на резултата, която може да оцени плътността на журнала на целевото разпределение. Оценката на плътността на регистрационния файл прави предположения за наличните точки от данни, че са част от неизвестен набор от данни (тестов набор). След това тази функция за оценка може да генерира нови точки от данни от разпределението.

Така например, дълбоки фалшификати са известни с производството на фалшиви видеоклипове и аудиозаписи на известни личности. Но те се приписват най-вече на Генеративни състезателни мрежи (GAN). SGMs обаче имат показа сходни способности – понякога превъзхожда – в генерирането на висококачествени лица на знаменитости. Освен това SGM могат да помогнат за разширяване на наборите от данни за здравеопазването, които не са лесно достъпни в големи количества поради строгите разпоредби и индустриалните стандарти.

3. Стохастични диференциални уравнения (SDE)

SDE описват промените в случайни процеси по отношение на времето. Те се използват широко във физиката и финансовите пазари, включващи случайни фактори, които значително влияят на пазарните резултати.

Например, цените на стоките са силно динамични и се влияят от набор от случайни фактори. SDE изчисляват финансови деривати като фючърсни договори (като договори за суров петрол). Те могат да моделират колебанията и да изчислят точно изгодните цени, за да дадат усещане за сигурност.

Основни приложения на дифузионните модели в AI

Нека да разгледаме някои широко адаптирани практики и употреби на дифузионни модели в AI.

Генериране на висококачествено видео

Създаване на видеоклипове от висок клас с помощта на дълбоко учене е предизвикателство, тъй като изисква висока непрекъснатост на видео кадрите. Това е мястото, където дифузионните модели са полезни, тъй като те могат да генерират подмножество от видео кадри, за да запълнят липсващите кадри, което води до висококачествени и гладки видеоклипове без забавяне.

Изследователите са разработили Модел на гъвкава дифузия и остатъчна видео дифузия техники, които да служат на тази цел. Тези модели могат също да произвеждат реалистични видеоклипове чрез безпроблемно добавяне на генерирани от AI кадри между действителните кадри.

Тези модели могат просто да разширят FPS (кадъра в секунда) на видео с нисък FPS чрез добавяне на фиктивни кадри след изучаване на моделите от наличните кадри. Без почти никаква загуба на кадри, тези рамки могат допълнително да помогнат на моделите, базирани на задълбочено обучение, да генерират от нулата базирани на AI видеоклипове, които изглеждат като естествени кадри от настройки на камери от висок клас.

Богата гама от забележителни AI видео генератори е наличен през 2023 г., за да направи производството и редактирането на видео съдържание бързо и лесно.

Генериране на текст към изображение

Моделите текст към изображение използват подкани за въвеждане, за да генерират висококачествени изображения. Например въвеждане на „червена ябълка в чиния“ и създаване на фотореалистично изображение на ябълка в чиния. Смесена дифузия намлява unCLIP са два видни примера за такива модели, които могат да генерират изключително подходящи и точни изображения въз основа на въведени от потребителя данни.

Така че, GLIDE от OpenAI е друго широко известно решение, пуснато през 2021 г., което създава фотореалистични изображения, използвайки въвеждане от потребителя. По-късно OpenAI пусна DALL.E-2, своя най-напреднал модел за генериране на изображения досега.

По подобен начин Google разработи модел за генериране на изображения, известен като Изображение, който използва голям езиков модел, за да развие дълбоко текстово разбиране на въведения текст и след това генерира фотореалистични изображения.

Споменахме други популярни инструменти за генериране на изображения като Midjourney и Stable Diffusion (мечтано студио) по-горе. Погледнете изображение, генерирано с помощта на стабилна дифузия по-долу.

Колаж от човешки лица, създаден със Stable Diffusion 1.5

Изображение, създадено със Stable Diffusion 1.5, като се използва следната подкана: „колажи, хиперреалистични, много вариации, портрет на много стар том йорк, вариации на лицето, певец-композитор, ( страничен ) профил, различни възрасти, макро обектив, лиминално пространство, от Лий Бермехо, Алфонс Муча и Грег Рутковски, сива брада, гладко лице, скули”

Дифузионни модели в AI – какво да очакваме в бъдеще?

Дифузионните модели разкриха обещаващ потенциал като стабилен подход за генериране на висококачествени проби от сложни масиви от изображения и видео данни. Чрез подобряване на човешката способност да използва и манипулира данни, дифузионните модели могат потенциално да революционизират света, какъвто го виждаме днес. Можем да очакваме още повече приложения на дифузионни модели да станат неразделна част от нашето ежедневие.

Като каза това, дифузионните модели не са единствената генеративна AI техника. Изследователите също използват генеративни състезателни мрежи (GAN), вариационни Автокодерии базирани на поток дълбоки генеративни модели за генериране на AI съдържание. Разбирането на основните характеристики, които разграничават дифузионните модели от другите генеративни модели, може да помогне за създаването на по-ефективни решения през следващите дни.

За да научите повече за базираните на AI технологии, посетете Unite.ai. Разгледайте нашите подбрани ресурси за генеративни AI инструменти по-долу.