Вештачка интелигенција
Моделот за дифузија eDiffi на NVIDIA дозволува „сликање со зборови“ и повеќе
Обид за правење прецизни композиции со латентна дифузија генеративни модели на слики како што се Стабилна дифузија може да биде како овчарење мачки; истата имагинативна и интерпретативна моќ која му овозможува на системот да создаде извонредни детали и да собира извонредни слики од релативно едноставни текстуални поттикнувања, исто така. тешко да се исклучи кога барате контрола на ниво на Photoshop врз генерација на слики.
Сега, нов пристап од истражувањето на NVIDIA, насловен ансамбл дифузија за слики (eDiffi), користи мешавина од повеќе методи за вградување и толкување (наместо ист метод низ целиот цевковод) за да овозможи далеку поголемо ниво на контрола врз генерираната содржина. Во примерот подолу, гледаме корисник кој слика елементи каде што секоја боја претставува еден збор од текстуално известување:
Ефективно ова е „сликање со маски“ и го менува inсликарска парадигма во Стабилна дифузија, која се заснова на фиксирање на скршени или незадоволителни слики или продолжување на слики што може да ја имаат саканата големина на прво место.
Овде, наместо тоа, маргините на насликаната обвивка ги претставуваат дозволените приближни граници на само еден единствен елемент од еден концепт, дозволувајќи му на корисникот да ја постави конечната големина на платно од самиот почеток, а потоа дискретно да додава елементи.
Разновидните методи употребени во eDiffi, исто така, значат дека системот прави многу подобра работа со вклучување на секој елемент во долги и детални потсетници, додека Stable Diffusion и DALL-E 2 на OpenAI имаат тенденција да даваат приоритет на одредени делови од пораката, во зависност од тоа колку рано целните зборови се појавуваат во промптот, или на други фактори, како што е потенцијалната тешкотија во раздвојувањето на различните елементи неопходни за комплетен, но сеопфатен (во однос на текстуалната порака) состав:
Дополнително, употребата на посветен T5 енкодер од текст-во-текст значи дека eDiffi е способен да прикажува разбирлив англиски текст, или апстрактно побаран од промпт (т.е. сликата содржи текст од [x]) или експлицитно побарано (т.е на маицата пишува „Nvidia Rocks“):
Дополнително надополнување на новата рамка е тоа што е можно и да се обезбеди една слика како стилско барање, наместо да треба да се обучи модел на DreamBooth или текстуално вградување на повеќе примери на жанр или стил.
на нова хартија е насловен eDiffi: Модели за дифузија од текст во слика со ансамбл од стручни деноизери, и
Текст енкодер T5
Употребата на ТТрансформатор за пренос од текст во текст (T5) е клучниот елемент во подобрените резултати прикажани во eDiffi. Просечниот латентен цевковод за дифузија се фокусира на поврзаноста помеѓу обучените слики и натписите што ги придружувале кога биле бришени од интернет (или на друго место рачно приспособени подоцна, иако ова е скапа и затоа ретка интервенција).
Со преформулирање на изворниот текст и извршување на модулот T5, може да се добијат поточни асоцијации и претстави отколку што беа обучени за моделот првично, речиси слично на пост факт рачно означување, со поголема специфичност и применливост на одредбите на бараниот текст-промпт.
Авторите објаснуваат:
„Во повеќето постојни дела на моделите за дифузија, моделот за отстранување на шум се дели на сите нивоа на бучава, а временската динамика е претставена со користење на едноставно временско вградување што се внесува во моделот за отстранување на шум преку мрежа MLP. Ние тврдиме дека сложената временска динамика на дифузијата на обезгласување не може да се научи од податоците ефективно користејќи заеднички модел со ограничен капацитет.
„Наместо тоа, ние предлагаме да го зголемиме капацитетот на моделот за обезгласување со воведување ансамбл од стручни деноизатори; секој стручен деноизер е модел за отстранување на шум специјализиран за одреден опсег на бучава [нивоа]. На овој начин, можеме да го зголемиме капацитетот на моделот без да го забавиме земање примероци бидејќи пресметковната сложеност на евалуацијата на [обработениот елемент] на секое ниво на бучава останува иста.'
Постојните CLIP модулите за кодирање вклучени во DALL-E 2 и Stable Diffusion исто така се способни да најдат алтернативни интерпретации на слики за текст поврзан со внесување на корисникот. Сепак, тие се обучени за слични информации на оригиналниот модел и не се користат како посебен интерпретативен слој на начинот на кој T5 е во eDiffi.
Авторите наведуваат дека eDiffi е прв пат кога и T5 и CLIP енкодерот се вградени во една цевка:
„Бидејќи овие два енкодери се обучени со различни цели, нивните вградувања фаворизираат формирање на различни слики со ист влезен текст. Додека вградувањето на текст CLIP помага да се одреди глобалниот изглед на генерираните слики, излезите имаат тенденција да ги пропуштат ситно-гранулираните детали во текстот.
Спротивно на тоа, сликите генерирани само со вградување текст T5 подобро ги рефлектираат поединечните објекти опишани во текстот, но нивниот глобален изглед е помалку прецизен. Нивната заедничка употреба дава најдобри резултати за генерирање на слики во нашиот модел.'
Прекинување и зголемување на процесот на дифузија
Весникот забележува дека типичен модел на латентна дифузија ќе го започне патувањето од чиста бучава до слика, потпирајќи се само на текстот во раните фази на генерацијата.
Кога бучавата се разрешува во некој вид груб распоред што го претставува описот во текстуалното известување, текстуално водениот аспект на процесот суштински се намалува, а остатокот од процесот се префрла кон зголемување на визуелните карактеристики.
Ова значи дека секој елемент што не бил решен во фазата на зачеток на интерпретација на бучавата водена од текст е тешко да се вбризга во сликата подоцна, бидејќи двата процеси (текст во распоред и распоред до слика) имаат релативно мало преклопување. , а основниот распоред е прилично заплетен до моментот кога ќе пристигне во процесот на зголемување на сликата.
Професионален потенцијал
Примерите на страницата на проектот и видеото на YouTube се фокусираат на генерирање пријатни за односи со јавноста на меме-тастични слатки слики. Како и обично, истражувањето на NVIDIA го намалува потенцијалот на нејзината најнова иновација за подобрување на фотореалистичните или VFX работните текови, како и нејзиниот потенцијал за подобрување на длабоките лажни слики и видео.
Во примерите, корисник почетник или аматер чкртал груби контури на поставеноста за конкретниот елемент, додека во посистематски VFX работен тек, би можело да биде можно да се користи eDiffi за интерпретација на повеќе рамки на видео елемент користејќи текст-на-слика, при што Контурите се многу прецизни и се засноваат на, на пример, бројки каде што позадината е исфрлена преку зелен екран или алгоритамски методи.
Користење на обучен штанд за соништа карактер и линија од слика-на-слика со eDiffi, потенцијално е можно да се започне да се забива еден од бубачките на било модел на латентна дифузија: временска стабилност. Во таков случај, и маргините на наметнатата слика и содржината на сликата би биле „претпловирани“ на корисничкото платно, со временски континуитет на прикажаната содржина (т.е. претворање на таи чи практикант од реалниот свет во робот ) обезбедено со употреба на заклучен модел DreamBooth кој ги „запамтил“ своите податоци за обука - лоши за интерпретабилност, одличен за репродуктивност, верност и континуитет.
Метод, податоци и тестови
Во трудот се наведува дека моделот eDiffi бил обучен за „збирка од јавни и сопственички збирки на податоци“, силно филтрирани со претходно обучен CLIP модел, со цел да се отстранат сликите кои веројатно ќе го намалат општиот естетски резултат на излезот. Конечниот сет на филтрирани слики се состои од „околу една милијарда“ парови текст-слика. Големината на обучените слики е опишана како со „најкратката страна поголема од 64 пиксели“.
Голем број модели беа обучени за процесот, при што беа обучени и основните и моделите со супер-резолуција АдамВ оптимизатор со брзина на учење од 0.0001, со распаѓање на тежината од 0.01 и со огромна големина на серија од 2048 година.
Основниот модел беше обучен на 256 графички процесори NVIDIA A100, а двата модели со супер резолуција на 128 NVIDIA A100 графички процесори за секој модел.
Системот беше заснован на сопствениот NVIDIA Замислен Библиотека PyTorch. COCO и збирките на податоци за визуелен геном беа користени за евалуација, иако не беа вклучени во конечните модели, со MS-COCO специфичната варијанта што се користи за тестирање. Беа тестирани ривалските системи ГЛИДА, Направете-а-сцена, ДАЛ-Е2, Стабилна дифузијаи двата системи за синтеза на слики на Google, Сликата Забава.
Во согласност со слично пред работи, нула-шут FID-30K беше искористена како метрика за евалуација. Под FID-30K, 30,000 титли се извлекуваат по случаен избор од множеството за валидација на COCO (т.е. не сликите или текстот што се користеше на обуката), кои потоа беа користени како текстуални поттикнувања за синтетизирање слики.
Почетното растојание Фреше (ФИД) потоа беше пресметана помеѓу генерираните и приземјените вистинитости слики, покрај снимањето на CLIP резултатот за генерираните слики.
Во резултатите, eDiffi успеа да го добие најнискиот (најдобар) резултат на FID со нула истрели дури и против системи со далеку поголем број параметри, како што се 20 милијарди параметри на Parti, во споредба со 9.1 милијарди параметри во највисоките specced eDiffi модел обучен за тестовите.
Заклучок
eDiffi на NVIDIA претставува добредојдена алтернатива за едноставно додавање на поголеми и поголеми количини на податоци и сложеност на постоечките системи, наместо да користи поинтелигентен и повеќеслоен пристап кон некои од најтешките пречки поврзани со заплеткување и неуредување во системите за генерирање на слики со латентна дифузија.
Веќе има дискусија на подредитите за стабилна дифузија и несогласувања за директно вклучување на кој било код што може да биде достапен за eDiffi, или на друго место, повторно поставување на принципите зад него во посебна имплементација. Меѓутоа, новиот гасовод е толку радикално различен, што би претставувал цел број на промени во верзијата за SD, отфрлајќи одредена компатибилност наназад, иако нуди можност за значително подобрени нивоа на контрола врз финалните синтетизирани слики, без жртвување на волшебната имагинативни моќи на латентна дифузија.
Прво објавено на 3 ноември 2022 година.