Погляд Anderson
Чому концепційна заплутаність означає, що ви не можете мати відео AI «за вашим способом»

Інструменти відео AI обіцяють повний контроль, але прихована «концепційна заплутаність» склеює ідентичності, вирази та поведінку разом, змушуючи використовувати хитрощі та трюки з шаблонами, які розбивають миф про беззаботну магію GenAI.
Опінія Відтоді, як я востаннє детально розглянув цю тему п’ять років тому, проблема концепційної заплутаності у навчених системах AI розширилася на набагато ширшу аудиторію, не будучи зрозумілою значно краще на своїх власних умовах.
Тоді автокодувальні системи глибоких фейків (тобто вже неіснуючі DeepFaceLab і менш орієнтовані на порнографію FaceSwap, обидва похідні від дискредитованого і майже одразу забороненого коду Reddit 2017 року) були єдиною грою в місті для створення відносно фотореалістичних глибоких фейків людей.
Ці системи залежали від обширних навчальних наборів даних про обличчя, які мали надати моделі AI інформацію про А) як виглядав людина в спокої (канонічний посилання на вкладення) і Б) як виглядав під різними ситуаціями, які обличчя може відображати, від сну до сміху, жаху, нудоти, цинізму, смутку тощо.

Ідентичність не приходить окремо, а разом з виразами обличчя. Крім того, певні емоції можуть мати доступні тільки з певних, екстремальних кутів, які будуть асоціювати кут з емоцією і навпаки.
Проблема полягала в тому, що канонічна ідентичність зазвичай мала бути витягнута з захоплень обличчя, які самі по собі не були «нейтральними», так що переважна кількість посмішок і гримас отриманих при зборі даних зі.stock фотографій змістила розподіл у бік «посмішної за замовчуванням». Це було через велику кількість фотографій з червоного доріжки в веб-скуплених навчальних даних, які зазвичай інформують ці моделі, а також через будь-яку іншу підставу, чому набір даних міг бути упередженим до одного типу зображення.
Іншими словами, система автокодування мала спробувати витягти «нейтральну» концепцію ідентичності з тисяч зображень, де риси обличчя були спотворені звичайними виразами обличчя.
Це також мало спробувати роз’єднати семантичні обличчя концепцій різних емоцій від кутів, під яким були зроблені обличчя. Це означало, що якщо єдині «перелякані» вирази обличчя були зроблені з профілю, навчена система могла відтворити цю емоцію оптимально тільки з цього погляду.
Вперед
Як дифузійні підходи зайняли місце генеративних зображень (а пізніше відео) з 2022 року, генеративні системи стали значно кращими в екстраполяції точних виразів обличчя при обмежених даних про обличчя.
Дажи дуже складна задача створення переконливих профільних виглядів була майже подолана на поточному рівні розвитку, а дані про вирази були досить ефективно відокремлені від ідентичності – настільки, що вид живого глибокого фейкового маніпулювання, впроваджений автокодувальною системою DeepFaceLive, має багато ефективних офлайн-дифузійних застосунків, з реальною реалізацією, ймовірно, майбутнім розвитком:
Натисніть, щоб відіграти. З проекту «FlashPortrait» різні приклади керування аватарами через джерельне відео. У цьому випадку немає значення, на якій стороні «реалістична» область сидить, якщо сидить. Джерело
Все ж таки, оскільки полотно GenAI розширилося і вихід став більш складним, проблема заплутаності просто поширилася на інші області – і зараз «виправляється» досить дешевими і старими трюками. Якщо ви не знаєте, які це трюки, у вас може бути більш позитивне ставлення до того, як швидко відео- та зображення AI розвиваються і подолávají старі проблеми.
Балакучі коти
Надіюсь, зрозуміло, чому ідентичність і емоція виявилися важкими для роз’єднання для тих старих автокодувальних систем 2017 року. Це було тому, що а) було занадто багато даних одного типу, або надто конкретна версія одного типу важливих даних, будь-яке з яких викликає розподільчу упередженість; і/або Б) архітектура моделі не була достатньо хорошою для роз’єднання цих якостей, і схильна «склеювати їх разом» під час висновку, якщо користувач не приймав надзвичайних заходів, щоб забезпечити баланс у своєму наборі даних.
Точно з тих же причин подібні проблеми виникли в ряді відкритих і пропріетарних відеомоделей за останні кілька років, хоча вони були затінені більшим рівнем критики щодо галюцинацій, браку цензури та інших тем.
Наприклад, у системі Wan2.+ багато користувачів знайшли, що дуже важко зупинити своїх згенерованих персонажів від балакання безперестанку, і часто також важко зупинити їх дивитися на камеру.
Остання проблема (дивитися на камеру або розбивати четверту стіну) передувала появі систем синтезу відео, оскільки вона виникла в різних системах дифузії тільки зображень, через поширеність «дивитися на камеру» фотографій у веб-скуплених наборах даних, таких як LAION.
Проблема з «балакучими» персонажами походить від легкої доступності «візуальних» відео на YouTube, які природно пропонують тисячі годин прямої до об’єктива дискусії, часто кураторовані у набори даних, де дослідники можуть відмити веб-скупку, надаючи академічний контекст.
Але якщо оригінальні або наступні куратори не приймають заходів, щоб обмежити кількість відео цього типу, і збалансувати їх з іншими типами кадрів, у відеомоделі розвивається серйозна упередженість, яку потрібно буде виправити за допомогою засобів виправлення на основі промпта і різних третіх систем.
Стикаючись з проблемою «балакучості» Wan, користувач Reddit u/Several-Estimate-681 знайшов обхідний шлях, який використовує налаштування в системі Wan 2.1 Infinite Talk V2V – каркас, призначений для заохочення впливових стилів балакучості – яке дозволяє користувачеві заглушити відтвореного персонажа:
Натисніть, щоб відіграти: Просто слухайте – обхідний шлях для досягнення уваги персонажа в Wan2.+. Джерело
Чиštění такого типу не представляє собою низькорівневі архітектурні рішення, і, відсутні справжні рішення, впроваджені творцями моделей, (адже випадкові хобісти зазвичай не мають мільйонів доларів, щоб відтворити або дофінути таку роботу), це означає, що гра «заплутаності вгріб-шапку» ймовірно буде сбрасуватися до нуля при виході наступної версії.
Дешево і крихко
Нема нічого в дифузійній архітектурі, що робить ці проблеми неминучими; справді, якщо було б якийсь спосіб застосувати дуже ефективну кураторію, триаж і високоякісне підписування і анотацію до гіпермасштабних наборів даних з мільйонами даних, майже всі ці проблеми, ймовірно, зникли б.
Однак такий рівень уваги до деталей був би подібний до Манхеттенського проекту за логістикою, масштабом, необхідними ресурсами та чистим довгостроковим зусиллям. У кліматі, де нова архітектура, або навіть нова архітектура версія могла б зняти весь масштаб такого зусилля, немає поточної волі зробити такий компроміс.
Відповідно, поки це узгоджується з отриманням придатних моделей, найдешевші підходи залишаються переважними. Одним з таких прикладів «жадібності» є розширення даних, яке, якщо застосовується необмежено і до неправильних типів відеокліпів у наборі даних, може мати смішні результати:
Оскільки розширення даних часто змінює напрямок джерельних відео у наборі даних, модель AI іноді може вивчити деякі «неможливі» рухи. – Джерело
Все ж таки, загалом, камені, що котяться вгору, і люди, які розбивають характер, переходячи в «впливовий режим», схильні вважатися випадковими ушкодженнями в генеративних системах, які, попри такі постійні помилки та ахіллесові п’яти, можуть бути підштовхнуті до отримання вражаючих результатів і достатньо вражаючих заголовків.
Шаблонні рішення
На поточному етапі сотні генеративних відеодоменів, майже всі з яких якимось чином порушують новий набір законів і phảnREACTION проти GenAI, насолоджуються своїм часом у трофеї до того, як правоохоронні органи, чорні списки або інші види деактивації приберуть ці комерційні послуги.
Більші і більш відомі сайти цього типу, такі як Kling і Grok, схильні або дотримуватися певної форми самоціензури (зрештою), або реагувати на критику, змінюючи типи контенту, які їхні платформи пропонують користувачам.
Але за цими великими іменами стоять сотні інших одноденних операцій, які постійно задовольняють попит на нові (і часто більш екстремальні) види контенту.
Такий тип низькозатратного забезпечення виключає дуже високу вартість і зусилля для навчання моделей з нуля. Дуже часто навіть дофінути, яке коштує значно менше, виключено.
Отже ці сайти пропонують «шаблони», які поводяться точно так само на практиці, як кастомні LoRAs, які використовувалися хобіистами AI понад чотири роки, щоб навчати будь-яку бажану ідентичність, стиль, об’єкт і (у випадку відео LoRAs) рух або дію в окремий LoRA-додаток.
З LoRA, розташованим між користувачем і моделлю, результати, отримані будуть дуже конкретними для того, на чому була навчена LoRA, і, зазвичай, ширша продуктивність моделі підкреслюється ваговим впливом LoRA, який буде відтворювати свій власний предмет дуже добре, але також буде впроваджувати цей матеріал у будь-який запит, якщо одноденні сайти GenAI відео дозволили б такий рівень контролю – вони не роблять; вони просто пропонують [ДІЯ З ВАШОГО ВИБОРУ] шаблон і інтерпретують ваш текст/зображення/відео так, щоб найбільш ймовірно застосувати шаблон.
Для очевидних причин я не можу вбудовувати приклади сайтів у цю статтю; але література дослідження недавно запропонувала деякі аналогічні приклади. Тут, наприклад, проект EffectMaker демонструє принцип у дії, за допомогою якого певна дія застосовується до зображення, наданого користувачем:
Натисніть, щоб відіграти. У EffectMaker можна застосовувати тонко налаштовані ефекти до вхідних даних. Джерело
Дажи в цих висококураторських і націлених обставинах користувачі часто скаржаться, що потрібно зробити кілька, спалюючих токени спроб, щоб отримати хороший результат, і ми не повинні, можливо, приписувати постачальнику скупості або гострому практиці те, що є більш імовірним недоліком конгенітально «влучного» DiT GenAI-фреймворків.
Широка публіка, можна сказати, отримує своє враження про можливості GenAI з вибирають прикладів, які не є репрезентативними для того, що міг би отримати випадковий користувач. Якщо користувач спалює шість спроб шаблону (тобто LoRA, постачованої сайтом AI), вони схильні публікувати і хвалити найкраще з них, створюючи враження, що можна отримати такі результати, запитавши базову модель – і створюючи враження, що генеративні моделі засновані на моделі значно більш роз’єднані, ніж вони насправді є.
Висновок
Література продовжує вивчати проблему заплутаності, яка вперше серйозно з’явилася близько 2020 року у співробітництві Max Planck/Google колаборації Тверезий погляд на без наглядну навчальну роз’єднання представлень і їх оцінку.
Крім того, різні наступники Роз’єднання через контраст (DisCo) періодично з’являються, і сцена залишається живою з усвідомленням проблеми, яке значно перевищує публічне усвідомлення того, чого не може зробити AI у цьому відношенні.
Одне китайське дослідження 2024 року припускає, що розв’язання заплутаності може не бути необхідним зовсім, щоб вирішити проблеми, які воно приносить. Історично це звучить правдиво, оскільки багато нерозв’язних питань у комп’ютерному зорі були подолані не тим, що були вирішені, а тим, що були обійдені зовсім новими техніками та підходами.
До тих пір, поки не з’явиться окремий конкурент, здається, нам доведеться продовжувати застосовувати гарячі патчі та бандажі до недоліків і обмежень GenAI, і терпіти публічне переоцінювання гнучкості та пластичності моделей.
Перша публікація понеділка, 23 березня 2026 року












