Зв'язатися з нами

Особистий погляд на тенденції літератури про комп’ютерний зір у 2024 році

Штучний Інтелект

Особистий погляд на тенденції літератури про комп’ютерний зір у 2024 році

mm
Зображення ChatGPT: «Панорамне орфографічне зображення стилізованої групи вчених у стилі SIM-карт, які працюють у білих халатах у лабораторії комп’ютерних досліджень. Вид Аріель, ортографічна проекція, стилізований, у мультяшному стилі.

Я постійно стежу за дослідженнями комп'ютерного зору (CV) та синтезу зображень в Arxiv та інших місцях протягом приблизно п'яти років, тому тенденції з часом стають очевидними та щороку змінюються в нових напрямках.

Тому, оскільки 2024 рік наближається до завершення, я вважаю за доцільне поглянути на деякі нові або розвиваються характеристики в матеріалах Arxiv у програмі комп’ютерного бачення та розпізнавання образів. розділ. Ці спостереження, хоч і засновані на сотнях годин вивчення місця події, є суто анекданими.

Постійне піднесення Східної Азії

До кінця 2023 року я помітив, що більшість літератури в категорії «синтез голосу» надходила з Китаю та інших регіонів Східної Азії. Наприкінці 2024 року я мушу зазначити (за анекдотичним випадком), що це тепер стосується також дослідницької сфери синтезу зображень та відео.

Це не означає, що Китай і суміжні країни завжди видають найкращі роботи (справді, є деякі докази протилежного); також не враховується висока ймовірність того, що в Китаї (як і на заході) деякі з найцікавіших і найпотужніших нових систем, що розвиваються, є власністю та виключені з дослідницької літератури.

Але це дійсно говорить про те, що Східна Азія випереджає захід за обсягами в цьому відношенні. Те, наскільки це цінне, залежить від того, наскільки ви вірите в життєздатність Наполегливість у стилі Едісона, що зазвичай виявляється неефективним перед лицем непереборних перешкод.

Існує багато таких блокпостів у генеративному штучному інтелекті, і непросто дізнатися, які проблеми можна вирішити, звернувшись до існуючих архітектур, а які потрібно буде переглянути з нуля.

Хоча дослідники зі Східної Азії, здається, публікують більшу кількість робіт, присвячених комп'ютерному зору, я помітив збільшення частоти проектів у стилі «Франкенштейна» – ініціатив, які являють собою поєднання попередніх робіт, додаючи при цьому обмежену архітектурну новизну (або, можливо, просто інший тип даних).

Цього року значно більша кількість східноазіатських (головним чином китайських або китайських співробітництв) записів, здавалося, керувалася квотами, а не заслугами, що значно підвищило співвідношення сигнал/шум у вже завищеній сфері підписки.

Водночас, більша кількість східноазійських газет також привернула мою увагу та захоплення у 2024 році. Тож якщо це все гра чисел, то це не провал, але й не дешево.

Збільшення обсягу подання

У 2024 році кількість паперів у всіх країнах походження явно зросла.

Найпопулярніший день публікацій змінюється протягом року; наразі це вівторок, коли кількість заявок до секції «Комп’ютерний зір та розпізнавання образів» часто сягає близько 300-350 за один день у «пікові» періоди (травень-серпень та жовтень-грудень, тобто сезон конференцій та сезон «кінцевого терміну подання річних квот» відповідно).

Окрім мого власного досвіду, сам Arxiv повідомляє a рекордна кількість заявок у жовтні 2024 рокуіз загальною кількістю 6000 нових матеріалів, а розділ «Комп’ютерний зір» став другим за кількістю надсилань після машинного навчання.

Однак, оскільки розділ «Машинне навчання» на Arxiv часто використовується як «додаткова» або узагальнена суперкатегорія, це свідчить про те, що «Комп’ютерний зір та розпізнавання образів» насправді є найчастіше поданою категорією Arxiv.

Арксів власна статистика безсумнівно, зображують інформатику як явного лідера в поданнях:

Комп’ютерні науки (CS) домінують у статистиці подання в Arxiv за останні п’ять років. Джерело: https://info.arxiv.org/about/reports/submission_category_by_year.html

Комп’ютерні науки (CS) домінують у статистиці подання в Arxiv за останні п’ять років. Джерело: https://info.arxiv.org/about/reports/submission_category_by_year.html

Стенфордський університет Індекс AI 2024, хоча поки що не в змозі повідомити про останні статистичні дані, він також підкреслює помітне зростання кількості поданих наукових робіт, присвячених машинному навчанню, за останні роки:

З огляду на відсутність даних за 2024 рік, звіт Стенфордського університету, тим не менш, різко демонструє зростання обсягів подання документів для машинного навчання. Джерело: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Хоча дані за 2024 рік недоступні, звіт Стенфорда, тим не менш, разюче демонструє зростання обсягів подання робіт з машинного навчання. Джерело: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Розповсюдження > Сітчасті фреймворки поширюються

Ще одна чітка тенденція, яка виявилася для мене, — це значне зростання кількості робіт, присвячених левериджу Моделі латентної дифузії (LDM) як генератори сітчастих, «традиційних» CGI-моделей.

До проектів такого типу належать Tencent InstantMesh3D, 3Dтопія, радіомовлення2, V3D, MVEdit та GIMDiffusionсеред безлічі подібних пропозицій.

Генерація та уточнення сітки за допомогою процесу на основі дифузії в 3Dtopia. Джерело: https://arxiv.org/pdf/2403.02234

Генерація та уточнення сітки за допомогою процесу на основі дифузії в 3Dtopia. Джерело: https://arxiv.org/pdf/2403.02234

Цей новий напрямок досліджень можна сприймати як мовчазну поступку триваючій нерозв’язності генеративних систем, таких як дифузійні моделі, які лише два роки рекламували як потенційну заміну всім системам, які дифузійно-сітчасті моделі зараз прагнуть заповнити; відведення дифузії до ролі інструменту в технологіях і робочих процесах, які сягають тридцяти або більше років тому.

Stability.ai, творці відкритого коду Стабільна дифузія модель, щойно випущена Стабільний нуль123, який, серед іншого, може використовувати a Нейронні поля випромінювання (NeRF) інтерпретація створеного штучним інтелектом зображення як мосту для створення явної моделі CGI на основі сітки, яку можна використовувати на аренах CGI, таких як Unity, у відеоіграх, доповненій реальності та на інших платформах, які потребують явного 3D координати, на відміну від неявних (прихованих) координат безперервні функції.

Натисніть, щоб відтворити. Зображення, створені в Stable Diffusion, можна перетворити на раціональну сітку CGI. Тут ми бачимо результат процесу image>CGI з використанням Stable Zero 123. Джерело: https://www.youtube.com/watch?v=RxsssDD48Xc

3D семантика

Генеративний простір штучного інтелекту розрізняє 2D і 3D системні реалізації бачення та генеративні системи. Наприклад, рамки для орієнтування обличчя, хоча представляє 3D-об’єкти (обличчя) у всіх випадках не обов’язково обчислюють адресні 3D-координати.

Популярний Система FANalign, який широко використовується в архітектурах deepfake 2017 року (серед іншого), може вмістити обидва ці підходи:

Вище наведені 2D-орієнтири створюються виключно на основі розпізнаних контурів і рис обличчя. Нижче вони раціоналізовані в просторі 3D X/Y/Z. Джерело: https://github.com/1adrianb/face-alignment

Вище наведені 2D-орієнтири створюються виключно на основі розпізнаних контурів і рис обличчя. Нижче вони раціоналізовані в просторі 3D X/Y/Z. Джерело: https://github.com/1adrianb/face-alignment

Отже, так само, як «діпфейк» став двозначний і викрадений термінТермін «3D» також став заплутаним у дослідженнях комп'ютерного зору.

Для споживачів це зазвичай означало медіа з підтримкою стерео (наприклад, фільми, де глядач повинен носити спеціальні окуляри); для фахівців з візуальних ефектів та моделювання це забезпечує різницю між 2D-творами мистецтва (наприклад, концептуальними ескізами) та моделями на основі сітки, якими можна маніпулювати в «3D-програмі», такій як Maya або Cinema4D.

Але в комп’ютерному зорі це просто означає, що a Декартова система координат існує десь у латентний простір моделі – НЕ що користувач обов'язково може адресувати або безпосередньо маніпулювати ним; принаймні, не без сторонніх інтерпретаційних систем на основі CGI, таких як 3DMM or FLAME.

Тому поняття дифузія>3D є неточним; не тільки може будь-який тип зображення (включаючи реальне фото) можна використовувати як вхідні дані для створення генеративної CGI-моделі, але менш неоднозначний термін «сітка» є більш доречним.

Однак, щоб усунути неоднозначність, дифузія is необхідний для інтерпретації вихідної фотографії в сітку в більшості нових проектів. Тому опис може бути кращим зображення до сітки, В той час зображення>дифузія>сітка це ще точніший опис.

Але це важко переконати на засіданні правління або в рекламному релізі, призначеному для залучення інвесторів.

Докази архітектурних тупиків

Навіть порівняно з 2023 роком, у статях за останні 12 місяців спостерігається зростаюче прагнення усунути жорсткі практичні обмеження на основі дифузійної генерації.

Ключовим каменем спотикання залишається генерація узгодженого в оповіді та часу відео, а також збереження узгодженого вигляду персонажів і об’єктів – не лише в різних відеокліпах, але навіть протягом короткого часу виконання одного згенерованого відеокліпу.

Останньою епохальною інновацією в дифузійному синтезі був поява LoRA у 2022 році. Хоча новіші системи, такі як Flux, покращили деякі проблеми, що виникли внаслідок винятків, такі як колишня нездатність Stable Diffusion відтворювати текстовий вміст усередині згенерованого зображення, а загальна якість зображення покращилася, більшість робіт, які я вивчав у 2024 році, по суті, просто переміщували їжу на тарілці.

Ці безвихідні ситуації виникали й раніше, з генеративними змагальними мережами (GAN) і нейронними полями випромінювання (NeRF), обидві з яких не змогли реалізувати свій очевидний початковий потенціал – і обидві з них все частіше використовуються в більш традиційних системах (таких як використання NeRF у Stable Zero 123, див. вище). Здається, це також відбувається з дифузійними моделями.

Орієнтири дослідження Гаусового сплаттінгу

Здавалося в кінці 2023 року метод растеризації 3D Гаусове нанесення (3DGS), який дебютував як метод медичної візуалізації на початку 1990-х років, мав раптово випередити на основі автокодувальника системи викликів синтезу образів людини (таких як моделювання та відтворення обличчя, а також передача ідентичності).

Обіцяний документ ASH на 2023 рік повне тіло 3DGS людей, В той час Аватари Гауса пропонує значно покращену деталізацію (порівняно з автокодером та іншими конкуруючими методами), разом із вражаючою перехресною реконструкцією.

Однак цей рік був відносно коротким на такі проривні моменти для людського синтезу 3DGS; більшість робіт, які розглядали проблему, були або похідними від вищезазначених робіт, або не змогли перевищити їхні можливості.

Натомість наголос на 3DGS був зроблений на покращенні його фундаментальної архітектурної здійсненності, що призвело до появи великої кількості документів, які пропонують покращене зовнішнє середовище 3DGS. Особлива увага було сплачено за одночасну локалізацію та відображення (SLAM) Підходи 3DGS у таких проектах, як Гауссове нанесення SLAM, Сплат-СЛАМ, Gaussian-SLAM, DROID-Splat, Серед багатьох інших.

Включали ті проекти, які намагалися продовжити або розширити людський синтез на основі splat МІГС, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM та Topo4D. Хоча є й інші, але жоден із цих виступів не зрівнявся з початковим впливом газет, які з’явилися наприкінці 2023 року.

«Ера Вайнштейна» тестових зразків (повільно) йде на спад

Дослідження з Південно-Східної Азії загалом (і Китаю зокрема) часто містять приклади тестів, які проблематично перепублікувати в оглядовій статті, оскільки вони містять дещо «гострий» матеріал.

Чи це пов’язано з тим, що вчені-дослідники в цій частині світу прагнуть привернути увагу своєю продукцією, залишається предметом дебатів; але за останні 18 місяців все більше статей про генеративний штучний інтелект (зображення та/або відео) не використовують у прикладах проектів молодих і бідно одягнених жінок і дівчат. Приклади Borderline NSFW включають це UniAnimate, ControlNext, і навіть дуже «сухі» папери, такі як Оцінка узгодженості руху за Fréchet Video Motion Distance (FVMD).

Це відповідає загальним тенденціям субредітів та інших спільнот, які зібралися навколо моделей латентної дифузії (LDM), де Правило 34 залишається в силі.

Очищення знаменитостей

Цей тип невідповідних прикладів збігається зі зростаючим визнанням того, що процеси штучного інтелекту не повинні довільно використовувати схожість зі знаменитостями, особливо в дослідженнях, які некритично використовують приклади Завдяки привабливих знаменитостей, часто жінок, і поміщати їх у сумнівний контекст.

Одним із прикладів є AnyDressing, який, крім дуже молодих жіночих персонажів у стилі аніме, також широко використовує ідентифікацію класичних знаменитостей, таких як Мерилін Монро, і сучасних знаменитостей, таких як Енн Гетевей (яка засудила таке використання досить голосно).

Довільне використання сучасних і «класичних» знаменитостей все ще досить поширене в газетах Південно-Східної Азії, хоча ця практика дещо зменшується. Джерело: https://crayon-shinchan.github.io/AnyDressing/

Довільне використання імен сучасних та «класичних» знаменитостей все ще досить поширене у газетах з Південно-Східної Азії, хоча ця практика дещо скорочується. Джерело: https://crayon-shinchan.github.io/AnyDressing/

In західний У 2024 році ця конкретна практика помітно зменшилася, що спричинено більш масштабними випусками FAANG та інших дослідницьких організацій високого рівня, таких як OpenAI. Критично усвідомлюючи потенціал майбутніх судових процесів, ці великі корпоративні гравці, здається, дедалі більше не бажають представляти інтереси навіть вигаданий фотореалістичні люди.

Хоча системи, які вони створюють (наприклад Зображення та Veo2) явно здатні на такий результат, приклади західних проектів генеративного штучного інтелекту зараз тяжіють до «милих», диснеївських та надзвичайно «безпечних» зображень і відео.

Незважаючи на вихваляння здатністю Imagen створювати «фотореалістичні» результати, зразки, які просуває Google Research, зазвичай фантастичні, «сімейні» – фотореалістичних людей ретельно уникають або надають мінімальні приклади. Джерело: https://imagen.research.google/

Незважаючи на хвалькувату здатність Imagen створювати «фотореалістичний» результат, зразки, що рекламуються Google Research, зазвичай є фантастичними, «сімейними» – фотореалістичних людей ретельно уникають або наводять мінімальні приклади. Джерело: https://imagen.research.google/

Миття обличчя

У західній літературі про CV цей нещирий підхід є особливо очевидним настройка системи – методи, які здатні створювати узгоджені подібності конкретної особи на кількох прикладах (наприклад, LoRA та старіші будка мрій).

Приклади включають в себе ортогональне візуальне вбудовування, LoRA-Композитор, Google InstructBooth, і багато іншого.

InstructBooth від Google збільшує коефіцієнт миловидності до 11, хоча історія показує, що користувачів більше цікавить створення фотореалістичних людей, ніж пухнастих або пухнастих персонажів. Джерело: https://sites.google.com/view/instructbooth

InstructBooth від Google підвищує коефіцієнт милоти до 11, хоча історія показує, що користувачі більше зацікавлені у створенні фотореалістичних людей, ніж пухнастих чи пухнастих персонажів. Джерело: https://sites.google.com/view/instructbooth

Однак, зростання популярності «милого прикладу» спостерігається в інших напрямках досліджень резюме та синтезу, у таких проектах, як Comp4D, V3D, DesignEdit, UniEdit, FaceChain (що поступається більш реалістичним очікуванням користувачів щодо його Сторінка GitHub), А також DPG-T2I, Серед багатьох інших.

Легкість, з якою такі системи (наприклад, LoRAs) можуть створювати домашні користувачі з відносно скромним обладнанням, що призвело до вибуху моделей знаменитостей, які можна безкоштовно завантажити. в домені civit.ai і громада. Таке незаконне використання залишається можливим завдяки відкритому коду таких архітектур, як Стабільна дифузія та Потік.

Хоча часто можна обійти функції безпеки генеративних систем перетворення тексту на зображення (T2I) та тексту на відео (T2V), щоб створити матеріал, заборонений умовами використання платформи, розрив між обмеженими можливостями найкращих систем (таких як RunwayML та Sora) та необмеженими можливостями просто продуктивних систем (таких як Стабільне розповсюдження відео, CogVideo і локальне розгортання Хуньюань), насправді не закривається, як багато хто вважає.

Натомість ці пропрієтарні системи та системи з відкритим вихідним кодом, відповідно, загрожують стати однаково марними: дорогі та гіпермасштабовані системи T2V можуть стати надмірно обмеженими через побоювання судового розгляду, тоді як відсутність інфраструктури ліцензування та нагляду за наборами даних у системах з відкритим кодом може повністю заблокувати їх з ринку, оскільки впроваджуються більш суворі правила.

 

Вперше опубліковано у вівторок, 24 грудня 2024 р

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai