Искусственный интеллект
Личный взгляд на тенденции в литературе по компьютерному зрению в 2024 году

Я уже около пяти лет постоянно слежу за развитием исследований в области компьютерного зрения (КЗ) и синтеза изображений в Arxiv и других местах, поэтому тенденции со временем становятся очевидными, и каждый год они меняются в новых направлениях.
Поэтому, поскольку 2024 год подходит к концу, я посчитал целесообразным рассмотреть некоторые новые или развивающиеся характеристики в материалах Arxiv в разделе «Компьютерное зрение и распознавание образов». .. Эти наблюдения, хотя и основаны на сотнях часов изучения места происшествия, являются строго анекдотичными.
Продолжающийся подъем Восточной Азии
К концу 2023 года я заметил, что большая часть литературы по теме «синтез голоса» выходит в Китае и других регионах Восточной Азии. В конце 2024 года я вынужден отметить (по некоторым данным), что это теперь относится и к исследованиям в области синтеза изображений и видео.
Это не означает, что Китай и соседние страны обязательно всегда выпускают лучшую продукцию (действительно, есть некоторая доказательства обратного); также не принимается во внимание высокая вероятность того, что в Китае (как и на Западе) некоторые из наиболее интересных и мощных новых развивающихся систем являются запатентованными и исключены из исследовательской литературы.
Но это говорит о том, что Восточная Азия превосходит Запад по объёму в этом отношении. Насколько это ценно, зависит от того, насколько вы верите в жизнеспособность Настойчивость в стиле Эдисона, что обычно оказывается неэффективным перед лицом непреодолимых препятствий.
Существуют много таких препятствий в генеративном ИИ, и непросто понять, какие из них можно решить, обратившись к существующим архитектурам, а какие придется пересматривать с нуля.
Хотя исследователи из Восточной Азии, похоже, публикуют больше статей по компьютерному зрению, я заметил увеличение частоты проектов в стиле «Франкенштейна» — инициатив, которые представляют собой объединение предыдущих работ, добавляя при этом ограниченную архитектурную новизну (или, возможно, просто другой тип данных).
В этом году гораздо большее количество заявок из Восточной Азии (в основном из Китая или проектов с участием Китая) были поданы по квотам, а не по заслугам, что значительно увеличило соотношение сигнал/шум в уже переполненной области.
В то же время в 2024 году мое внимание и восхищение привлекло большее количество статей из Восточной Азии. Так что если все это игра цифр, то это не провал, но и не дешевое удовольствие.
Растущий объем заявок
Объем статей во всех странах происхождения в 2024 году, очевидно, увеличился.
Самый популярный день публикации меняется в течение года; в настоящее время это вторник, когда количество заявок в раздел «Компьютерное зрение и распознавание образов» часто составляет около 300–350 за один день в «пиковые» периоды (май–август и октябрь–декабрь, т. е. сезон конференций и сезон «крайнего срока подачи ежегодных квот» соответственно).
Помимо моего собственного опыта, Arxiv сам сообщает рекордное количество заявок в октябре 2024 года, общее количество новых заявок составило 6000, а раздел «Компьютерное зрение» стал вторым по количеству заявок после раздела «Машинное обучение».
Однако, поскольку раздел «Машинное обучение» в Arxiv часто используется как «дополнительная» или агрегированная суперкатегория, это говорит о том, что «Компьютерное зрение и распознавание образов» на самом деле является наиболее часто публикуемой категорией Arxiv.
Arxiv's собственная статистика компьютерные науки, безусловно, являются явным лидером по числу поданных заявок:

За последние пять лет в статистике подачи заявок на Arxiv доминирует направление «Компьютерные науки» (CS). Источник: https://info.arxiv.org/about/reports/submission_category_by_year.html
Стэнфордский университет Индекс ИИ 2024, хотя пока и не может предоставить последние статистические данные, также подчеркивает заметный рост числа представленных научных работ по машинному обучению за последние годы:

Несмотря на отсутствие данных за 2024 год, отчет Стэнфорда тем не менее демонстрирует резкий рост объемов подачи статей по машинному обучению. Источник: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf
Диффузия>Сетчатые каркасы размножаются
Еще одна четкая тенденция, которая проявилась для меня, — это большой рост числа статей, посвященных использованию заемных средств. Модели скрытой диффузии (LDM) как генераторы сетчатых, «традиционных» CGI-моделей.
К проектам такого типа относятся проекты Tencent InstantMesh3D, 3Dтопия, Вещание2, V3D, MVEdit и GIMDiffusion, среди множества подобных предложений.

Генерация и уточнение сетки с помощью процесса на основе диффузии в 3Dtopia. Источник: https://arxiv.org/pdf/2403.02234
Это новое направление исследований можно рассматривать как молчаливую уступку продолжающейся неподатливости генеративных систем, таких как модели диффузии, которые всего два года рекламировались как потенциальная замена всем системам, которые сейчас стремятся заполнить модели диффузии>сетки; тем самым низводя диффузию до роли инструмента в технологиях и рабочих процессах, которые появились тридцать или более лет назад.
Stability.ai, создатели открытого исходного кода Стабильная диффузия модель, только что выпустили Стабильный Ноль123, который может, среди прочего, использовать Поля нейронного излучения (NeRF) интерпретация изображения, созданного ИИ, в качестве моста для создания явной модели CGI на основе сетки, которая может использоваться в таких областях CGI, как Unity, в видеоиграх, дополненной реальности и на других платформах, требующих явных трехмерных координат, в отличие от неявных (скрытых) координат непрерывные функции.
Нажмите, чтобы играть. Изображения, созданные в Stable Diffusion, можно преобразовать в рациональные сетки CGI. Здесь мы видим результат рабочего процесса image>CGI с использованием Stable Zero 123. Источник: https://www.youtube.com/watch?v=RxsssDD48Xc
3D-семантика
Генеративное пространство ИИ проводит различие между реализацией систем 2D и 3D зрения и генеративных систем. Например, каркасы для определения лицевых ориентиров, хоть представляющий Трехмерные объекты (грани) во всех случаях не обязательно вычисляют адресуемые трехмерные координаты.
Популярный Система FANAlign, широко используемый в архитектурах deepfake эпохи 2017 года (среди прочих), может вместить оба этих подхода:

Выше 2D-ориентиры генерируются исключительно на основе распознанных черт лица и особенностей. Ниже они рационализируются в 3D-пространстве X/Y/Z. Источник: https://github.com/1adrianb/face-alignment
Итак, как только «дипфейк» стал неоднозначный и захваченный термин«3D» также стало запутанным термином в исследованиях компьютерного зрения.
Для потребителей это обычно означает медиаконтент со стереоэффектом (например, фильмы, где зрителю приходится надевать специальные очки); для специалистов по визуальным эффектам и моделированию это позволяет провести различие между двухмерными художественными работами (например, концептуальными эскизами) и сетчатыми моделями, которыми можно манипулировать в «2D-программе», например, Maya или Cinema3D.
Но в компьютерном зрении это просто означает, что Декартова система координат существует где-то в скрытое пространство модели – не что он обязательно может быть адресован или непосредственно манипулирован пользователем; по крайней мере, без сторонних интерпретативных систем на основе CGI, таких как 3ДММ or FLAME.
Поэтому понятие диффузия>3D неточно; не только может любое В качестве входных данных для создания генеративной CGI-модели можно использовать любой тип изображения (включая реальную фотографию), однако более подходящим является менее двусмысленный термин «сетка».
Однако, чтобы усугубить двусмысленность, диффузия is необходимо интерпретировать исходное фото в сетку, в большинстве новых проектов. Поэтому лучшее описание может быть таким: изображение-в-сетку, В то время изображение>диффузия>сетка — еще более точное описание.
Но это будет трудно продать на заседании совета директоров или в рекламном пресс-релизе, предназначенном для привлечения инвесторов.
Свидетельства архитектурных тупиков
Даже по сравнению с 2023 годом, последние 12 месяцев показывают растущее отчаяние в отношении отмены жесткие практические ограничения на основе диффузионной генерации.
Главным камнем преткновения остается создание последовательного повествовательно и временно видео, а также поддержание единообразного внешнего вида персонажей и объектов — не только в разных видеоклипах, но даже на протяжении короткого времени одного сгенерированного видеоклипа.
Последним эпохальным новшеством в диффузионном синтезе стало появление LoRA в 2022 году. Хотя новые системы, такие как Flux, улучшили некоторые из проблем, связанных с выбросами данных, например, прежнюю неспособность Stable Diffusion воспроизводить текстовое содержимое внутри сгенерированного изображения, и общее качество изображения улучшилось, большинство статей, которые я изучал в 2024 году, по сути, просто перемещали еду по тарелке.
Подобные тупиковые ситуации уже возникали ранее, с генеративно-состязательными сетями (GAN) и с полями нейронного излучения (NeRF), оба из которых не смогли реализовать свой очевидный первоначальный потенциал – и оба все чаще используются в более традиционных системах (например, использование NeRF в Stable Zero 123, см. выше). Похоже, это происходит и с моделями диффузии.
Исследования Гауссовского Сплаттинга
В конце 2023 года казалось, что метод растеризации 3D гауссово пятно (3DGS), которая дебютировала как метод медицинской визуализации в начале 1990-х годов, должна была внезапно обогнать на основе автокодировщика системы задач синтеза изображений человека (такие как моделирование и воссоздание лица, а также передача личности).
В докладе ASH за 2023 год обещано полноразмерные 3DGS-люди, В то время Гауссовы Аватары предложили значительно улучшенную детализацию (по сравнению с автокодировщиком и другими конкурирующими методами), а также впечатляющую перекрестную реконструкцию.
Однако в этом году было относительно мало подобных прорывных моментов в области синтеза человеческого 3DGS; большинство статей, посвященных этой проблеме, были либо производными от вышеуказанных работ, либо не смогли превзойти их возможности.
Вместо этого акцент в 3DGS делался на улучшении его фундаментальной архитектурной осуществимости, что привело к появлению целого ряда статей, предлагающих улучшенные внешние среды 3DGS. Частичное внимание было уделено внимание одновременной локализации и картографированию (SLAM) Подходы 3DGS в таких проектах, как Гауссовский сплэттинг SLAM, Сплат-СЛЭМ, Гауссовский-SLAM, DROID-Splat, среди многих других.
В число проектов, которые пытались продолжить или расширить синтез человека на основе сплат, входили: МИГС, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM и Топо4Д. Хотя есть и другие, ни одно из этих выступлений не сравнится с первоначальным влиянием статей, появившихся в конце 2023 года.
«Эра Вайнштейна» с тестовыми образцами (медленно) идет на спад
Исследования в Юго-Восточной Азии в целом (и в Китае в частности) часто содержат тестовые примеры, которые проблематично опубликовать в обзорной статье, поскольку они содержат немного «пикантный» материал.
Является ли это результатом того, что ученые-исследователи в этой части мира стремятся привлечь внимание к своим результатам, это предмет для обсуждения; но за последние 18 месяцев все большее количество статей, посвященных генеративному ИИ (изображения и/или видео), по умолчанию используют молодых и полураздетых женщин и девочек в качестве примеров проектов. Пограничные примеры NSFW включают UniAnimate, УправлениеДалее, и даже очень «сухие» статьи, такие как Оценка согласованности движения по расстоянию видеодвижения Фреше (ФВМД).
Это соответствует общим тенденциям сабреддитов и других сообществ, объединившихся вокруг моделей скрытой диффузии (LDM), где правило 34 по-прежнему весьма актуально.
Поединок знаменитостей
Этот тип неуместного примера перекликается с растущим признанием того, что процессы ИИ не должны произвольно эксплуатировать сходство со знаменитостями, особенно в исследованиях, которые некритически используют примеры. Благодаря привлекательных знаменитостей, часто женщин, и помещают их в сомнительные контексты.
Одним из примеров является ЛюбаяСоус, в котором, помимо очень молодых женских персонажей в стиле аниме, также щедро используются личности классических знаменитостей, таких как Мэрилин Монро, и современных знаменитостей, таких как Энн Хэтэуэй (которая осудила такое использование довольно громко).

Произвольное использование современных и «классических» знаменитостей по-прежнему довольно распространено в газетах из Юго-Восточной Азии, хотя эта практика немного идет на спад. Источник: https://crayon-shinchan.github.io/AnyDressing/
In западный документов, эта конкретная практика заметно снизилась в течение 2024 года, во главе с более крупными релизами от FAANG и других высокоуровневых исследовательских организаций, таких как OpenAI. Критически осознавая потенциал будущих судебных разбирательств, эти крупные корпоративные игроки, похоже, все больше не желают представлять даже вымышленный фотореалистичные люди.
Хотя системы, которые они создают (такие как Изображение и Вео2) явно способны на такой результат, примеры из западных проектов генеративного ИИ теперь имеют тенденцию к «милым», диснеевским и крайне «безопасным» изображениям и видео.

Несмотря на хвалебные способности Imagen создавать «фотореалистичные» результаты, примеры, продвигаемые Google Research, как правило, представляют собой фантастическую, «семейную» картину — фотореалистичные изображения людей тщательно избегаются или приводятся минимальные примеры. Источник: https://imagen.research.google/
Умывание лица
В западной литературе по резюме этот неискренний подход особенно очевиден настройка системы – методы, которые способны создавать последовательные образы конкретного человека на основе нескольких примеров (например, LoRA и более старые будка мечты).
Примеры включают в себя ортогональное визуальное вложение, LoRA-Композитор, Google InstructBoothи многое другое.

InstructBooth от Google повышает фактор миловидности до 11, хотя история показывает, что пользователи больше заинтересованы в создании фотореалистичных людей, чем пушистых или пушистых персонажей. Источник: https://sites.google.com/view/instructbooth
Однако рост популярности «милых примеров» наблюдается и в других направлениях исследований резюме и синтеза, в таких проектах, как Комп4Д, V3D, ДизайнEdit, UniEdit, Фейсчейн (который уступает более реалистичным ожиданиям пользователей по его Страница GitHub), а также расширение ДПГ-Т2И, среди многих других.
Легкость, с которой такие системы (такие как LoRA) могут быть созданы домашними пользователями с относительно скромным оборудованием, что привело к взрыву бесплатно загружаемых моделей знаменитостей в домене civit.ai и сообщество. Такое незаконное использование остается возможным благодаря открытому исходному коду архитектур, таких как Стабильная диффузия и Поток.
Хотя часто возможно преодолеть функции безопасности генеративных систем преобразования текста в изображение (T2I) и преобразования текста в видео (T2V) и создать материал, запрещенный условиями использования платформы, разрыв между ограниченными возможностями лучших систем (таких как RunwayML и Sora) и неограниченными возможностями просто производительных систем (таких как Стабильная диффузия видео, CogВидео и локальные развертывания Хуньюань), на самом деле не закрывается, как многие полагают.
Скорее, эти проприетарные и открытые системы, соответственно, грозят стать одинаково бесполезными: дорогие и гипермасштабные системы T2V могут стать чрезмерно ограниченными из-за опасений судебных разбирательств, в то время как отсутствие инфраструктуры лицензирования и контроля за наборами данных в открытых системах может полностью исключить их из рынка по мере вступления в силу более строгих правил.
Впервые опубликовано Вторник, 24 декабря 2024 г.












