Connect with us

Промпт-инжиниринг

Более близкий взгляд на DALL-E 3 от OpenAI

mm
DALL·E 3

В мире Генеративного ИИ поддержание актуальности является ключом к успеху. И когда речь идет о генерации изображений, Midjourney и Stable Diffusion были платформами, о которых все говорили – пока не появился DALL·E 3.

OpenAI, поддерживаемый технологическим гигантом Microsoft, представил DALL·E 3 20 сентября 2023 года.

DALL-E 3 – это не просто создание изображений; это оживление ваших идей, именно так, как вы их представляли. И лучшая часть? Это быстро, очень быстро. У вас есть идея, вы ее передаете DALL-E 3, и готово, ваше изображение готово.

Итак, в этой статье мы глубоко погрузимся в то, что такое DALL-E 3. Мы поговорим о том, как он работает, что отличает его от других и почему он может быть именно тем инструментом, который вам нужен. Будете ли вы дизайнером, художником или просто человеком с множеством интересных идей, вы захотите остаться на этой странице. Давайте начнем.

Что нового в DALL·E 3, так это то, что он лучше понимает контекст, чем DALL·E 2. Ранее версии могли упустить из виду некоторые детали или проигнорировать несколько подробностей, но DALL·E 3 точен. Он улавливает точные детали того, о чем вы просите, давая вам изображение, которое ближе к тому, что вы представляли.

Круто? DALL·E 3 и ChatGPT теперь интегрированы вместе. Они работают вместе, чтобы помочь усовершенствовать ваши идеи. Вы представляете концепцию, ChatGPT помогает в доработке запроса, а DALL·E 3 оживляет ее. Если вы не являетесь поклонником изображения, вы можете попросить ChatGPT доработать запрос и попросить DALL·E 3 попробовать снова. За ежемесячную плату в 20$ вы получаете доступ к GPT-4, DALL·E 3 и многим другим интересным функциям.

Bing Chat от Microsoft получил доступ к DALL·E 3 даже раньше, чем ChatGPT от OpenAI, и теперь это не только крупные предприятия, но и все, кто может поиграть с ним бесплатно. Интеграция в Bing Chat и Bing Image Creator делает его намного проще в использовании для всех.

Рост диффузионных моделей

За последние 3 года ИИ видения стал свидетелем роста диффузионных моделей, сделавших значительный шаг вперед, особенно в генерации изображений. До диффузионных моделей Генеративные противостоящие сети (GANs) были технологией по умолчанию для генерации реалистичных изображений.

GANs

GANs

Однако они имели свои проблемы, включая необходимость огромных объемов данных и вычислительной мощности, что часто делало их трудными в обращении.

Вот где появляются диффузионные модели. Они появились как более стабильная и эффективная альтернатива GANs. В отличие от GANs, диффузионные модели работают путем добавления шума к данным, затеняя их, пока не остается только случайность. Затем они работают в обратном направлении, восстанавливая осмысленные данные из шума. Этот процесс оказался эффективным и менее ресурсоемким, что делает диффузионные модели горячей темой в сообществе ИИ.

Реальный поворотный момент произошел около 2020 года, с рядом инновационных статей и введением технологии CLIP от OpenAI, которая существенно расширила возможности диффузионных моделей. Это сделало диффузионные модели исключительно хорошими в синтезе изображений из текстовых описаний. Эти прорывы не были только в генерации изображений, но и в областях, таких как композиция музыки и биомедицинские исследования.

Сегодня диффузионные модели не являются только темой академического интереса, но и используются в практических, реальных сценариях.

Генеративное моделирование и слои самообращения: DALL-E 3

Одним из критических достижений в этой области стало развитие генеративного моделирования, с подходами, основанными на выборке, такими как автoregressive генеративное моделирование и диффузионные процессы, ведущими путь. Они преобразовали модели текст-изображение, что привело к значительному улучшению производительности. Разбивая генерацию изображений на дискретные шаги, эти модели стали более тривиальными и проще для нейронных сетей.

Параллельно использование слоев самообращения сыграло решающую роль. Эти слои, сложенные вместе, помогли в генерации изображений без необходимости неявных пространственных предубеждений, распространенной проблемы с свертками. Этот сдвиг позволил моделям текст-изображение масштабироваться и улучшаться надежно, благодаря хорошо понимаемым свойствам масштабирования трансформеров.

Проблемы и решения в генерации изображений

Несмотря на эти достижения, контролируемость в генерации изображений остается проблемой. Проблемы, такие как выполнение запроса, когда модель может не придерживаться тесно входного текста, были распространенными. Чтобы решить эту проблему, были предложены новые подходы, такие как улучшение подписи, направленные на улучшение качества текстовых и изображений пар в наборах данных для обучения.

Улучшение подписи: Новый подход

Улучшение подписи включает в себя генерацию более качественных подписей для изображений, что, в свою очередь, помогает в обучении более точных моделей текст-изображение. Это достигается с помощью прочного подписчика изображений, который производит подробные и точные описания изображений. Обучаясь на этих улучшенных подписях, DALL-E 3 смог достичь замечательных результатов, тесно напоминающих фотографии и произведения искусства, созданные людьми.

Обучение на синтетических данных

Концепция обучения на синтетических данных не нова. Однако уникальный вклад здесь заключается в создании новой, описательной системы подписи изображений. Влияние использования синтетических подписей для обучения генеративных моделей было существенным, что привело к улучшению способности модели точно следовать запросам.

Оценка DALL-E 3

Через множественные оценки и сравнения с предыдущими моделями, такими как DALL-E 2 и Stable Diffusion XL, DALL-E 3 продемонстрировал превосходную производительность, особенно в задачах, связанных с выполнением запроса.

Сравнение моделей текст-изображение на различных оценках

Сравнение моделей текст-изображение на различных оценках

Использование автоматизированных оценок и эталонов предоставило четкие доказательства его возможностей, закрепив его позицию как модели текст-изображение мирового класса.

Запросы и возможности DALL-E 3

DALL-E 3 предлагает более логичный и усовершенствованный подход к созданию визуальных эффектов. Когда вы просматриваете, вы заметите, как DALL-E создает каждое изображение, с сочетанием точности и воображения, которое резонирует с данным запросом.

В отличие от своей предыдущей версии, эта обновленная версия превосходит в расположении объектов естественным образом в сцене и изображении человеческих черт точно, вплоть до правильного количества пальцев на руке. Улучшения распространяются на более мелкие детали и теперь доступны в более высоком разрешении, обеспечивая более реалистичный и профессиональный вывод.

Возможности текстового рендеринга также значительно улучшились. Когда предыдущие версии DALL-E производили бессмыслицу, DALL-E 3 может теперь генерировать читаемый и профессионально оформленный текст (иногда), и даже чистые логотипы время от времени.

Понимание модели сложных и нюансовых запросов на изображения было существенно улучшено. DALL-E 3 может теперь точно следовать подробным описаниям, даже в сценариях с множественными элементами и конкретными инструкциями, демонстрируя свою способность производить связные и хорошо составленные изображения. Давайте исследуем некоторые запросы и полученные результаты:

Создайте упаковку для линии органических чаев. Включите место для названия продукта и описания.

DALL-E 3 изображения на основе текстовых запросов

DALL-E 3 изображения на основе текстовых запросов (Обратите внимание, что на левой плакате есть неправильное написание)

Создайте веб-баннер, рекламирующий летнюю распродажу на наружную мебель. Изображение должно содержать пляжную обстановку с различными предметами наружной мебели и текстом, объявляющим 'Огромные летние сбережения!'

DALL-E 3 изображения на основе текстовых запросов

DALL-E 3 изображения на основе текстовых запросов

Винтажный плакат о путешествии в Париж с смелым и стилизованным текстом, говорящим 'Посетите Париж' внизу.

DALL-E 3 изображения на основе текстовых запросов

DALL-E 3 изображения на основе текстовых запросов (Обратите внимание, что на обоих плакатах есть неправильное написание)

Оживленная сцена фестиваля Дивали в Индии, с семьями, зажигающими лампы, фейерверками в небе и традиционными сладостями и украшениями.

DALL-E 3 изображения на основе текстовых запросов

DALL-E 3 изображения на основе текстовых запросов

Сгенерируйте изображение знаменитой исторической фигуры, такой как Клеопатра или Леонардо да Винчи, помещенной в современную обстановку, используя современные технологии, такие как смартфоны или ноутбуки.

DALL-E 3 изображения на основе текстовых запросов

DALL-E 3 изображения на основе текстовых запросов

Ограничения и риски DALL-E 3

OpenAI предпринял значительные шаги, чтобы отфильтровать явный контент из обучающих данных DALL-E 3, стремясь уменьшить предубеждения и улучшить выходные данные модели. Это включает в себя применение конкретных фильтров для чувствительных категорий контента и пересмотр пороговых значений для более широких фильтров. Стек смягчения также включает в себя несколько слоев защитных мер, таких как механизмы отказа в ChatGPT для чувствительных тем, классификаторы входных запросов для предотвращения нарушений политики, блок-листы для конкретных категорий контента и преобразования для обеспечения соответствия запросов руководящим принципам.

Несмотря на свои достижения, DALL-E 3 имеет ограничения в понимании пространственных отношений, рендеринге длинного текста точно и генерации конкретных изображений. OpenAI признает эти проблемы и работает над улучшениями для будущих версий.

Компания также работает над способами различать изображения, сгенерированные ИИ, и те, которые были созданы людьми, отражая свою приверженность прозрачности и ответственной использованию ИИ.

DALL·E 3

DALL·E 3

DALL-E 3, последняя версия, будет доступна поэтапно, начиная с определенных групп клиентов, а затем расширяясь до исследовательских лабораторий и сервисов API. Однако дата бесплатного публичного выпуска еще не подтверждена.

OpenAI действительно устанавливает новый стандарт в области ИИ с DALL-E 3, безупречно сочетая сложные технические возможности и удобные интерфейсы. Интеграция DALL-E 3 в широко используемые платформы, такие как Bing, отражает сдвиг от специализированных приложений к более широким и доступным формам развлечения и пользы.

Настоящий прорыв в ближайшие годы, скорее всего, будет заключаться в балансе между инновациями и эмансипацией пользователей. Компании, которые преуспеют, будут теми, которые не только расширяют границы того, что может достичь ИИ, но и предоставляют пользователям автономию и контроль, которых они желают. OpenAI, с его приверженностью этическому ИИ, осторожно проходит по этому пути. Цель ясна: создать инструменты ИИ, которые не только мощные, но и заслуживающие доверия и инклюзивные, гарантируя, что преимущества ИИ доступны всем.

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.