Свяжитесь с нами:

Генеративный ИИ: идея, стоящая за CHATGPT, Dall-E, Midjourney и другими

Искусственный интеллект

Генеративный ИИ: идея, стоящая за CHATGPT, Dall-E, Midjourney и другими

mm
Генеративный ИИ — подсказка в середине пути

Мир искусства, общения и того, как мы воспринимаем реальность, стремительно трансформируются. Если мы оглянемся назад на историю человеческих инноваций, мы можем считать изобретение колеса или открытие электричества монументальными скачками. Сегодня происходит новая революция — преодоление разрыва между человеческим творчеством и машинными вычислениями. Это Генеративный ИИ.

Генеративные модели стерли грань между людьми и машинами. С появлением таких моделей, как GPT-4, в которой используются модули-преобразователи, мы приблизились к генерации естественного и контекстно-богатого языка. Благодаря этим достижениям появились приложения для создания документов, диалоговых систем чат-ботов и даже для создания синтетической музыки.

Недавние решения Big-Tech подчеркивают его значимость. Майкрософт уже прекращает выпуск своего приложения Cortana в этом месяце, чтобы отдать приоритет новым инновациям в области генеративного ИИ, таким как Bing Chat. Apple также посвятила значительную часть своего Бюджет на исследования и разработки в размере 22.6 млрд долларов к генеративному ИИ, как указал генеральный директор Тим Кук.

Новая эра моделей: генеративные vs. дискриминационный

История генеративного ИИ не только о его приложениях, но и о его внутренней работе. В экосистеме искусственного интеллекта существуют две модели: дискриминативная и генеративная.

Дискриминационные модели — это то, с чем большинство людей сталкиваются в повседневной жизни. Эти алгоритмы принимают входные данные, такие как текст или изображение, и сопоставляют их с целевым результатом, например, переводом слова или медицинским диагнозом. Они предназначены для картирования и прогнозирования.

Генеративные модели, с другой стороны, являются творцами. Они не просто интерпретируют или предсказывают, но и генерируют новые, сложные результаты из векторов чисел, которые часто даже не связаны с реальными значениями.

 

Типы генеративного ИИ: текст в текст, текст в изображение (GPT, DALL-E, Midjourney)

Технологии, лежащие в основе генеративных моделей

Генеративные модели обязаны своим существованием глубоким нейронным сетям – сложным структурам, имитирующим работу человеческого мозга. Собирая и обрабатывая многогранные вариации данных, эти сети служат основой многочисленных генеративных моделей.

Как эти генеративные модели воплощаются в жизнь? Обычно они строятся с использованием глубоких нейронных сетей, оптимизированных для захвата многогранных вариаций данных. Ярким примером является Генеративная Состязательная Сеть (GAN), где две нейронные сети, генератор и дискриминатор, соревнуются и учатся друг у друга в уникальных отношениях учитель-ученик. От живописи до переноса стиля, от музыкального сочинения до игр — эти модели развиваются и расширяются способами, которые ранее были невообразимы.

Но на этом GAN не заканчиваются. Вариационные автоэнкодеры (VAE) являются еще одним ключевым игроком в области генеративных моделей. VAE выделяются своей способностью создавать фотореалистичные изображения из, казалось бы, случайных чисел. Как? Обработка этих чисел с помощью скрытого вектора порождает искусство, отражающее сложности человеческой эстетики.

Типы генеративного ИИ: текст в текст, текст в изображение

Трансформеры и LLM

Бумага "Внимание это все, что вам нужно» от Google Brain ознаменовал сдвиг в нашем понимании моделирования текста. Вместо сложных и последовательных архитектур, таких как рекуррентные нейронные сети (RNN) или сверточные нейронные сети (CNN), модель Transformer представила концепцию внимания, которая по сути означает сосредоточение внимания на различных частях входного текста в зависимости от контекста. Одним из основных преимуществ этого была простота распараллеливания. В отличие от RNN, которые обрабатывают текст последовательно, что затрудняет их масштабирование, Transformers могут обрабатывать части текста одновременно, что делает обучение более быстрым и эффективным на больших наборах данных.

Трансформер-модель архитектура

В длинном тексте не каждое слово или предложение, которые вы читаете, имеют одинаковую важность. Некоторые части требуют большего внимания в зависимости от контекста. Эта способность переключать наше внимание в зависимости от релевантности — это то, что имитирует механизм внимания.

Чтобы понять это, представьте себе предложение: «Unite AI Publish AI and Robotics news». Теперь, чтобы предсказать следующее слово, необходимо понимать, что наиболее важно в предыдущем контексте. Термин «Robotics» может указывать на то, что следующее слово связано с конкретным достижением или событием в области робототехники, в то время как «Publish» может указывать на то, что следующий контекст может быть связан с недавней публикацией или статьёй.

Объяснение механизма самоконтроля на демонстрационном предложении
Иллюстрация самоконтроля

Механизмы внимания в Transformers предназначены для достижения этой избирательной фокусировки. Они оценивают важность различных фрагментов входного текста и решают, куда «смотреть» при формировании ответа. Это отход от старых архитектур, таких как рекуррентные нейронные сети (RNN), которые пытались втиснуть суть всего входного текста в единое «состояние» или «память».

Работу внимания можно сравнить с системой поиска «ключ-значение». При попытке предсказать следующее слово в предложении каждое предыдущее слово предлагает «ключ», указывающий на его потенциальную релевантность, и в зависимости от того, насколько хорошо эти ключи соответствуют текущему контексту (или запросу), они придают прогнозу «значение» или вес.

Эти передовые модели глубокого обучения ИИ легко интегрируются в различные приложения: от улучшений поисковой системы Google с BERT до Copilot от GitHub, который использует возможности больших языковых моделей (LLM) для преобразования простых фрагментов кода в полнофункциональные исходные коды.

Модели больших языков (LLM), такие как GPT-4, Bard и LLaMA, представляют собой колоссальные конструкции, предназначенные для расшифровки и генерации человеческого языка, кода и многого другого. Их огромный размер, варьирующийся от миллиардов до триллионов параметров, является одной из определяющих особенностей. Эти LLM получают большие объемы текстовых данных, что позволяет им разбираться в тонкостях человеческого языка. Поразительной характеристикой этих моделей является их способность к «малюсенький" обучение. В отличие от обычных моделей, которым требуется большое количество конкретных обучающих данных, LLM могут обобщать очень ограниченное количество примеров (или «выстрелов»).

Состояние моделей больших языков (LLM) по состоянию на середину 2023 г.

Название модели Застройщик Параметры Наличие и доступ Примечательные особенности и замечания
GPT-4 OpenAI 1.5 триллиона Не с открытым исходным кодом, только доступ к API Впечатляющая производительность в различных задачах, может обрабатывать изображения и текст, максимальная длина ввода 32,768 XNUMX токенов
GPT-3 OpenAI 175 млрд Не с открытым исходным кодом, только доступ к API Продемонстрированы возможности обучения с несколькими и нулевыми выстрелами. Выполняет завершение текста на естественном языке.
BLOOM большая наука 176 млрд Загружаемая модель, доступный размещенный API Многоязычный LLM, разработанный в результате глобального сотрудничества. Поддерживает 13 языков программирования.
ЛаМДА Google 173 млрд Не с открытым исходным кодом, без API или загрузки Обученный диалогу, может научиться говорить практически обо всем
МТ-НЛГ Нвидиа/Майкрософт 530 млрд Доступ к API по приложению Использует архитектуру Megatron на основе трансформатора для различных задач NLP.
ЛАМА Мета ИИ от 7Б до 65Б) Загружается приложением Предназначен для демократизации ИИ, предлагая доступ к исследованиям, правительству и академическим кругам.

Как используются LLM?

LLM можно использовать несколькими способами, в том числе:

  1. Прямое использование: простое использование предварительно обученного LLM для генерации или обработки текста. Например, использование GPT-4 для написания сообщения в блоге без дополнительной тонкой настройки.
  2. Точная настройка: адаптация предварительно обученного LLM для конкретной задачи. Этот метод известен как трансферное обучение. Примером может служить настройка T5 для создания сводок для документов в конкретной отрасли.
  3. Поиск информации: использование LLM, таких как BERT или GPT, как части более крупных архитектур для разработки систем, которые могут извлекать и классифицировать информацию.
Генеративный AI ChatGPT Fine Tuning
Архитектура тонкой настройки ChatGPT

Многоголовое внимание: зачем одно, если можно иметь много?

Однако использование одного механизма внимания может быть ограниченным. Различные слова или последовательности в тексте могут иметь разную релевантность или ассоциации. Вот тут-то и появляется внимание с несколькими заголовками. Вместо одного набора весов внимания внимание с несколькими заголовками использует несколько наборов, что позволяет модели фиксировать более широкий спектр отношений во входном тексте. Каждая «голова» внимания может фокусироваться на разных частях или аспектах входных данных, и их объединенные знания используются для окончательного прогноза.

ChatGPT: самый популярный инструмент генеративного ИИ

С момента создания GPT в 2018 году модель, по сути, строилась на основе 12 слоёв, 12 головок внимания и 120 миллионов параметров, обученных преимущественно на наборе данных BookCorpus. Это был впечатляющий старт, дающий возможность заглянуть в будущее языковых моделей.

GPT-2, представленный в 2019 году, может похвастаться четырехкратным увеличением количества слоев и внимания. Примечательно, что количество его параметров взлетело до 1.5 миллиарда. Эта расширенная версия основана на WebText, наборе данных, обогащенном 40 ГБ текста из различных ссылок Reddit.

GPT-3, запущенный в мае 2020 года, имел 96 слоев, 96 головок внимания и огромное количество параметров в 175 миллиардов. Что отличает GPT-3, так это его разнообразные обучающие данные, охватывающие CommonCrawl, WebText, английскую Википедию, книжные корпуса и другие источники, что в сумме составляет 570 ГБ.

Тонкости работы ChatGPT остаются в строжайшем секрете. Однако известно, что ключевую роль играет процесс, называемый «обучение с подкреплением на основе обратной связи с человеком» (RLHF). Этот метод, зародившийся в более раннем проекте ChatGPT, сыграл ключевую роль в доработке модели GPT-3.5 и её большей согласованности с письменными инструкциями.

Обучение ChatGPT включает трехступенчатый подход:

  1. Контролируемая тонкая настройка: Включает куратор вводных и выводных данных, написанных человеком, для уточнения базовой модели GPT-3.5.
  2. Моделирование вознаграждений: люди ранжируют различные результаты модели по качеству, помогая обучать модель вознаграждений, которая оценивает каждый результат с учетом контекста разговора.
  3. Обучение с подкреплением: разговорный контекст служит фоном, на котором базовая модель предлагает ответ. Этот ответ оценивается моделью вознаграждения, и процесс оптимизируется с использованием алгоритма, называемого оптимизацией проксимальной политики (PPO).

Для тех, кто только начинает знакомиться с ChatGPT, можно найти исчерпывающее руководство по началу работы. здесьЕсли вы хотите глубже изучить разработку подсказок с помощью ChatGPT, у нас также есть расширенное руководство, освещающее новейшие и передовые методы работы с подсказками, доступное по адресуChatGPT и Advanced Prompt Engineering: движущая сила эволюции ИИ».

Диффузионные и мультимодальные модели

В то время как такие модели, как VAE и GAN, генерируют свои выходные данные за один проход и, следовательно, привязаны к тому, что они производят, диффузионные модели ввели концепцию «итеративное уточнение'. С помощью этого метода они возвращаются назад, исправляя ошибки предыдущих шагов и постепенно получая более совершенный результат.

Центральное место в моделях диффузии занимает искусство «коррупция«и» «уточнение». На этапе обучения типичное изображение постепенно искажается путём добавления шума различной степени сложности. Эта зашумлённая версия затем поступает в модель, которая пытается «понизить уровень шума» или «де-коррекция» изображения. После нескольких циклов модель становится экспертом в восстановлении, распознавая как незначительные, так и существенные аберрации.

Генеративный ИИ — подсказка в середине пути
Изображение создано из Midjourney

Процесс генерации новых изображений после обучения весьма интересен. Начиная с полностью случайных входных данных, он непрерывно совершенствуется с использованием прогнозов модели. Цель — получить идеальное изображение за минимальное количество шагов. Контроль уровня искажений осуществляется с помощью «графика шума» — механизма, который определяет количество шума, применяемого на разных этапах. Планировщик, как это можно увидеть в библиотеках, таких как «диффузоры“, диктует характер этих зашумленных воспроизведений, основанных на установленных алгоритмах.

Существенной архитектурной основой для многих моделей распространения является Ун— сверточная нейронная сеть, разработанная для задач, требующих выходных данных, отражающих пространственное измерение входных данных. Она представляет собой сочетание слоёв понижающей и повышающей дискретизации, сложно связанных между собой для сохранения данных высокого разрешения, что критически важно для выходных данных, связанных с изображениями.

Углубляясь в сферу генеративных моделей, OpenAI ДАЛЛ-Э 2 является ярким примером слияния текстовых и визуальных возможностей ИИ. Он использует трехуровневую структуру:

DALL-E 2 демонстрирует тройную архитектуру:

  1. Текстовый кодер: преобразует текстовую подсказку в концептуальное встраивание в скрытое пространство. Эта модель не начинается с нуля. Она опирается на метод предобучения OpenAI Contrastive Language–Image (CLIP) набор данных в качестве его основы. CLIP служит мостом между визуальными и текстовыми данными, изучая визуальные концепции с использованием естественного языка. С помощью механизма, известного как контрастное обучение, он идентифицирует изображения и сопоставляет их с соответствующими текстовыми описаниями.
  2. Предыдущий: вложение текста, полученное из кодировщика, затем преобразуется во встраивание изображения. DALL-E 2 протестировал для этой задачи как авторегрессионный, так и диффузионный методы, причем последний продемонстрировал превосходные результаты. Модели авторегрессии, как видно из Transformers и PixelCNN, генерируют выходные данные последовательно. С другой стороны, диффузионные модели, подобные той, что используется в DALL-E 2, преобразуют случайный шум в прогнозируемые вложения изображений с помощью встраивания текста.
  3. Декодер: кульминация процесса. Эта часть генерирует финальный визуальный результат на основе текстовой подсказки и изображения, вставленного на предыдущем этапе. Декодер DALL.E 2 основан на архитектуре другой модели, GLIDE, который также может создавать реалистичные изображения из текстовых сигналов.
Архитектура модели DALL-E (диффузионная мультимодель)
Упрощенная архитектура модели DALL-E

Пользователи Python, заинтересованные в Ленгчейн следует ознакомиться с нашим подробным руководством, охватывающим все, от основ до продвинутых методов.

Приложения генеративного ИИ

Текстовые домены

Начиная с текста, генеративный ИИ был коренным образом изменен такими чат-ботами, как ChatGPT. В значительной степени полагаясь на обработку естественного языка (NLP) и большие языковые модели (LLM), эти объекты могут выполнять самые разные задачи: от генерации кода и языкового перевода до обобщения и анализа настроений. Например, ChatGPT получил широкое распространение и стал основным продуктом для миллионов людей. Это дополнительно дополняется диалоговыми платформами искусственного интеллекта, основанными на LLM, таких как GPT-4, Пальма и BLOOM, которые легко создают текст, помогают в программировании и даже предлагают математические рассуждения.

С коммерческой точки зрения эти модели становятся бесценными. Компании используют их для множества операций, включая управление рисками, оптимизацию запасов и прогнозирование потребностей. Среди известных примеров — Bing AI, Google BARD и ChatGPT API.

Искусство

Мир изображений претерпел радикальные изменения благодаря генеративному ИИ, особенно с момента появления DALL-E 2 в 2022 году. Эта технология, позволяющая генерировать изображения по текстовым подсказкам, имеет как художественное, так и профессиональное значение. Например, Midjourney использовала эту технологию для создания впечатляюще реалистичных изображений. Эта недавняя публикация демистифицирует Midjourney в подробном руководстве, разъясняющем как платформу, так и ее быстрые инженерные тонкости. Кроме того, такие платформы, как Alpaca AI и Photoroom AI, используют генеративный ИИ для расширенных функций редактирования изображений, таких как удаление фона, удаление объектов и даже восстановление лица.

Продакшн

Видеопроизводство, пока находящееся на начальном этапе развития в сфере генеративного ИИ, демонстрирует многообещающие достижения. Такие платформы, как Imagen Video, Meta Make A Video и Runway Gen-2, раздвигают границы возможного, хотя по-настоящему реалистичные результаты пока ещё не достигнуты. Эти модели предлагают существенный потенциал для создания цифровых видеороликов с участием людей, и лидируют в этом направлении такие приложения, как Synthesia и SuperCreator. В частности, Tavus AI предлагает уникальное торговое предложение, персонализируя видео для отдельных зрителей, что является настоящим подарком для бизнеса.

Создание кода

Программирование, неотъемлемая часть нашего цифрового мира, не осталось без внимания генеративного ИИ. Хотя ChatGPT — популярный инструмент, для программирования разработано несколько других приложений на основе ИИ. Такие платформы, как GitHub Copilot, Alphacode и CodeComplete, служат помощниками в программировании и даже могут генерировать код из текстовых подсказок. Интересна адаптивность этих инструментов. Codex, движущая сила GitHub Copilot, может быть адаптирован к индивидуальному стилю кодирования, что подчёркивает потенциал персонализации генеративного ИИ.

Заключение

Сочетая в себе творческий потенциал человека и машинные вычисления, он превратился в бесценный инструмент, а такие платформы, как ChatGPT и DALL-E 2, раздвигают границы возможного. Области их применения обширны и разнообразны: от создания текстового контента до создания визуальных шедевров.

Как и в случае с любой технологией, этические аспекты имеют первостепенное значение. Хотя генеративный ИИ обещает безграничные возможности для творчества, крайне важно применять его ответственно, осознавая потенциальную предвзятость и возможности манипуляции данными.

С ростом доступности таких инструментов, как ChatGPT, сейчас самое время прощупать почву и поэкспериментировать. Независимо от того, являетесь ли вы художником, программистом или энтузиастом технологий, сфера генеративного ИИ полна возможностей, которые ждут своего исследователя. Революция не маячит на горизонте, она уже здесь и сейчас. Итак, ныряйте!

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.