заглушки 5 лучших программ LLM с открытым исходным кодом (май 2024 г.) - Unite.AI
Свяжитесь с нами:
Массив ( [ID] => 1 [имя_пользователя] => Антуан [фамилия_пользователя] => Тардиф [никнейм] => Антуан Тардиф [имя_пользователя] => admin [отображаемое_имя] => Антуан Тардиф [адрес_пользователя] => [электронная почта защищена]
    [user_url] => [user_registered] => 2018 08:27:14 [user_description] => Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники. Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии. [user_avatar] => mm
)

Best Of

5 лучших программ LLM с открытым исходным кодом (май 2024 г.)

обновленный on
LLM с открытым исходным кодом

В быстро развивающемся мире искусственного интеллекта (ИИ) модели больших языков (LLM) стали краеугольным камнем, стимулируя инновации и изменяя способ нашего взаимодействия с технологиями.

По мере того как эти модели становятся все более изощренными, все больше внимания уделяется демократизации доступа к ним. Модели с открытым исходным кодом, в частности, играют ключевую роль в этой демократизации, предлагая исследователям, разработчикам и энтузиастам возможность углубиться в их тонкости, настроить их для конкретных задач или даже развить их основы.

В этом блоге мы рассмотрим некоторые из лучших LLM с открытым исходным кодом, которые производят фурор в сообществе ИИ, каждый из которых обладает своими уникальными преимуществами и возможностями.

1. Llama 2

Llama 2 от Meta — революционное дополнение к их линейке моделей с искусственным интеллектом. Это не просто еще одна модель; он предназначен для поддержки целого ряда современных приложений. Тренировочные данные Llama 2 обширны и разнообразны, что делает его значительным шагом вперед по сравнению с его предшественником. Это разнообразие в обучении гарантирует, что Llama 2 — это не просто постепенное улучшение, а монументальный шаг к будущему взаимодействий, управляемых ИИ.

Сотрудничество между Meta и Microsoft расширило горизонты для Llama 2. Модель с открытым исходным кодом теперь поддерживается на таких платформах, как Azure и Windows, с целью предоставить разработчикам и организациям инструменты для создания генеративного опыта на основе ИИ. Это партнерство подчеркивает стремление обеих компаний сделать ИИ более доступным и открытым для всех.

Llama 2 — это не просто преемник оригинальной модели Llama; это представляет собой смену парадигмы на арене чат-ботов. Хотя первая модель Llama была революционной в создании текста и кода, ее доступность была ограничена, чтобы предотвратить неправильное использование. С другой стороны, «Лама 2» рассчитана на более широкую аудиторию. Он оптимизирован для таких платформ, как AWS, Azure и платформа хостинга модели искусственного интеллекта Hugging Face. Более того, благодаря сотрудничеству Meta с Microsoft Llama 2 готова оставить свой след не только на Windows, но и на устройствах, работающих на базе системы Qualcomm Snapdragon на кристалле.

Безопасность лежит в основе дизайна Llama 2. Признавая проблемы, с которыми сталкивались более ранние модели больших языков, такие как GPT, которые иногда создавали вводящее в заблуждение или вредоносное содержимое, Meta приняла обширные меры для обеспечения надежности Llama 2. Модель прошла тщательную подготовку, чтобы свести к минимуму «галлюцинации», дезинформацию и предубеждения.

Основные характеристики LLaMa 2:

  • Разнообразные тренировочные данные: Тренировочные данные Llama 2 обширны и разнообразны, что обеспечивает всестороннее понимание и производительность.
  • Сотрудничество с Майкрософт: Llama 2 поддерживается на таких платформах, как Azure и Windows, что расширяет область его применения.
  • Открытая доступность: В отличие от своего предшественника, Llama 2 доступна для более широкой аудитории и готова к тонкой настройке на нескольких платформах.
  • Ориентированный на безопасность дизайн: Meta уделяет особое внимание безопасности, гарантируя, что Llama 2 дает точные и надежные результаты при минимизации вредных выходов.
  • Оптимизированные версии: Llama 2 поставляется в двух основных версиях — Llama 2 и Llama 2-Chat, причем последняя специально разработана для двусторонних разговоров. Эти версии имеют сложность от 7 до 70 миллиардов параметров.
  • Расширенное обучение: Лама 2 была обучена на двух миллионах жетонов, что значительно больше, чем 1.4 триллиона токенов оригинальной ламы.

2. Цвести

В 2022 году в результате глобального сотрудничества с участием волонтеров из более чем 70 стран и экспертов Hugging Face был представлен проект BLOOM. Эта большая языковая модель (LLM), созданная в рамках годовой инициативы, предназначена для авторегрессионной генерации текста, способной расширять заданное текстовое приглашение. Он был обучен на огромном массиве текстовых данных с использованием значительной вычислительной мощности.

Дебют BLOOM стал значительным шагом на пути к тому, чтобы сделать технологию генеративного искусственного интеллекта более доступной. Будучи программой LLM с открытым исходным кодом, она может похвастаться 176 миллиардами параметров, что делает ее одной из самых мощных в своем классе. BLOOM способен генерировать связный и точный текст на 46 языках и 13 языках программирования.

В проекте подчеркивается прозрачность, предоставляющая публичный доступ к исходному коду и данным обучения. Такая открытость предполагает постоянное изучение, использование и совершенствование модели.

Доступный бесплатно через платформу Hugging Face, BLOOM является свидетельством совместных инноваций в области искусственного интеллекта.

Основные особенности Bloom:

  • Многоязычные возможности: BLOOM умеет генерировать текст на 46 языках и 13 языках программирования, демонстрируя свой широкий лингвистический диапазон.
  • Доступ к открытому исходному коду: Исходный код модели и данные обучения общедоступны, что способствует прозрачности и совместному совершенствованию.
  • Авторегрессионная генерация текста: Разработанный для продолжения текста из заданной подсказки, BLOOM превосходно расширяет и завершает текстовые последовательности.
  • Огромное количество параметров: Благодаря 176 миллиардам параметров BLOOM считается одной из самых мощных существующих программ LLM с открытым исходным кодом.
  • Глобальное сотрудничество: Разработан в рамках годового проекта при участии волонтеров из более чем 70 стран и исследователей Hugging Face.
  • Бесплатная доступность: Пользователи могут получить доступ к BLOOM и использовать его бесплатно через экосистему Hugging Face, что повышает ее демократизацию в области искусственного интеллекта.
  • Обучение в промышленном масштабе: Модель была обучена на огромных объемах текстовых данных с использованием значительных вычислительных ресурсов, что обеспечило надежную производительность.

3. МПТ-7Б

MosaicML Foundations внесли значительный вклад в это пространство, представив MPT-7B, свою последнюю LLM с открытым исходным кодом. MPT-7B, аббревиатура от MosaicML Pretrained Transformer, представляет собой модель преобразователя в стиле GPT, предназначенную только для декодера. Эта модель может похвастаться несколькими улучшениями, в том числе реализациями слоев с оптимизированной производительностью и архитектурными изменениями, которые обеспечивают большую стабильность обучения.

Выдающейся особенностью MPT-7B является его обучение на обширном наборе данных, содержащем 1 триллион токенов текста и кода. Это тщательное обучение проводилось на платформе MosaicML в течение 9.5 дней.

Открытый исходный код MPT-7B позиционирует его как ценный инструмент для коммерческих приложений. Он может существенно повлиять на прогнозную аналитику и процессы принятия решений в компаниях и организациях.

В дополнение к базовой модели MosaicML Foundations также выпускает специализированные модели, адаптированные для конкретных задач, такие как MPT-7B-Instruct для выполнения кратких инструкций, MPT-7B-Chat для создания диалогов и MPT-7B-StoryWriter-65k+. для создания длинных историй.

Путь разработки MPT-7B был комплексным: команда MosaicML управляла всеми этапами от подготовки данных до развертывания в течение нескольких недель. Данные были получены из различных репозиториев, и команда использовала такие инструменты, как GPT-NeoX от EleutherAI и токенизатор 20B, чтобы обеспечить разнообразный и всеобъемлющий набор тренировок.

Обзор основных характеристик MPT-7B:

  • Коммерческое лицензирование: MPT-7B лицензирован для коммерческого использования, что делает его ценным активом для бизнеса.
  • Обширные тренировочные данные: Модель может похвастаться обучением на обширном наборе данных из 1 триллиона токенов.
  • Обработка длинного ввода: MPT-7B предназначен для бескомпромиссной обработки очень длинных входных данных.
  • Скорость и эффективность: Модель оптимизирована для быстрого обучения и логического вывода, обеспечивая своевременные результаты.
  • Открытый исходный код: MPT-7B поставляется с эффективным обучающим кодом с открытым исходным кодом, обеспечивающим прозрачность и простоту использования.
  • Сравнительное превосходство: MPT-7B продемонстрировал превосходство над другими моделями с открытым исходным кодом в диапазоне 7B-20B, а его качество не уступает LLaMA-7B.

4. Cокол

Falcon LLM — это модель, которая быстро поднялась на вершину иерархии LLM. Falcon LLM, в частности Falcon-40B, является базовым LLM, оснащенным 40 миллиардами параметров и обученным на впечатляющем количестве в один триллион токенов. Он работает как модель авторегрессионного декодера, что, по сути, означает, что он предсказывает последующий токен в последовательности на основе предыдущих токенов. Эта архитектура напоминает модель GPT. Примечательно, что архитектура Falcon продемонстрировала более высокую производительность по сравнению с GPT-3, достигнув этого результата всего за 75 % бюджета на обучающие вычисления и требуя значительно меньше вычислений во время логического вывода.

Команда Института технологических инноваций уделяла большое внимание качеству данных при разработке Falcon. Признавая чувствительность LLM к качеству обучающих данных, они построили конвейер данных, масштабируемый до десятков тысяч ядер ЦП. Это позволило быстро обрабатывать и извлекать высококачественный контент из Интернета за счет расширенных процессов фильтрации и дедупликации.

Помимо Falcon-40B, TII представила и другие версии, в том числе Falcon-7B, обладающую 7 миллиардами параметров и обученную на 1,500 40 миллиардах токенов. Существуют также специализированные модели, такие как Falcon-7B-Instruct и Falcon-XNUMXB-Instruct, заточенные под конкретные задачи.

Подготовка Falcon-40B была длительным процессом. Модель была обучена на наборе данных RefinedWeb, массивном наборе данных на английском языке, созданном TII. Этот набор данных был создан на основе CommonCrawl и прошел тщательную фильтрацию для обеспечения качества. После того, как модель была подготовлена, она была проверена с помощью нескольких тестов с открытым исходным кодом, включая EAI Harness, HELM и BigBench.

Обзор основных характеристик Falcon LLM:

  • Расширенные параметры: Falcon-40B оснащен 40 миллиардами параметров, обеспечивающими всестороннее обучение и производительность.
  • Модель авторегрессионного декодера: Эта архитектура позволяет Falcon предсказывать последующие токены на основе предыдущих, подобно модели GPT.
  • Превосходную производительность: Falcon превосходит GPT-3, используя только 75 % бюджета на тренировочные вычисления.
  • Высококачественный конвейер данных: Конвейер данных TII обеспечивает извлечение высококачественного контента из Интернета, что имеет решающее значение для обучения модели.
  • Разнообразие моделей: Помимо Falcon-40B, TII предлагает Falcon-7B и специализированные модели, такие как Falcon-40B-Instruct и Falcon-7B-Instruct.
  • Доступность с открытым исходным кодом: Falcon LLM имеет открытый исходный код, что способствует доступности и инклюзивности в области ИИ.

5. Викунья-13Б

LMSYS ORG оставила значительный след в области LLM с открытым исходным кодом, представив Vicuna-13B. Этот чат-бот с открытым исходным кодом прошел тщательную подготовку путем точной настройки LLaMA на общих разговорах пользователей, полученных из ShareGPT. Предварительные оценки с GPT-4, выступающим в качестве судьи, показывают, что Vicuna-13B достигает более 90% качества известных моделей, таких как OpenAI ChatGPT и Google Bard.

Впечатляет, что Vicuna-13B превосходит другие известные модели, такие как LLaMA и Stanford Alpaca, более чем в 90% случаев. Весь процесс обучения Vicuna-13B был выполнен примерно за 300 долларов. Для тех, кто заинтересован в изучении его возможностей, код, веса и онлайн-демонстрация были опубликованы в некоммерческих целях.

Модель Vicuna-13B была доработана с учетом 70 4 общих разговоров пользователей ChatGPT, что позволяет ей генерировать более подробные и хорошо структурированные ответы. Качество этих ответов сравнимо с ChatGPT. Однако оценка чат-ботов — сложная задача. С достижениями в GPT-4 растет интерес к его потенциалу использования в качестве автоматизированной среды оценки для создания эталонных тестов и оценки производительности. Первоначальные результаты показывают, что GPT-4 может давать согласованные ранги и подробные оценки при сравнении ответов чат-ботов. Предварительные оценки, основанные на GPT-90, показывают, что Vicuna достигает XNUMX% возможностей таких моделей, как Bard/ChatGPT.

Обзор основных характеристик Vicuna-13B:

  • Природа с открытым исходным кодом: Vicuna-13B доступна для публичного доступа, что способствует прозрачности и участию сообщества.
  • Обширные тренировочные данные: Модель была обучена на 70 XNUMX разговоров пользователей, что обеспечивает всестороннее понимание различных взаимодействий.
  • Конкурентная производительность: Производительность Vicuna-13B не уступает лидерам отрасли, таким как ChatGPT и Google Bard.
  • Экономичное обучение: Весь процесс обучения Vicuna-13B был выполнен с небольшой стоимостью около 300 долларов.
  • Тонкая настройка LLaMA: Модель была точно настроена на LLaMA, что обеспечивает повышенную производительность и качество отклика.
  • Доступность онлайн-демонстрации: Интерактивная онлайн-демонстрация доступна для пользователей, чтобы протестировать и испытать возможности Vicuna-13B.

Расширяющаяся область больших языковых моделей

Сфера больших языковых моделей обширна и постоянно расширяется, и каждая новая модель раздвигает границы возможного. Открытый исходный код LLM, обсуждаемый в этом блоге, не только демонстрирует дух сотрудничества сообщества ИИ, но и прокладывает путь для будущих инноваций.

Эти модели, от впечатляющих возможностей чат-бота Vicuna до превосходных показателей производительности Falcon, представляют собой вершину современной технологии LLM. Поскольку мы продолжаем наблюдать стремительный прогресс в этой области, становится ясно, что модели с открытым исходным кодом будут играть решающую роль в формировании будущего ИИ.

Являетесь ли вы опытным исследователем, подающим надежды энтузиастом ИИ или человеком, интересующимся потенциалом этих моделей, самое время погрузиться в них и изучить огромные возможности, которые они предлагают.

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.