Best Of
5 лучших программ LLM с открытым исходным кодом (май 2024 г.)
В быстро развивающемся мире искусственного интеллекта (ИИ) модели больших языков (LLM) стали краеугольным камнем, стимулируя инновации и изменяя способ нашего взаимодействия с технологиями.
По мере того как эти модели становятся все более изощренными, все больше внимания уделяется демократизации доступа к ним. Модели с открытым исходным кодом, в частности, играют ключевую роль в этой демократизации, предлагая исследователям, разработчикам и энтузиастам возможность углубиться в их тонкости, настроить их для конкретных задач или даже развить их основы.
В этом блоге мы рассмотрим некоторые из лучших LLM с открытым исходным кодом, которые производят фурор в сообществе ИИ, каждый из которых обладает своими уникальными преимуществами и возможностями.
1. Llama 2
Llama 2 от Meta — революционное дополнение к их линейке моделей с искусственным интеллектом. Это не просто еще одна модель; он предназначен для поддержки целого ряда современных приложений. Тренировочные данные Llama 2 обширны и разнообразны, что делает его значительным шагом вперед по сравнению с его предшественником. Это разнообразие в обучении гарантирует, что Llama 2 — это не просто постепенное улучшение, а монументальный шаг к будущему взаимодействий, управляемых ИИ.
Сотрудничество между Meta и Microsoft расширило горизонты для Llama 2. Модель с открытым исходным кодом теперь поддерживается на таких платформах, как Azure и Windows, с целью предоставить разработчикам и организациям инструменты для создания генеративного опыта на основе ИИ. Это партнерство подчеркивает стремление обеих компаний сделать ИИ более доступным и открытым для всех.
Llama 2 — это не просто преемник оригинальной модели Llama; это представляет собой смену парадигмы на арене чат-ботов. Хотя первая модель Llama была революционной в создании текста и кода, ее доступность была ограничена, чтобы предотвратить неправильное использование. С другой стороны, «Лама 2» рассчитана на более широкую аудиторию. Он оптимизирован для таких платформ, как AWS, Azure и платформа хостинга модели искусственного интеллекта Hugging Face. Более того, благодаря сотрудничеству Meta с Microsoft Llama 2 готова оставить свой след не только на Windows, но и на устройствах, работающих на базе системы Qualcomm Snapdragon на кристалле.
Безопасность лежит в основе дизайна Llama 2. Признавая проблемы, с которыми сталкивались более ранние модели больших языков, такие как GPT, которые иногда создавали вводящее в заблуждение или вредоносное содержимое, Meta приняла обширные меры для обеспечения надежности Llama 2. Модель прошла тщательную подготовку, чтобы свести к минимуму «галлюцинации», дезинформацию и предубеждения.
Основные характеристики LLaMa 2:
- Разнообразные тренировочные данные: Тренировочные данные Llama 2 обширны и разнообразны, что обеспечивает всестороннее понимание и производительность.
- Сотрудничество с Майкрософт: Llama 2 поддерживается на таких платформах, как Azure и Windows, что расширяет область его применения.
- Открытая доступность: В отличие от своего предшественника, Llama 2 доступна для более широкой аудитории и готова к тонкой настройке на нескольких платформах.
- Ориентированный на безопасность дизайн: Meta уделяет особое внимание безопасности, гарантируя, что Llama 2 дает точные и надежные результаты при минимизации вредных выходов.
- Оптимизированные версии: Llama 2 поставляется в двух основных версиях — Llama 2 и Llama 2-Chat, причем последняя специально разработана для двусторонних разговоров. Эти версии имеют сложность от 7 до 70 миллиардов параметров.
- Расширенное обучение: Лама 2 была обучена на двух миллионах жетонов, что значительно больше, чем 1.4 триллиона токенов оригинальной ламы.
2. Цвести
В 2022 году в результате глобального сотрудничества с участием волонтеров из более чем 70 стран и экспертов Hugging Face был представлен проект BLOOM. Эта большая языковая модель (LLM), созданная в рамках годовой инициативы, предназначена для авторегрессионной генерации текста, способной расширять заданное текстовое приглашение. Он был обучен на огромном массиве текстовых данных с использованием значительной вычислительной мощности.
Дебют BLOOM стал значительным шагом на пути к тому, чтобы сделать технологию генеративного искусственного интеллекта более доступной. Будучи программой LLM с открытым исходным кодом, она может похвастаться 176 миллиардами параметров, что делает ее одной из самых мощных в своем классе. BLOOM способен генерировать связный и точный текст на 46 языках и 13 языках программирования.
В проекте подчеркивается прозрачность, предоставляющая публичный доступ к исходному коду и данным обучения. Такая открытость предполагает постоянное изучение, использование и совершенствование модели.
Доступный бесплатно через платформу Hugging Face, BLOOM является свидетельством совместных инноваций в области искусственного интеллекта.
Основные особенности Bloom:
- Многоязычные возможности: BLOOM умеет генерировать текст на 46 языках и 13 языках программирования, демонстрируя свой широкий лингвистический диапазон.
- Доступ к открытому исходному коду: Исходный код модели и данные обучения общедоступны, что способствует прозрачности и совместному совершенствованию.
- Авторегрессионная генерация текста: Разработанный для продолжения текста из заданной подсказки, BLOOM превосходно расширяет и завершает текстовые последовательности.
- Огромное количество параметров: Благодаря 176 миллиардам параметров BLOOM считается одной из самых мощных существующих программ LLM с открытым исходным кодом.
- Глобальное сотрудничество: Разработан в рамках годового проекта при участии волонтеров из более чем 70 стран и исследователей Hugging Face.
- Бесплатная доступность: Пользователи могут получить доступ к BLOOM и использовать его бесплатно через экосистему Hugging Face, что повышает ее демократизацию в области искусственного интеллекта.
- Обучение в промышленном масштабе: Модель была обучена на огромных объемах текстовых данных с использованием значительных вычислительных ресурсов, что обеспечило надежную производительность.
3. МПТ-7Б
MosaicML Foundations внесли значительный вклад в это пространство, представив MPT-7B, свою последнюю LLM с открытым исходным кодом. MPT-7B, аббревиатура от MosaicML Pretrained Transformer, представляет собой модель преобразователя в стиле GPT, предназначенную только для декодера. Эта модель может похвастаться несколькими улучшениями, в том числе реализациями слоев с оптимизированной производительностью и архитектурными изменениями, которые обеспечивают большую стабильность обучения.
Выдающейся особенностью MPT-7B является его обучение на обширном наборе данных, содержащем 1 триллион токенов текста и кода. Это тщательное обучение проводилось на платформе MosaicML в течение 9.5 дней.
Открытый исходный код MPT-7B позиционирует его как ценный инструмент для коммерческих приложений. Он может существенно повлиять на прогнозную аналитику и процессы принятия решений в компаниях и организациях.
В дополнение к базовой модели MosaicML Foundations также выпускает специализированные модели, адаптированные для конкретных задач, такие как MPT-7B-Instruct для выполнения кратких инструкций, MPT-7B-Chat для создания диалогов и MPT-7B-StoryWriter-65k+. для создания длинных историй.
Путь разработки MPT-7B был комплексным: команда MosaicML управляла всеми этапами от подготовки данных до развертывания в течение нескольких недель. Данные были получены из различных репозиториев, и команда использовала такие инструменты, как GPT-NeoX от EleutherAI и токенизатор 20B, чтобы обеспечить разнообразный и всеобъемлющий набор тренировок.
Обзор основных характеристик MPT-7B:
- Коммерческое лицензирование: MPT-7B лицензирован для коммерческого использования, что делает его ценным активом для бизнеса.
- Обширные тренировочные данные: Модель может похвастаться обучением на обширном наборе данных из 1 триллиона токенов.
- Обработка длинного ввода: MPT-7B предназначен для бескомпромиссной обработки очень длинных входных данных.
- Скорость и эффективность: Модель оптимизирована для быстрого обучения и логического вывода, обеспечивая своевременные результаты.
- Открытый исходный код: MPT-7B поставляется с эффективным обучающим кодом с открытым исходным кодом, обеспечивающим прозрачность и простоту использования.
- Сравнительное превосходство: MPT-7B продемонстрировал превосходство над другими моделями с открытым исходным кодом в диапазоне 7B-20B, а его качество не уступает LLaMA-7B.
4. Cокол
Falcon LLM — это модель, которая быстро поднялась на вершину иерархии LLM. Falcon LLM, в частности Falcon-40B, является базовым LLM, оснащенным 40 миллиардами параметров и обученным на впечатляющем количестве в один триллион токенов. Он работает как модель авторегрессионного декодера, что, по сути, означает, что он предсказывает последующий токен в последовательности на основе предыдущих токенов. Эта архитектура напоминает модель GPT. Примечательно, что архитектура Falcon продемонстрировала более высокую производительность по сравнению с GPT-3, достигнув этого результата всего за 75 % бюджета на обучающие вычисления и требуя значительно меньше вычислений во время логического вывода.
Команда Института технологических инноваций уделяла большое внимание качеству данных при разработке Falcon. Признавая чувствительность LLM к качеству обучающих данных, они построили конвейер данных, масштабируемый до десятков тысяч ядер ЦП. Это позволило быстро обрабатывать и извлекать высококачественный контент из Интернета за счет расширенных процессов фильтрации и дедупликации.
Помимо Falcon-40B, TII представила и другие версии, в том числе Falcon-7B, обладающую 7 миллиардами параметров и обученную на 1,500 40 миллиардах токенов. Существуют также специализированные модели, такие как Falcon-7B-Instruct и Falcon-XNUMXB-Instruct, заточенные под конкретные задачи.
Подготовка Falcon-40B была длительным процессом. Модель была обучена на наборе данных RefinedWeb, массивном наборе данных на английском языке, созданном TII. Этот набор данных был создан на основе CommonCrawl и прошел тщательную фильтрацию для обеспечения качества. После того, как модель была подготовлена, она была проверена с помощью нескольких тестов с открытым исходным кодом, включая EAI Harness, HELM и BigBench.
Обзор основных характеристик Falcon LLM:
- Расширенные параметры: Falcon-40B оснащен 40 миллиардами параметров, обеспечивающими всестороннее обучение и производительность.
- Модель авторегрессионного декодера: Эта архитектура позволяет Falcon предсказывать последующие токены на основе предыдущих, подобно модели GPT.
- Превосходную производительность: Falcon превосходит GPT-3, используя только 75 % бюджета на тренировочные вычисления.
- Высококачественный конвейер данных: Конвейер данных TII обеспечивает извлечение высококачественного контента из Интернета, что имеет решающее значение для обучения модели.
- Разнообразие моделей: Помимо Falcon-40B, TII предлагает Falcon-7B и специализированные модели, такие как Falcon-40B-Instruct и Falcon-7B-Instruct.
- Доступность с открытым исходным кодом: Falcon LLM имеет открытый исходный код, что способствует доступности и инклюзивности в области ИИ.
5. Викунья-13Б
LMSYS ORG оставила значительный след в области LLM с открытым исходным кодом, представив Vicuna-13B. Этот чат-бот с открытым исходным кодом прошел тщательную подготовку путем точной настройки LLaMA на общих разговорах пользователей, полученных из ShareGPT. Предварительные оценки с GPT-4, выступающим в качестве судьи, показывают, что Vicuna-13B достигает более 90% качества известных моделей, таких как OpenAI ChatGPT и Google Bard.
Впечатляет, что Vicuna-13B превосходит другие известные модели, такие как LLaMA и Stanford Alpaca, более чем в 90% случаев. Весь процесс обучения Vicuna-13B был выполнен примерно за 300 долларов. Для тех, кто заинтересован в изучении его возможностей, код, веса и онлайн-демонстрация были опубликованы в некоммерческих целях.
Модель Vicuna-13B была доработана с учетом 70 4 общих разговоров пользователей ChatGPT, что позволяет ей генерировать более подробные и хорошо структурированные ответы. Качество этих ответов сравнимо с ChatGPT. Однако оценка чат-ботов — сложная задача. С достижениями в GPT-4 растет интерес к его потенциалу использования в качестве автоматизированной среды оценки для создания эталонных тестов и оценки производительности. Первоначальные результаты показывают, что GPT-4 может давать согласованные ранги и подробные оценки при сравнении ответов чат-ботов. Предварительные оценки, основанные на GPT-90, показывают, что Vicuna достигает XNUMX% возможностей таких моделей, как Bard/ChatGPT.
Обзор основных характеристик Vicuna-13B:
- Природа с открытым исходным кодом: Vicuna-13B доступна для публичного доступа, что способствует прозрачности и участию сообщества.
- Обширные тренировочные данные: Модель была обучена на 70 XNUMX разговоров пользователей, что обеспечивает всестороннее понимание различных взаимодействий.
- Конкурентная производительность: Производительность Vicuna-13B не уступает лидерам отрасли, таким как ChatGPT и Google Bard.
- Экономичное обучение: Весь процесс обучения Vicuna-13B был выполнен с небольшой стоимостью около 300 долларов.
- Тонкая настройка LLaMA: Модель была точно настроена на LLaMA, что обеспечивает повышенную производительность и качество отклика.
- Доступность онлайн-демонстрации: Интерактивная онлайн-демонстрация доступна для пользователей, чтобы протестировать и испытать возможности Vicuna-13B.
Расширяющаяся область больших языковых моделей
Сфера больших языковых моделей обширна и постоянно расширяется, и каждая новая модель раздвигает границы возможного. Открытый исходный код LLM, обсуждаемый в этом блоге, не только демонстрирует дух сотрудничества сообщества ИИ, но и прокладывает путь для будущих инноваций.
Эти модели, от впечатляющих возможностей чат-бота Vicuna до превосходных показателей производительности Falcon, представляют собой вершину современной технологии LLM. Поскольку мы продолжаем наблюдать стремительный прогресс в этой области, становится ясно, что модели с открытым исходным кодом будут играть решающую роль в формировании будущего ИИ.
Являетесь ли вы опытным исследователем, подающим надежды энтузиастом ИИ или человеком, интересующимся потенциалом этих моделей, самое время погрузиться в них и изучить огромные возможности, которые они предлагают.