Artificial Intelligence

Битва языковых моделей с открытым и закрытым исходным кодом: технический анализ

опубликованный

3 меc. назад

12 февраля 2024

LLM с открытым исходным кодом или с закрытым исходным кодом

В последние годы большие языковые модели (LLM) привлекли внимание сообщества искусственного интеллекта, что привело к прорывам в области обработки естественного языка. За шумихой стоит сложная дискуссия: должны ли эти мощные модели иметь открытый или закрытый исходный код?

В этой статье мы проанализируем техническую разницу между этими подходами, чтобы понять возможности и ограничения, которые каждый из них представляет. Мы рассмотрим следующие ключевые аспекты:

Определение LLM с открытым и закрытым исходным кодом
Архитектурная прозрачность и настраиваемость
Сравнительный анализ производительности
Вычислительные требования
Универсальность применения
Доступность и лицензирование
Конфиденциальность и конфиденциальность данных
Коммерческая поддержка и поддержка

К концу вы получите обоснованное представление о технических компромиссах между LLM с открытым и закрытым исходным кодом, которое поможет вам определить свою собственную стратегию ИИ. Давайте погрузимся!

Определение LLM с открытым и закрытым исходным кодом

LLM с открытым исходным кодом имеют общедоступную модельную архитектуру, исходный код и весовые параметры. Это позволяет исследователям проверять внутренние компоненты, оценивать качество, воспроизводить результаты и создавать собственные варианты. Ведущие примеры включают в себя ConstitutionalAI от Anthropic, LLaMA от Meta и GPT-NeoX от EleutherAI.

Напротив, LLM с закрытым исходным кодом рассматривают архитектуру и вес модели как собственные активы. Коммерческие организации, такие как Anthropic, DeepMind и OpenAI, разрабатывают их самостоятельно. Без доступного кода или деталей конструкции воспроизводимость и настройка сталкиваются с ограничениями.

Архитектурная прозрачность и настраиваемость

Доступ к внутренним компонентам LLM с открытым исходным кодом открывает возможности настройки, которые просто недоступны при использовании альтернатив с закрытым исходным кодом.

Регулируя архитектуру модели, исследователи могут изучить такие методы, как введение разреженной связи между уровнями или добавление специальных токенов классификации для повышения производительности при выполнении нишевых задач. Имея доступ к весовым параметрам, разработчики могут передавать изученные существующие представления или инициализировать варианты с помощью предварительно обученных строительных блоков, таких как внедрения T5 и BERT.

Эта возможность настройки позволяет LLM с открытым исходным кодом лучше обслуживать специализированные области, такие как биомедицинские исследования, генерация кода и образование. Однако требуемый опыт может стать препятствием на пути реализации качественных реализаций.

LLM с закрытым исходным кодом предлагают ограниченную настройку, поскольку их технические детали остаются собственностью. Однако их спонсоры выделяют обширные ресурсы на внутренние исследования и разработки. Полученные в результате системы расширяют возможности обобщенной архитектуры LLM.

Таким образом, будучи менее гибкими, LLM с закрытым исходным кодом превосходно справляются с широко применимыми задачами на естественном языке. Они также упрощают интеграцию, соответствуя установленным интерфейсам, таким как стандарт OpenAPI.

Тестирование производительности

Несмотря на архитектурную прозрачность, измерение эффективности LLM с открытым исходным кодом сопряжено с проблемами. Их гибкость обеспечивает бесчисленное множество возможных конфигураций и стратегий настройки. Это также позволяет моделям с префиксом «открытый исходный код» фактически включать в себя запатентованные методы, которые искажают сравнения.

LLM с закрытым исходным кодом могут похвастаться более четко определенными целевыми показателями производительности, поскольку их спонсоры сравнивают и рекламируют конкретные пороговые значения показателей. Например, Anthropic публикует информацию о точности конституционного AI в тщательно подобранных наборах задач NLU. Microsoft подчеркивает, как GPT-4 превосходит человеческие базовые возможности в наборе инструментов для понимания языка SuperGLUE.

Тем не менее, эти узко определенные тесты подверглись критике за завышение производительности при выполнении реальных задач и занижение показателей ошибок. По-настоящему объективная оценка LLM остается открытым вопросом исследования – как для подходов с открытым, так и с закрытым исходным кодом.

Вычислительные требования

Обучение больших языковых моделей требует обширных вычислительных ресурсов. OpenAI потратила миллионы на обучение GPT-3 в облачной инфраструктуре, а Anthropic потратила графические процессоры на сумму более 10 миллионов долларов для конституционного AI.

Законопроект о таких моделях исключает большинство отдельных лиц и небольших команд из сообщества открытого исходного кода. Фактически, EleutherAI пришлось удалить модель GPT-J из публичного доступа из-за резкого роста цен на хостинг.

Без глубоких карманов истории успеха LLM с открытым исходным кодом используют пожертвованные вычислительные ресурсы. Компания LAION разработала свою технологическую модель LAION-5B, используя краудсорсинговые данные. Некоммерческий проект Anthropic конституционного искусственного интеллекта использовал компьютеры на добровольных началах.

Крупная технологическая поддержка таких компаний, как Google, Meta и Baidu, обеспечивает усилиям с закрытым исходным кодом финансовое топливо, необходимое для индустриализации развития LLM. Это позволяет масштабировать проект до размеров, непостижимых для массовых инициатив – достаточно взглянуть на модель Gopher с 280 миллиардами параметров от DeepMind.

Универсальность применения

Возможность настройки LLM с открытым исходным кодом позволяет решать узкоспециализированные случаи использования. Исследователи могут активно модифицировать внутренние компоненты модели, чтобы повысить производительность при выполнении нишевых задач, таких как прогнозирование структуры белка, генерация документации кода и проверка математических доказательств.

Тем не менее, возможность доступа и редактирования кода не гарантирует эффективное решение для конкретной предметной области без нужных данных. Комплексные наборы обучающих данных для узких приложений требуют значительных усилий для управления и обновления.

Здесь LLM с закрытым исходным кодом получают выгоду от ресурсов для получения данных обучения из внутренних репозиториев и коммерческих партнеров. Например, DeepMind лицензирует такие базы данных, как ChEMBL для химии и UniProt для белков, чтобы расширить сферу применения. Доступ к данным промышленного масштаба позволяет таким моделям, как Gopher, достигать поразительной универсальности, несмотря на непрозрачность архитектуры.

Доступность и лицензирование

Разрешительное лицензирование программ LLM с открытым исходным кодом способствует свободному доступу и сотрудничеству. Такие модели, как GPT-NeoX, LLaMA и Jurassic-1 Jumbo, используют такие соглашения, как Creative Commons и Apache 2.0, для обеспечения некоммерческих исследований и справедливой коммерциализации.

Напротив, LLM с закрытым исходным кодом имеют ограничительные лицензии, которые ограничивают доступность модели. Коммерческие организации жестко контролируют доступ, чтобы защитить потенциальные потоки доходов от API-интерфейсов прогнозирования и корпоративного партнерства.

Понятно, что такие организации, как Anthropic и Cohere, взимают плату за доступ к интерфейсам ConstitutionalAI и Cohere-512. Однако это рискует обесценить важные области исследований, смещая развитие в сторону хорошо финансируемых отраслей.

Открытое лицензирование также создает проблемы, особенно в отношении установления авторства и ответственности. Однако для исследовательских целей свободы, предоставляемые доступностью открытого исходного кода, предлагают явные преимущества.

Конфиденциальность и конфиденциальность данных

Наборы обучающих данных для LLM обычно объединяют контент из различных онлайн-источников, таких как веб-страницы, научные статьи и дискуссионные форумы. Это рискует обнаружить личную или иную конфиденциальную информацию в выходных данных модели.

Для программ LLM с открытым исходным кодом тщательное изучение состава набора данных обеспечивает лучшую защиту от проблем конфиденциальности. Оценка источников данных, процедуры фильтрации и документирование примеров, обнаруженных в ходе тестирования, могут помочь выявить уязвимости.

К сожалению, программы LLM с закрытым исходным кодом исключают такой публичный аудит. Вместо этого потребители должны полагаться на строгость процессов внутренней проверки, основанных на объявленной политике. Для контекста: Azure Cognitive Services обещает фильтровать личные данные, в то время как Google требует формальных проверок конфиденциальности и маркировки данных.

В целом, LLM с открытым исходным кодом позволяют более активно выявлять риски конфиденциальности в системах ИИ до того, как эти недостатки проявятся в больших масштабах. Закрытые аналоги предлагают относительно ограниченную прозрачность методов обработки данных.

Коммерческое сопровождение и поддержка

Потенциал монетизации LLM с закрытым исходным кодом стимулирует значительные коммерческие инвестиции в разработку и обслуживание. Например, ожидая прибыльных доходов от своего портфеля Azure AI, Microsoft согласилась на многомиллиардное партнерство с OpenAI по моделям GPT.

Напротив, LLM с открытым исходным кодом полагаются на волонтеров, выделяющих личное время на содержание, или на гранты, обеспечивающие ограниченное финансирование. Эта асимметрия ресурсов ставит под угрозу непрерывность и долговечность проектов с открытым исходным кодом.

Однако барьеры на пути коммерциализации также вынуждают сообщества открытого исходного кода сосредоточиться на научном прогрессе, а не на прибыли. А децентрализованный характер открытых экосистем смягчает чрезмерную зависимость от устойчивого интереса какого-либо отдельного спонсора.

В конечном итоге каждый подход требует компромисса в отношении ресурсов и стимулов. LLM с закрытым исходным кодом пользуются большей безопасностью финансирования, но концентрируют влияние. Открытые экосистемы способствуют разнообразию, но страдают от повышенной неопределенности.

Навигация по ландшафту LLM с открытым и закрытым исходным кодом

Выбор между LLM с открытым или закрытым исходным кодом требует сопоставления организационных приоритетов, таких как настраиваемость, доступность и масштабируемость, с возможностями модели.

Для исследователей и стартапов открытый исходный код предоставляет больше возможностей для настройки моделей под конкретные задачи. Лицензирование также облегчает бесплатный обмен информацией между сотрудниками. Однако бремя, связанное с поиском данных и инфраструктуры для обучения, может подорвать жизнеспособность в реальном мире.

И наоборот, LLM с закрытым исходным кодом обещают значительные улучшения качества благодаря достаточному финансированию и данным. Однако ограничения доступа и модификаций ограничивают научную прозрачность и привязывают развертывание к дорожным картам поставщиков.

На практике открытые стандарты в отношении спецификаций архитектуры, контрольных точек модели и данных оценки могут помочь компенсировать недостатки обоих подходов. Общие основы, такие как тесты Google Transformer или тесты REALTO Оксфорда, улучшают воспроизводимость. Стандарты совместимости, такие как ONNX, позволяют смешивать компоненты из открытых и закрытых источников.

В конечном счете, важно выбрать правильный инструмент – с открытым или закрытым исходным кодом – для конкретной работы. Коммерческие организации, поддерживающие LLM с закрытым исходным кодом, имеют неоспоримое влияние. Но страсть и принципы сообществ открытой науки будут продолжать играть решающую роль в развитии ИИ.

Новые технологические тенденции на 2024 год: отчет Mastercard раскрывает влияние генеративного искусственного интеллекта на торговлю

Не пропустите

Состояние многоязычных программ LLM: выходя за рамки английского языка

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.