Лидеры мнений
Переосмысление открытого исходного кода в эпоху генеративного ИИ

Модель открытого исходного кода – этика разработки программного обеспечения, при которой исходный код предлагается бесплатно для публичного распространения или изменения – давно является катализатором инноваций. Идеал родился в 1983 году, когда Ричард Столлман, разработчик программного обеспечения, разочаровался в черном ящике своей закрытой принтера, который не работал.
Его видение вызвало движение за свободное программное обеспечение, проложив путь для экосистемы открытого исходного кода, которая питает большую часть современного интернета и инноваций в программном обеспечении.
Но это было более 40 лет назад.
Сегодня генеративный ИИ, с его уникальными техническими и этическими проблемами, меняет значение “открытости”, требуя, чтобы мы пересмотрели и переоценили парадигму открытого исходного кода – не чтобы отказаться от нее, а чтобы адаптировать ее.
ИИ и свободы открытого исходного кода
Четыре фундаментальные свободы программного обеспечения с открытым исходным кодом – возможность выполнять, изучать, изменять и распространять любой программный код – противоречат природе генеративного ИИ несколькими способами:
- Выполнить: модели ИИ часто требуют очень высоких инфраструктурных и вычислительных затрат, которые ограничивают доступ из-за ограничений ресурсов.
- Изучить и изменить: модели ИИ невероятно сложны, поэтому понимание и изменение их без доступа к коду и данным, которые информируют его, является значительной проблемой.
- Распространение: многие модели ИИ ограничивают распространение по конструкции, особенно те, у которых есть обученные веса и проприетарные наборы данных, принадлежащие поставщику платформы.
Эрозия этих основных принципов не является результатом злого умысла, а скорее огромной сложности и стоимости современных систем ИИ. Действительно, финансовые требования к обучению моделей ИИ последнего поколения резко возросли в последние годы – обучение модели GPT-4 от OpenAI, как сообщается, обошлось до 78 миллионов долларов, исключая зарплаты сотрудников, при общих расходах превышающих 100 миллионов долларов.
Сложность “открытого исходного кода” ИИ
По-настоящему открытая модель ИИ потребует полной прозрачности кода источника вывода, кода источника обучения, весов модели и обучающих данных. Однако многие модели, помеченные как “открытые”, будут выпускать только код вывода или частичные веса, в то время как другие предлагают ограниченную лицензию или ограничивают коммерческое использование вообще.
Эта беспристрастная открытость создает иллюзию принципов открытого исходного кода, хотя на практике она не оправдывает ожиданий.
Рассмотрим, что анализ инициативы Open Source (OSI) показал, что несколько популярных крупных языковых моделей утверждающих, что они являются открытыми – включая Llama2 и Llama 3.x (разработанные Meta), Grok (X), Phi-2 (Microsoft) и Mixtral (Mistral AI) – являются структурически несовместимыми с принципами открытого исходного кода.
Проблемы устойчивости и стимулирования
Большинство программного обеспечения с открытым исходным кодом было построено на основе добровольных или грантовых усилий, а не на вычислительных, высокозатратных инфраструктурах. Модели ИИ, с другой стороны, дороги в обучении и обслуживании, и затраты, как ожидается, будут только расти. Генеральный директор Anthropic, Дарио Амодей, прогнозирует, что в конечном итоге может потребоваться $100 миллиардов, чтобы обучить модель последнего поколения.
Без устойчивой модели финансирования или структуры стимулирования разработчики сталкиваются с выбором между ограничением доступа через закрытый исходный код или некоммерческие лицензии или риском финансового краха.
Неправильные представления о “открытых весах” и лицензировании
Доступность моделей ИИ стала все более запутанной, и многие платформы представляют себя как “открытые”, хотя на самом деле они вводят ограничения, которые фундаментально противоречат истинным принципам открытого исходного кода. Этот “обман” проявляется несколькими способами:
- Модели, помеченные как “открытые веса”, могут запрещать коммерческое использование вообще, сохраняя их больше как академические любопытства, чем практические бизнес-инструменты для общества, чтобы изучить и разработать.
- Некоторые поставщики предлагают доступ к предварительно обученным моделям, но ревностно охраняют свои обучающие наборы данных и методологии, что делает невозможным воспроизвести или проверить их результаты осмысленно.
- Многие платформы вводят ограничения на распространение, которые не позволяют разработчикам строить на основе или улучшать модели для своих сообществ, даже если они могут полностью “доступ” к коду.
В этих случаях “открыто для исследования” – это просто двусмысленность для “закрыто для бизнеса”. Результатом является неискренний вид поставщика, когда организации инвестируют время и ресурсы в платформы, которые кажутся открыто доступными, только чтобы обнаружить критические ограничения при попытке масштабировать или коммерциализировать приложения.
Результативная путаница не только раздражает разработчиков. Она активно подрывает доверие к экосистеме ИИ. Она создает нереалистичные ожидания среди заинтересованных сторон, которые разумно предполагают, что “открытый” ИИ сравним с сообществами программного обеспечения с открытым исходным кодом, где прозрачность, права на изменение и коммерческая свобода соблюдаются.
Юридическая отсталость
Быстрое развитие GenAI уже опережает разработку соответствующих правовых рамок, создавая сложную сеть проблем интеллектуальной собственности, которые усугубляют уже существующие проблемы.
Первым крупным юридическим полем битвы является использование обучающих данных. Глубокие модели обучения получают большие наборы данных из интернета, такие как публично доступные изображения и текст веб-страниц. Этот огромный сбор данных вызвал ожесточенные дебаты об интеллектуальных правах собственности. Технологические компании утверждают, что их системы ИИ изучают и учатся на защищенных авторским правом материалах, чтобы создать новые, трансформационные содержания. Владельцы авторских прав, однако, утверждают, что эти компании ИИ незаконно копируют их работы, генерируя конкурирующий контент, который угрожает их средствам к существованию.
Владение производными работами, сгенерированными ИИ, представляет собой еще одну юридическую неопределенность. Никто не совсем уверен, как классифицировать содержание, сгенерированное ИИ, за исключением Управления по авторским правам США, которое заявляет, что “если ИИ полностью генерирует содержание, оно не может быть защищено авторским правом”.
Юридическая неопределенность, окружающая GenAI – особенно в отношении нарушения авторских прав, владения работами, сгенерированными ИИ, и нелицензированного содержания в обучающих данных – становится еще более сложной, когда фундаментальные модели ИИ появляются в качестве инструментов геополитической важности: Нации, стремящиеся разработать лучшие возможности ИИ, могут быть менее склонны ограничивать доступ к данным, что ставит страны с более строгими защитами интеллектуальной собственности в невыгодное положение.
Что должно стать открытым исходным кодом в эпоху ИИ
Поезд GenAI уже ушел со станции и не показывает никаких признаков замедления. Мы надеемся построить будущее, где ИИ стимулирует, а не подавляет инновации. В этом случае лидерам технологий нужна основа, которая обеспечивает безопасное и прозрачное коммерческое использование, способствует ответственной инновации, решает проблемы владения данными и лицензирования, и различает “открытый” и “бесплатный”.
Появляющаяся концепция Открытой коммерческой лицензии исходного кода может предложить путь вперед, предлагая бесплатный доступ для некоммерческого использования, лицензированный доступ для коммерческого использования и признание и уважение к происхождению и владению данными.
Чтобы адаптироваться к этой новой реальности, сообщество открытого исходного кода должно разработать модели лицензирования ИИ, сформировать государственно-частные партнерства для финансирования этих моделей и установить доверенные стандарты для прозрачности, безопасности и этики.
Открытый исходный код изменил мир один раз. Генеративный ИИ меняет его снова. Чтобы сохранить дух открытости, мы должны развить букву его закона, признавая уникальные требования ИИ и решая проблемы напрямую, чтобы создать инклюзивную и устойчивую экосистему.












