Лідери думок
Переосмислення відкритого коду в епоху генеративного штучного інтелекту

Модель відкритого коду – етос розробки програмного забезпечення, за якого вихідний код вільно доступний для публічного розповсюдження або модифікації – вже давно є каталізатором інновацій. Ідеал народився в 1983 році, коли Річард Столлман, розробник програмного забезпечення, розчарувався через «чорну скриньку» свого принтера із закритим кодом, який вийшов з ладу.
Його бачення започаткувало рух за вільне програмне забезпечення, проклавши шлях для екосистеми відкритого коду, яка є основою значної частини сучасного Інтернету та інновацій у сфері програмного забезпечення.
Але це було понад 40 років тому.
Сьогодні генеративний штучний інтелект, з його унікальними технічними та етичними викликами, змінює значення поняття «відкритість», вимагаючи від нас перегляду та переосмислення парадигми відкритого коду – не відмов від неї, а адаптації.
Штучний інтелект та свободи відкритого коду
Чотири фундаментальні свободи програмного забезпечення з відкритим вихідним кодом – можливість запускати, вивчати, змінювати та перерозподіляти будь-який програмний код – суперечать природі генеративного ШІ кількома способами:
- Пробіг: Моделі штучного інтелекту часто вимагають дуже високих витрат на інфраструктуру та обчислення, що обмежувати доступ через обмеженість ресурсів.
- Вивчіть та змініть: Моделі штучного інтелекту неймовірно складні, тому розуміння та зміна їх без доступу як до коду, так і до даних, які його інформують, є значною проблемою.
- ПерерозподілБагато моделей штучного інтелекту обмежити перерозподіл задумом, особливо ті, що мають навчені ваги та власні набори даних, що належать постачальнику платформи.
Руйнування цих основних принципів зумовлене не злим наміром, а радше простою складністю та вартістю сучасних систем штучного інтелекту. Дійсно, фінансові вимоги до навчання найсучасніших моделей штучного інтелекту різко зросли за останні роки – як повідомляється, GPT-4 OpenAI спричинив витрати на навчання до $ 78 мільйонів, без урахування зарплат персоналу, із загальними витратами перевищує $ 100 мільйонів,
Складність штучного інтелекту з «відкритим вихідним кодом»
Дійсно відкрита модель ШІ вимагатиме повної прозорості вихідного коду виведення, вихідного коду навчання, вагових коефіцієнтів моделі та навчальних даних. Однак багато моделей, позначених як «відкриті», публікуватимуть лише код виведення або часткові ваги, тоді як інші пропонують обмежене ліцензування або взагалі обмежують комерційне використання.
Така неупереджена відкритість створює ілюзію принципів відкритого коду, але на практиці не відповідає їхнім вимогам.
Врахуйте, що аналіз, проведений Ініціативою з відкритого коду (OSI), виявив, що кілька популярних моделей великих мов стверджує, що має відкритий вихідний код – включаючи Llama2 та Llama 3.x (розроблені Meta), Grok (X), Phi-2 (Microsoft) та Mixtral (Mistral AI) – структурно несумісні з принципами відкритого коду.
Проблеми сталого розвитку та стимулювання
Більшість програмного забезпечення з відкритим кодом було створено завдяки волонтерським або грантовим зусиллям, а не на основі ресурсоємних та дорогих інфраструктур. Моделі штучного інтелекту, з іншого боку, дорогі в навчанні та обслуговуванні, і очікується, що витрати лише зростатимуть. Генеральний директор Anthropic Даріо Амодей прогнозує, що зрештою це може коштувати до… 100 млрд доларів навчити передову модель.
Без сталої моделі фінансування або структури стимулювання розробники стикаються з вибором між обмеженням доступу через ліцензії із закритим кодом або некомерційні ліцензії або ризиком фінансового краху.
Хибні уявлення щодо «відкритих ваг» та ліцензування
Доступність моделей штучного інтелекту стає дедалі заплутанішою, багато платформ рекламують себе як «відкриті», водночас встановлюючи обмеження, які принципово суперечать справжнім принципам відкритого коду. Ця «хитрощі» проявляється кількома способами:
- Моделі, позначені як «відкриті ваги», можуть повністю заборонити комерційне використання, залишаючи їх радше як академічні курйози, ніж практичні бізнес-інструменти для дослідження та розробки громадськістю.
- Деякі постачальники пропонують доступ до попередньо навчених моделей, але ревно охороняють свої навчальні набори даних та методології, що унеможливлює осмислене відтворення або перевірку їхніх висновків.
- Багато платформ накладають обмеження на розповсюдження, які не дозволяють розробникам використовувати або вдосконалювати моделі для своїх спільнот, навіть якщо вони мають повний «доступ» до коду.
У цих випадках «відкрито для досліджень» – це просто подвійна мова для «закрито для бізнесу». Результатом є нещира форма прив’язки до постачальника, коли організації інвестують час і ресурси в платформи, які здаються відкрито доступними, лише для того, щоб виявляти критичні обмеження під час спроби масштабування або комерціалізації додатків.
Отримана плутанина не просто дратує розробників. Вона активно підриває довіру до екосистеми штучного інтелекту. Вона створює нереалістичні очікування серед зацікавлених сторін, які обґрунтовано вважають, що «відкритий» ШІ можна порівняти зі спільнотами розробників програмного забезпечення з відкритим кодом, де дотримуються прозорості, прав на модифікацію та комерційної свободи.
Юридичне відставання
Швидкий розвиток GenAI вже випереджає розробку відповідних правових баз, створюючи складну мережу проблем інтелектуальної власності, які посилюють існуючі раніше проблеми.
Перше велике поле юридичної битви зосереджено на використанні навчальних даних. Моделі глибокого навчання отримують великі набори даних з Інтернету, такі як загальнодоступні зображення та текст веб-сторінок. Цей масивний збір даних розпалив запеклі дебати щодо прав інтелектуальної власності. Технологічні компанії стверджують, що їхні системи штучного інтелекту вивчають та навчаються на матеріалах, захищених авторським правом, щоб створювати новий, трансформаційний контент. Однак власники авторських прав стверджують, що ці компанії, що займаються штучним інтелектом, незаконно копіюють їхні роботи, створюючи конкуруючий контент, який загрожує їхньому життєдіяльності.
Право власності на похідні твори, створені штучним інтелектом, є ще однією юридичною неоднозначністю. Ніхто точно не знає, як класифікувати контент, створений штучним інтелектом, окрім Бюро авторського права США, яке стверджує, що «якщо штучний інтелект повністю генерує контент, він не може бути захищений авторським правом».
Правова невизначеність навколо GenAI, зокрема щодо порушення авторських прав, права власності на твори, створені штучним інтелектом, та неліцензійного контенту в навчальних даних, стає ще більш напруженою, оскільки базові моделі штучного інтелекту перетворюються на інструменти геополітичного значення: країни, які змагаються у розвитку передових можливостей штучного інтелекту, можуть бути менш схильні обмежувати доступ до даних, що ставить країни з суворішим захистом інтелектуальної власності у невигідне конкурентне становище.
Яким має стати відкритий вихідний код в епоху штучного інтелекту
Потяг GenAI вже зійшов зі станції і не демонструє жодних ознак уповільнення. Ми сподіваємося побудувати майбутнє, де ШІ заохочуватиме, а не придушуватиме інновації. У такому разі технологічним лідерам потрібна структура, яка забезпечить безпечне та прозоре комерційне використання, сприятиме відповідальним інноваціям, врахує питання власності та ліцензування даних, а також розмежує «відкрите» та «вільне».
Нова концепція, Ліцензія на відкрите комерційне програмне забезпечення, може запропонувати шлях уперед, пропонуючи вільний доступ для некомерційного використання, ліцензований доступ для комерційного використання, а також визнання та повагу до походження та права власності на дані.
Щоб адаптуватися до цієї нової реальності, спільнота розробників відкритого коду повинна розробити моделі відкритого ліцензування, специфічні для штучного інтелекту, формувати державно-приватні партнерства для фінансування цих моделей та встановити надійні стандарти прозорості, безпеки та етики.
Відкритий код колись змінив світ. Генеративний штучний інтелект змінює його знову. Щоб зберегти дух відкритості, ми повинні розвивати букву його закону, визнаючи унікальні вимоги штучного інтелекту, одночасно вирішуючи проблеми, спрямовані на створення інклюзивної та сталої екосистеми.