Лідери думок
Китайський міраж штучного інтелекту: як «відкритий код» приховує найважливіше

Оскільки великі технологічні гравці, такі як Google, Microsoft та Meta, змагаються за домінування на ринку штучного інтелекту, китайські High Flyer, Baidu, Moonshot та Alibaba потрапили в заголовки газет після публікації своїх... DeepSeek, ЕРНІ 4.5, Кімі К2 та Qwen3 великі мовні моделі, відповідно, як з відкритим вихідним кодом. Цей перехід від випуску захищених, власницьких моделей GenAI був сприйнятий як ознака того, що китайська індустрія штучного інтелекту використовує можливості відкритого вихідного коду для демократизації розробки штучного інтелекту та стимулювання інновацій.
Однак, як і багато інших гравців, які рекламують свої пропозиції як продукти з відкритим вихідним кодом і навіть вказують це в назвах своїх компаній, High Flyer, Baidu та Moonshot насправді не поділилися такими критично важливими елементами, як набори даних, що лежать в основі їхніх моделей. Оскільки ці великі моделі прагнуть стати товарами, на які покладаються розробники, прозорість справжнього відкритого вихідного коду, який можна тестувати, досліджувати та повторювати, має вирішальне значення для створення неупередженої, етичної та корисної технології, якій ми всі можемо довіряти. Усі ці моделі з «відкритим вихідним кодом» насправді є «відкритою вагою», що означає, що їх можна завантажувати та використовувати, але їх не можна перевірити будь-яким змістовним чином без даних.
Як подобається американським гравцям Відкрити AI та Meta Хоча Baidu, схоже, відмовляється від відкритого коду, відкрите запрошення використовувати свій вільно доступний набір моделей ERNIE 4.5 справді може стимулювати інновації та співпрацю з розробниками, які прагнуть створювати менші, потужніші програми. Водночас компанія, схожа на китайський Google, отримала конкурентну перевагу, заохочуючи впровадження та закріплюючи свої моделі в екосистемі штучного інтелекту, що розвивається.
Те саме можна сказати про DeepSeek, недорогий Kimi K2 та оновлений Qwen3, який може похвалитися показниками, що кидають виклик закритим моделям, таким як Claude Opus 4 та GPT-4o-0327.
Ці гравці зі штучним інтелектом добре позиціонували себе в гонці за те, щоб стати обраною моделлю для масового ринку, а останнє інноваційне оновлення Qwen3 було навіть натхненне відгуками спільноти відкритого коду.
Однак, як і багато хто, хто рекламує свою велику модель штучного інтелекту як програмне забезпечення з відкритим вихідним кодом, китайська спільнота розробників штучного інтелекту насправді не поширює дані чи інші критично важливі елементи своїх систем штучного інтелекту. Натомість вони просять світових розробників сліпо вірити в моделі, які вони не можуть по-справжньому зрозуміти чи дослідити.
Заява про майбутнє за допомогою моделей штучного інтелекту з відкритим кодом для товарів
Коли iPhone вийшов на ринок у 2007 році, дехто вважав, що Mac стане лідером серед смартфонів завдяки iOS, але... Участь у відкритому коді є невід'ємною частиною стартапів, а також стимулював підприємницьке та економічне зростання в усьому світі, — і Android, стартап, придбаний Google у 2005 році, пішов цим шляхом до перемоги.
Випустивши програмне забезпечення з відкритим вихідним кодом, яке можна було переглядати, змінювати, використовувати та поширювати, Android запросив науковців, розробників і навіть конкурентів до співпраці над програмним забезпеченням. Це прискорило процес інновацій, демократизувало ігрове поле та, зрештою, знизило ціни. Android з'явився на ринку через рік після першого iPhone, і до початку цього року... міг похвалитися 71.88 відсотком світового ринку, тоді як iOS – 27.65 відсотка.
У технологічній революції, яка, здавалося, сталася за одну ніч, смартфони стали повсюдними, і навіть попри те, що вдосконалення програмного забезпечення, апаратного забезпечення та інтерфейсу користувача продовжуються, галузь вийшла далеко за рамки спроб революціонізувати те, як працюють смартфони. Оскільки мобільні телефони зараз є товаром, інновації, доступні сьогодні, полягають у програмах, які працюють на них, і щоб претендувати на перемогу, постачальники смартфонів повинні підтримувати екосистему, яка запрошує розробників.
Не минуло й трьох років після запуску ChatGPT, як індустрія штучного інтелекту опинилася на подібній межі. Кожен гравець у світовій індустрії штучного інтелекту прагне, щоб його моделі стали наступним Android або навіть iOS, і, перейшовши на моделі DeepSeek, ERNIE 4.5 та Kimi K2 з відкритим кодом, китайські новатори прагнуть закріпити свої права в екосистемі, що розвивається.
Хоча це може бути їм на користь, однак це не сприяє справжній прозорості відкритого коду, яка була важливою не лише для розвитку інновацій, а й для розвитку інновацій, яким ми можемо довіряти.
Дані – це відсутній елемент у більшості ШІ з відкритим кодом
Оскільки моделі штучного інтелекту набагато складніші для створення та поширення, ніж традиційне програмне забезпечення, потреба у повністю відкритому вихідному коді штучного інтелекту є непростою. Замість простого вихідного коду, системи штучного інтелекту складаються з сім компонентів—включаючи вихідний код, параметри моделі, набір даних, гіперпараметри, вихідний код навчання, генерацію випадкових чисел та програмні фреймворки.
Щоб модель дала бажані результати, кожен елемент має працювати узгоджено, а це означає, що розробникам потрібна повна видимість, щоб ділитися, змінювати та впроваджувати систему, а також розуміти, що відбувається. Однак, оскільки відтворюваність є основою наукового методу, індустрія штучного інтелекту має... звичка використання терміна «відкритий код» для позначення безкоштовних або недорогих релізів, які надаються з доступом до кількох частин пазлу.
Наприклад, Baidu зробила вільнодоступними десять моделей ERNIE 4.5. Окрім поширення моделі та параметрів, компанія також відкрила вихідний код ERNIEKit та наборів інструментів розгортання FastDeploy. Вони дозволяють розробникам створювати потужні додатки на основі штучного інтелекту, забезпечуючи можливості промислового рівня, ресурсоефективні робочі процеси навчання та логічного висновку, а також сумісність з кількома апаратними засобами.
Іншими словами, Baidu надав розробникам захопливі інструменти, які дозволяють їм швидше впроваджувати інновації, що, як вони сподіваються, у свою чергу спонукатиме їх обрати ERNIE 4.5 серед конкурентів.
Однак розробників, які використовують ERNIE 4.5, просять сліпо довіряти цій моделі, оскільки Baidu багато чого приховує, зокрема набори даних, які інформують та навчають її моделі.
Сила прозорих моделей штучного інтелекту з відкритим кодом
Хоча кожен елемент пазлу штучного інтелекту є критично важливим для роботи моделі, 80 відсотків проектів штучного інтелекту зазнають невдачі, і в основі проблеми лежать дані.Неточні, неповні та упереджені набори даних призводять до моделей, які не поводяться передбачувано або бажано.
Команда Нещодавно опубліковано відео фатальної аварії Tesla Full-Self-Driving (FSD) 2023 року випускуНаприклад, розкрив найгірший сценарій того, що може статися, коли набір даних і модель не відповідають очікуванням. Коли Tesla Model Y мчала назустріч яскравому сонцю, що заходить, частково автоматизована система не могла зрозуміти або належним чином відреагувати на те, що бачили (або не бачили) її камери. Поки автомобілі, керовані людьми, сповільнювалися та зупинялися, плутанина FSD призвела до смерті жінки.
Цей руйнівний провал відображав неповні візуальні дані, а також відсутність механізму безпеки, який би враховував такі сліпі зони. Коли розробники не мають доступу до своїх даних, вони не можуть бачити, як вони взаємодіють з моделлю, а це означає, що вони не можуть виявляти такі помилки та виконувати ітерації для забезпечення надійної продуктивності.
Ще більш тривожним є те, що без даних, на яких базується модель, вони змушені сліпо їй довіряти.
Однак, коли набори даних є відкритими, спільнота штучного інтелекту довела, що вона може викорінити тривожні проблеми, як це було зроблено, виявивши понад 1,000 URL-адрес, що містять перевірені матеріали сексуального насильства над дітьми в LAION 5BОскільки набір даних, що використовується для моделей генерації тексту в зображення за допомогою штучного інтелекту, є основою для створення таких програм, як Stable Diffusion та Midjourney, для індустрії штучного інтелекту було б руйнівно, якби користувачі почали створювати незаконні фотореалістичні зображення. Натомість, відкритий характер цього набору даних дозволив спільноті виявити небезпечний контент та мотивувати його виправлення, зазначає зв'язковий Б.
Крім того, значна частина цього першого набору даних спиралася на веб-скрапінг, виконаний величезним Common Crawl, який також використовувався для моделей ChatGPT та LLAMA. Навіть коли Штучний інтелект-сканери продовжують висловлювати занепокоєння щодо копірайтингу, конфіденційності, а також упередженого та расистського маркування.однак розробники у спільноті штучного інтелекту працюємо над способами очищення фрагментів зростаючого набору даних з відкритим кодом Common Crawl для безпечнішого використання.
Оскільки розробники прагнуть створювати не лише потужний штучний інтелект, а й такий, якому можна довіряти, прозорість та співпраця справді відкритого коду захищають як користувачів, так і галузь.
Прийняття шляху відкритого коду
Оскільки багато хто все ще з обережністю ставиться до цієї технології, що розвивається, гонка за те, щоб стати iOS або Android серед великих товарних моделей ШІ, триває, і оскільки світова спільнота ШІ буквально створює те, що стане стандартом майбутнього, а системи ШІ вже керують автомобілями та пропонують медичні оцінки, встановлення довіри шляхом створення неупередженого, надійного та безпечного ШІ ще ніколи не було таким важливим.
Оскільки китайська спільнота розробників штучного інтелекту намагається позиціонувати себе як лідера відкритих інновацій, шлях до безпечного штучного інтелекту лежить лише у прозорості справжнього відкритого коду, що було доведено десятиліттями інновацій програмного забезпечення. Використання цього терміну для систем, які не обмінюються критично важливими елементами, такими як дані, не дозволяє розробникам досліджувати, відтворювати та повторювати. Хоча привабливість легкодоступних моделей, таких як DeepSeek, ERNIE 4.5, Kimi K2 та Qwen3, безперечна, розробники, які їх використовують, жертвують прозорістю, яка сприяє співпраці та інноваціям, заради зручності.
Спільнота штучного інтелекту повинна зробити вибір: прийняти радикальну прозорість через справжнє відкрите програмне забезпечення або ризикнути побудувати завтрашні критично важливі системи на основі сьогоднішніх чорних скриньок.