Погляд Anderson
Чи зможе штучний інтелект колись розвиватися поза межами замку?

Витрати та обмеження великого штучного інтелекту, а також його вплив на вартість апаратного забезпечення, змушують користувачів будувати власні системи – як і зростаюча регуляція загрожує закрити цю “тіньову економіку штучного інтелекту”.
Думка Серед багатьох “підступів”, які з’являються в наукових дослідженнях, одним з найчастіших є те, що проблема, яку розглядає робота, вже вирішена в іншому місці, і що внесок нового дослідження є лише випадковим або інкрементальним.
Це може трапитися з кількох причин: дослідники сподівалися на квантовий стрибок, але отримали квазі-стрибок; раніші рішення проблеми були більш ресурсоємними, ніж нова пропозиція; або просто тому, що мети проекту повністю провалилися, але культура “опублікуй або загинь” академічних досліджень змусила команду випустити його все одно (часто серед лавини порталів найбільш завантажених днів публікації).
У літературі машинного навчання, однак, відносно нова і безапологічна причина стає все частішою: те, що функція або функціональність, яку пропонують, наразі доступна лише через закриті, зв’язані з API портали.
Я розглядав одну таку статтю цього ранку – співробітництво між китайськими університетами та Amazon, яке розглядає проблему невдачі видалення об’єкта у системах редагування зображень на основі дифузії, які часто просто “перезаповнюють” цільовий простір подібним об’єктом:

Зліва оригінальне зображення; праворуч червона сегментаційна маска, яка вказує штучному інтелекту, яку частину зображення видалити; далі, “Наш підхід”, показує успішний підхід до видалення об’єкта – і дві інші зображення показують подібні системи, які замість видалення автобуса просто вставляють інший автобус замість нього. Джерело
У наведеному вище прикладі центральне зображення показує новий підхід до успішного видалення автобуса і створення правдоподібного фону, на відміну від двох попередніх методів (два ліві зображення), які кожен видаляє автобус, але потім вставляє інший автобус у зображення!
Підступ!
Відкладаючи причини і обставини цієї проблеми на інший раз (і це цікавий предмет ), я потім наткнувся на класичний “підступ”, читając нову статтю: автори погоджуються, що дорогі, пропрієтарні системи можуть вже виконувати цю задачу досить надійно – те, що я знаю, з кількох років використання Adobe Firefly у Photoshop, серед інших закритих систем:
‘[Дифузійні] методи часто галюцинують, вставляючи ненавмисні об’єкти після видалення цільових об’єктів, що призводить до контекстно-неузгодженого [результату].
‘З іншого боку, недавні закриті мультимодальні моделі, такі як ChatGPT і Nano Banana, хоча й більш потужні у видаленні об’єктів, але мають велику кількість параметрів і високі обчислювальні витрати, що ускладнює їх практичне розгортання на краях мережі.
‘Отже, досить необхідно розробити спеціалізовану модель видалення об’єктів, яка не тільки забезпечує вищу продуктивність видалення, але й має низьку затримку висновку і значно менше параметрів.’
Це пояснення, яке зосереджується на технічних перешкодах, оминає очевидний факт, що закриті архітектури, такі як ChatGPT і Nano Banana, зовсім недоступні для локальної установки. Хоча така система здатність виробляти спірний матеріал надала додаткове публічне виправдання їх контролю за останні рік, портали цього типу є пропрієтарними в першу чергу через комерційні імперативи.
По суті, нова стаття припускає, що хоча цільова проблема вирішена в комерційних системах, це може бути неважливо для решти нас, хто потребує вивчити, як вирішити цю проблему в “реальному світі” – тобто, в відкритих системах, незалежно від того, чи можуть вони бути реально встановлені локально чи ні.
Паралельний розвиток
Однак, чому розв’язувати проблему, яка все ще залежить від платної системи, не через пропрієтарні обмеження, а через те, що необхідні обчислювальні ресурси перевищують те, що може реально витримати локальна установка? Більшість таких нових “відкритих” статей і репозиторіїв коду містять налаштування навчання/висновку з явними вимогами до ресурсів, такими як кластери A100.
Ну, це залежить від того, яку мету ви думаєте, що всі ці очікувані, економіку-руйнівні центри даних штучного інтелекту будуть виконувати, коли вони нарешті з’являться. Страхи звичайних людей і надії еліт однаково бачать замковані, пропрієтарні системи рівня ChatGPT, які витісняють робочі місця, постійно підвищуючи вартість підписки і знижуючи рівень обслуговування, щоб задовольнити ранній капітал венчурних фондів, який мав чекати 3-5 років на оперативну діяльність.
Але зростаюча тенденція в літературі схоже підтримує альтернативне майбутнє, і “самостійний”, маргінальний дух багатьох онлайн-спільнот, таких як subreddit r/stablediffusion, який зараз налічує 920 000 користувачів, і який давно заборонив публікації, пов’язані з закритими системами генерації зображень/відео.
У цьому альтернативному майбутньому новий глобальний запас центрів даних штучного інтелекту буде забезпечувати сирі обчислювальні ресурси для систем, конфігурованих користувачами, визначених користувачами, а не задовольняти вимоги монументальних “чорних скриньок” таких, як ChatGPT і Adobe Firefly.
Поверхневий тертя
Оглядаючи складні, міновані віддалені проходи GPU у руководствах r/stablediffusion, все здається неможливим наразі: моделі постійно міняють правила з кожним оновленням; вони важко розгортаються локально, навіть у найлегших і найзручніших рамках; і, загалом, кількість тертя, яке викликає це завдання, свідчить про заняття лише для гік-хобі та для того більш авантюрного типу компаній, які не безпосередньо займаються штучним інтелектом, але бажають розвивати і підтримувати свої локальні системи, а не орендувати такі можливості.
Однак за останні тридцять років кожна технологія, для якої була велика потреба в відкритому і демократичному спрощенні та комерціалізації зазвичай отримувала це, з найбільш поширеними рішеннями, які зазвичай виникають з напружень між комерційними системами та відкритими альтернативами та ініціативами.
Заняття, які раніше були спеціалізованими “гік-анклавами”, такими як інтернет-з’єднання, системи управління контентом і блог-фреймворки, а також інтернет-безпека, фотографія та управління медіа, всі еволюціонували від заплутаної складності до простоти та корисності.
Отже пізніше ландшафт штучного інтелекту може бути більш різноманітним і наповненим меншими і справжньо-конкуруючими гравцями, ніж сучасні лідери ринку штучного інтелекту могли б бажати.
Самоактуалізація, з необхідності
Іронічно, “Великий штучний інтелект” багато вносить в емерджентний дух незалежності серед кінцевих користувачів, висисając для своїх центрів даних всі компоненти комп’ютера – особливо DRAM – які інакше пішли б на “звичайних” споживачів.
Отже, багато хто бачить майбутнє, в якому закриті “глобальні ресурси штучного інтелекту” будуть доступні через тонкі клієнти і розвивають зростаючий інтерес до підтримки своєї наявної апаратури.
Напад штучного інтелекту на ланцюжки постачання технологій також змусив постачальників технологічних послуг підняти ціни за останні 3-6 місяців, або тому, що менші компанії справді стиснуті нестачею апаратного забезпечення, або просто через штучний інтелект.
Це призвело до зростання інтересу до само-хостингу і локального розгортання – включаючи само-хостинг мереж штучного інтелекту.
Я сам потрапив у це недавно, перейшовши на локальне сховище LAN для фотографій і відео, а також резервних копій файлів. Для першого я використовую безкоштовну і відкриту платформу Immich для多платформного медіа-сервера, яка допомагає мені відійти від підвищення цін (і інших проблем) постачальників хмарного сховища, таких як iCloud:

Безкоштовна платформа Immich може зберігати ваші медіа на вашому обладнанні і зберігати їх приватними для ваших власних каналів. У цьому випадку я також використовую Immich на Docker, щоб служити моєму NVIDIA 3090 GPU через LAN до місця, де зберігаються фотографії і відео, так що потужніший GPU може обробляти будь-яку важку обробку зображень/відео.
Якщо мій власний досвід є будь-яким представницьким показником, вайб-кодізація – зараз проклята у багатьох колись-“чистих” онлайн-спільнотах – підживлює цю хвилю незалежності (хоча вона може загрожувати відкритим репозиторіям, на які вона спирається).
Наприклад, мережування завжди було моєю слабкою стороною в обчисленнях, тому допомога штучного інтелекту була необхідна мені, щоб запустити безпечний VPS, щоб підтримати ряд само-хостованих послуг.
У цьому спосіб “Великий штучний інтелект” можна вважати емпаверуючим “маленький штучний інтелект”; отже, можливо, ми можемо вважати поточне зростання гіпермасштабних, гіпероцінених компаній штучного інтелекту необхідним, але тільки перехідним станом до більш демократичного і емпаверованого суспільства штучного інтелекту, яке відкине замок-шукуючі, рент-шукуючі корпорації, як викинуті ракетні прискорювачі – так само, як крах доткомів у 2000 році залишив експлуатований інфраструктуру, яка глибоко прискорила веб після того, як компанії, які сплатили за неї, зруйнувалися.
Ера відповідності
Ну, це, мабуть, не повториться цього разу.
Хоча ми можемо схильні сформувати деяке родинне суспільство, регуляція штучного інтелекту, у поєднанні з поточною глобальною тенденцією до верифікації віку, здається, ймовірно, що ці шляхи розвитку будуть попереджені і заблоковані.
Якорем до запобігання “тіньової економіки штучного інтелекту” є регуляція. Вже центральні репозиторії, такі як GitHub і Hugging Face, часто вимагають онлайн-авторизації перед дозволом користувачам клонувати репозиторії локально, залежно від налаштувань репозиторію.
Отже механізми вже існують для забезпечення моніторингу рамок штучного інтелекту ширше, ніж це робиться зараз; і воля до збільшення такого нагляду зараз консолідується з індивідуальних урядових ініціатив у глобальний імпульс.
Так, якщо ринкові сили та винахідливість руху FOSS повинні прибрати тертя з казуальної установки штучного інтелекту, дорожні знаки здаються готовими повернутися у вигляді вимог відповідності: вимоги відповідності, які, хоча й обтяжливі, є вартими для компаній, але, можливо, не для осіб – подібно до тертя, яке було додано до систем онлайн-платежів споживачів після “золотого віку” PayPal у 2000-х роках.
Чи витратила Meta 2 мільярди доларів на лобіювання контролю віку на рівні операційної системи через свій значний інвестиційний інтерес до штучного інтелекту, або через свої інтереси збору даних, результатом підтримки великого технологічного бізнесу підтримки контролю віку є те, що “локальний” штучний інтелект може стати так само регульованим, як речовина класу А; і, так само, як DMCA був спроектований для криміналізації наміру spíše, ніж будь-якої конкретної механізму порушення авторських прав, міжнародні регуляції штучного інтелекту могли, в такому сценарії, зробити всі неконформні використання машинного навчання злочином, при дуже низькій вартості (у термінах активного нагляду).
Це могло б здатися надто антиутопічним поглядом рік тому – але це було до того, як Каліфорнія і systemd підтримали ідею апаратного рівня верифікації віку, зараз бачену багатьма як проксі для заборони на онлайн-анонімність у стилі КНР.
Висновок
Так, хоча законодавчий і законодавчий фон готується, можливо, щоб завоювати штучний інтелект у високорегульований простір, так що звичайні користувачі не можуть “зварити свій власний” не більше, ніж вони можуть виростити або ферментувати регульовані речовини без дозволу, дослідницький сектор підтримує свій більш оптимістичний погляд – що штучний інтелект стане демократизованим і благотворним фактором у ширшому суспільстві, ніж лише послідовники найбільш популярного закритого постачальника дня.
Багато залежить від того, як буде розподіл сміття після того, як бульбашка штучного інтелекту лусне –至少 до тієї міри, якою постачальники або консолідуються, або ринок заспокоїться в довгострокову балканізацію – що, ймовірно, потребуватиме більш м’якого регуляторного дотику.
Перша публікація середи, 1 квітня 2026












