Погляд Anderson
Чи буде штучний інтелект колись розвиватися поза ровом?

Витрати та обмеження великого штучного інтелекту, а також його вплив на вартість апаратного забезпечення, змушують користувачів створювати власні системи – саме тоді, коли зростаюче регулювання загрожує закрити цю «тіньову економіку штучного інтелекту».
Опінія Серед багатьох «пасток», які з’являються в наукових дослідженнях, одна з найчастіших полягає в тому, що проблема, яку розглядає робота, вже була вирішена в іншому місці, і що внесок нового дослідження є лише випадковим або інкрементальним.
Це може трапитися з кількох причин: дослідники сподівалися на квантовий стрибок, але отримали квазі-стрибок; раніші рішення проблеми були більш ресурсоємними, ніж нова пропозиція; або просто тому, що мети проекту повністю провалилися, але культура «публікуй або гини» академічних досліджень змусила команду випустити його в будь-якому випадку (часто поховав серед лавини найзавантаженішого дня публікацій порталу).
У літературі машинного навчання, однак, відносно нова і безапологетична причина стає все частішою: що функція або функціональність, яку пропонують, наразі доступна лише через закриті джерела, API-зв’язані портали.
Я розглядав одну таку роботу цього ранку – колаборацію між китайськими університетами та Amazon, яка розглядає повторювану проблему невдачі видалення об’єкта у системах редагування зображень на основі дифузії, які часто просто «перезаповнюють» цільовий простір подібним об’єктом:

Зліва від початку є оригінальне зображення; праворуч від нього, червона сегментаційна маска, яка каже штучному інтелекту, яку частину зображення видалити; далі, «Наш», показує успішний підхід до видалення об’єкта – і дві інші зображення показують подібні системи, які замість видалення автобуса просто вставляють інший автобус замість нього. Джерело
У наведеному вище прикладі центральне зображення показує новий підхід, який успішно видаляє автобус і вставляє правдоподібний фон, на відміну від двох попередніх методів (два ліві зображення), які кожний видаляє автобус, але потім вставляють інший автобус назад у зображення!
Пастка!
Відкладаючи причини і наслідки цієї проблеми на інший раз (і це цікаве тема ), я потім наткнувся на класичну «пастку», прочитавши нову роботу: автори погоджуються, що дорогі, пропрієтарні системи вже можуть виконувати цю задачу досить надійно – щось, що я знаю, з кількох років використання Adobe Firefly у Photoshop, серед інших закритих систем:
‘[Дифузійні] методи часто галюцинують, вставляючи нежадані об’єкти після видалення цільових, що призводить до контекстно-несумісних [результатів].
‘З іншого боку, недавні закриті джерела багатомодальних моделей, такі як ChatGPT і Nano Banana, хоча й більш потужні у видаленні об’єктів, але включають велику кількість параметрів і високі обчислювальні витрати, що ускладнює їх практичне розгортання на пристроях краю.
‘Отже, досить необхідно розробити спеціалізовану модель видалення об’єктів, яка не тільки забезпечує вищу продуктивність видалення, але й має низьку затримку висновку та значно менше параметрів.’
Це пояснення, яке зосереджується на технічних перешкодах, замовчує очевидний факт, що закриті джерела архітектури, такі як ChatGPT і Nano Banana, не доступні взагалі для локальної установки. Хоча така система спроможність генерувати спірний матеріал надала додаткове публічне виправдання за останні рік, портали цього типу є пропрієтарними в першу чергу через комерційні імперативи.
По суті, нова робота підказує, що хоча цільова проблема вирішена в комерційних системах, це може бути неважливим для решти нас, хто потребує вивчити, як вирішити її в «реальному світі» – тобто в відкритих системах, незалежно від того, чи можуть вони бути реально встановлені локально чи ні.
Паралельний розвиток
Однак, чому розв’язувати проблему, яка все ще залежить від платної системи, не через пропрієтарні обмеження, а через те, що необхідні обчислювальні витрати GPU перевищують те, що будь-яка локальна установка може реально витримати? Більшість таких нових «відкритих» робіт і репозиторіїв коду містять налаштування навчання/висновку з очевидними вимогами до ресурсів, такими як кластери A100.
Це залежить від того, яку мету ви вважаєте, що всі ці очікувані, економічно-руйнівні центри даних штучного інтелекту будуть виконувати, коли вони нарешті з’являться. Страхи простих людей і надії еліт однаково передбачають замкнені, пропрієтарні системи рівня ChatGPT, які витісняють робочі місця, а також постійно підвищують вартість підписки і знижують рівень обслуговування, щоб задовольнити ранній капітал VC, який мав чекати 3-5 років, щоб операціоналізуватися.
Але зростаюча тенденція в літературі здається підтримує альтернативне майбутнє, і «самостійний», маргінальний дух багатьох онлайн-спільнот, таких як subreddit r/stablediffusion, який зараз нараховує 920 000 користувачів, і який вже давно заборонив пости, пов’язані з закритими системами генерації зображень/відео.
У цьому альтернативному майбутньому новий глобальний запас центрів даних штучного інтелекту буде полегшувати сирі обчислення для систем, конфігурованих користувачами, визначених користувачами, а не задовольняти вимоги монументальних «чорних скриньок»-фреймворків, таких як ChatGPT і Adobe Firefly.
Поверхнева тертя
Переглядаючи складні, Patreon-видобуті віддалені проходи GPU у r/stablediffusion, все здається неможливим зараз: моделі постійно змінюють цілі з кожним оновленням; вони важко розгортаються локально, навіть у найлегших і найзручніших фреймворках; і, загалом, кількість тертя, пов’язаного з цим, свідчить про зайняття строго для гік-хобі, і для того більш авантюрного типу компаній, які не безпосередньо займаються штучним інтелектом, але які бажають розробляти і підтримувати свої власні локальні системи, а не орендувати такі можливості.
Однак за останні тридцять років кожна технологія, для якої була величезна потреба у відкритому і демократичному спрощенні та комодифікації тендувала до отримання цього, з найбільш поширеними рішеннями, які зазвичай виникли з напруженості між комерційними системами і відкритими альтернативами та ініціативами.
Погони, які раніше були спеціалізованими «гік-анклавами», такими як інтернет-з’єднання, системи управління вмістом і фреймворки блогів, а також інтернет-безпека, фотографія та управління медіа, всі еволюціонували від заплутаної складності до простоти і корисності.
Отже пізніше ландшафт штучного інтелекту може бути більш різноманітним і наповненим меншими і справжньо-конкурентними гравцями, ніж поточні лідери ринку штучного інтелекту могли б бажати.
Самоактуалізація за необхідності
Іронічно, «Великий штучний інтелект» багато вносить у виникнення духу незалежності серед кінцевих користувачів, висмоктуючи для своїх центрів даних всі компоненти комп’ютера – особливо DRAM – які інакше пішли б на «звичайних» споживачів.
Отже, багато хто бачить майбутнє, в якому закриті джерела «глобального штучного інтелекту» ресурсів будуть доступні через тонкі клієнти і будуть розвивати зростаючий інтерес до підтримання своєї існуючої техніки.
Напад штучного інтелекту на ланцюги постачання техніки також змусив постачальників технічних послуг підняти ціни за останні 3-6 місяців, або тому, що менші компанії справді стиснуті нестачею апаратного забезпечення, або просто через штучний інтелект.
Це призвело до зростання інтересу до само-хостингу і на-прем – включаючи само-хостинг мереж штучного інтелекту.
Я сам потрапив у це останнім часом, перейшовши на локальне сховище LAN для фотографій і відео, а також для резервного копіювання файлів. Для першого я використовую безкоштовну і відкриту платформу Immich для 多платформного медіа-сервера, яка допомагає мені відійти від підвищення цін (і інших проблем) постачальників хмарного сховища, таких як iCloud:

Безкоштовна платформа Immich може зберігати ваші медіа на вашому обладнанні і приватно для ваших власних каналів. У цьому випадку я також використовую Immich на Docker, щоб служити моєму NVIDIA 3090 GPU через LAN до місця, де зберігаються фотографії і відео, так що потужніший GPU може обробляти будь-яку важку обробку зображень/відео.
Якщо мій власний досвід є будь-яким представницьким вказівником, вайб-кодізація – зараз проклята у багатьох колись «чистих» онлайн-спільнотах – паливом для цієї хвилі незалежності (хоча вона може загрожувати відкритим репозиторіям, на які вона спирається).
Наприклад, мережування завжди було моєю слабкою стороною в обчислюванні, тому допомога штучного інтелекту була необхідна мені, щоб запустити безпечний VPS, щоб підтримати нову серію само-хостингових послуг.
У цьому сенсі «Великий штучний інтелект» аргументно емансипує «малий штучний інтелект»; отже, можливо, ми можемо вважати поточне зростання гіпермасштабних, гіпероцінених компаній штучного інтелекту необхідним, але тільки перехідним станом до більш демократичного і емансипованого суспільства штучного інтелекту, яке відкидає ренто-орієнтовані корпорації, як витрачені ракетні прискорювачі – так само, як крах доткомів у 2000 році залишив використовувану інфраструктуру, яка суттєво прискорить веб ще довго після того, як компанії, які платили за неї, зруйнувалися.
Ера відповідності
Ну, це, ймовірно, не повториться цього разу.
Хоча ми є схильні утворювати деяке пост-ровове околишнє суспільство, регулювання штучного інтелекту, у поєднанні з поточною глобальною тенденцією до верифікації віку, здається, ймовірно, що буде передбачати і блокувати ці напрямки розвитку.
Якорем для запобігання «тіньовій економіці штучного інтелекту» є регулювання. Вже центральні репозиторії, такі як GitHub і Hugging Face, часто вимагають онлайн-авторизації перед дозволом користувачам клонувати репозиторії локально, залежно від налаштувань репозиторію.
Отже, механізми вже існують для забезпечення моніторингу фреймворків штучного інтелекту ширше, ніж це робиться зараз; і воля до збільшення такого нагляду зараз консолідується з індивідуальних урядових ініціатив у глобальний імпульс.
Так, якщо ринкові сили і винахідливість руху FOSS повинні прибрати тертя з казуальної розгортки штучного інтелекту, дорожні блоки, здається, повернуться у вигляді вимог до відповідності: вимоги до відповідності, які, хоча й обтяжливі, є вартими для компаній, але, можливо, не для окремих осіб – схоже на тертя, яке було додано до споживчих онлайн-систем оплати після «золотого віку» PayPal у 2000-х роках.
Чи витратила Meta 2 мільярди доларів на лобіювання контролю віку на рівні операційної системи через свій значний інвестиційний внесок у штучний інтелект, або через свої інтереси у зборі даних, результатом великого технологічного лобіювання підтримки контролю віку є те, що «локальний» штучний інтелект може стати таким же регульованим, як речовина класу А; і, так само, як DMCA був спроєктований для криміналізації наміру spíše, ніж будь-якої конкретної механізму порушення авторських прав, міжнародне регулювання штучного інтелекту може, в такому сценарії, зробити всі неконформні використання машинного навчання поза законом, при дуже низькій вартості (у термінах активного нагляду).
Висновок
Так, хоча законодавчий і законодавчий фон готується, можливо, щоб кооптувати штучний інтелект у високорегульований простір, так що казуальні користувачі не можуть «варити своє» більше, ніж вони можуть вирощувати або ферментувати регульовані речовини без дозволу, дослідницький сектор підтримує свій більш оптимістичний погляд – що штучний інтелект стане демократизованим і корисним фактором у ширшому суспільстві, ніж лише послідовники найбільш популярного закритого постачальника дня.
Багато залежить від налаштування після того, як бульбашка штучного інтелекту лусне – принаймні настільки, наскільки постачальники або консолідуються, або ринок заспокоюється у довгострокову балканізацію – яка, ймовірно, потребуватиме більш деликатного регулювання.
Перша публікація середа, 1 квітня 2026












