Лідери думок
Штучний інтелект компрометований за конструкцією

Чотири невдачі. Чотири шари. Сама архітектура є уразливістю.
В одному з епізодів подкасту Hard Fork від New York Times, який вийшов 10 квітня 2026 року, обговорювалися кібербезпекові наслідки передових систем штучного інтелекту та поставили питання, яке індустрія намагалася уникнути: що якщо кібербезпека не працює недостатньо добре, а фундаментально неправильно сформульована?
Цей епізод вийшов у ефір через кілька тижнів після серії інцидентів, які зробили відповідь на це питання важко ігнорувати. За один місяць автономний агент штучного інтелекту порушив внутрішню платформу штучного інтелекту McKinsey за дві години. Атака на відкриту бібліотеку штучного інтелекту, широко використовувану в підприємств, призвела до каскаду інцидентів у низці підприємств. Дослідники показали, що апаратне забезпечення, призначене для захисту, можна порушити за допомогою деталей, вартість яких менше тисячі доларів. Компанія Anthropic повідомила, що одна з її моделей штучного інтелекту самостійно виявила тисячі невідомих уразливостей у коді, який вважався стабільним.
Чотири інциденти. Чотири шари штучного інтелекту: застосунок, оркестрація, апаратне забезпечення та операційна система. Кожен з них показав суттєві обмеження в механізмах захисту, призначених для їх захисту.
Кінець периметрального мислення
Традиційна кібербезпека ґрунтується на одному припущенні: з достатнім контролем, моніторингом та інвестиціями системи можна захистити. Це припущення сформувало десятиліття архітектури, включаючи брандмауери, управління ідентифікацією, безпеку кінцевих точок та платформи SIEM, всі з яких побудовані на ідеї, що видимість та тісний контроль дорівнюють безпеці.
Перехід індустрії до архітектури Zero Trust відображає зростаюче визнання того, що традиційні мережеві кордони вже не можуть бути довіреними. Однак навіть коли моделі довіри еволюціонують, системи штучного інтелекту вводять іншу проблему: чутливі дані регулярно агрегуються, обробляються та передаються черезหลาย шарів інфраструктури.
Цей підхід мав сенс, коли системи були відносно централізованими, а дані залишалися в межах чітко визначених кордонів. Він стає значно менш ефективним, коли дані рухаються безперервно через хмари, API, постачальників програмного забезпечення та трубопроводи штучного інтелекту, а користувачі та обчислювальні ресурси розподілені по всьому світу. Периметр вже не є кордоном. Це постійно зміщувана поверхня, а ми все ще застосовуємо контрольне мислення до систем, які не можуть бути реально контрольовані.
Невдача шару застосунку: Lilli від McKinsey
9 березня 2026 року компанія CodeWall, яка займається безпекою, опублікувала звіти, які підкреслили ризики, з якими стикаються організації, які розгортають штучний інтелект всередині.
Автономний агент CodeWall, який не мав жодних даних для входу, жодних внутрішніх знань та жодного керівництва з боку людини, отримав доступ до бази даних виробництва за дві години. Lilli використовується більш ніж 40 000 співробітниками для стратегічної роботи, дослідження клієнтів та аналізу документів, генеруючи сотні тисяч запитів на місяць.
Точка входу не була складною. Агент знайшов публічно доступну документацію API, яка перелічувала понад 200 кінцевих точок, 22 з яких не вимагали жодної автентифікації. Уразливості, які були залучені, відображають ризики, підкреслені в_OWASP Top 10 для застосунків великих мовних моделей_, особливо щодо відкритих інтерфейсів, ненадійних інтеграцій та надмірної довіри до зв’язаних систем.
Одна з цих кінцевих точок містила уразливість встрічі з SQL, приховану в іменах полів JSON, а не в значеннях вводу, де більшість автоматичних сканерів шукають. Відтоді агент пройшов через сліпу встрічу з SQL до моменту, коли виробнича база даних стала доступною.
До чого він отримав доступ: десятки мільйонів повідомлень у відкритому тексті, сотні тисяч файлів, десятки тисяч облікових записів користувачів та мільйони фрагментів документів RAG, які представляють роки власних досліджень. Він також ідентифікував системні запити, які керували поведінкою Lilli для кожного користувача.
Найбільш тривожним висновком було не обсяг. Це було те, що системні запити були записуваними. Атакувальник міг би безшумно переписати інструкції, які керували виходами Lilli, отруївши стратегічні поради, впровадивши конфіденційну інформацію у відповіді або видаливши усі обмеження, змінивши лише оновлення бази даних. Жодних розгортань. Жодних змін у коді. Жодних слідів у журналах застосунку.
У публічному заяві McKinsey повідомила, що виправила проблему протягом годин і, після розслідування третьою стороною, не знайшла жодних доказів того, що конфіденційна інформація клієнтів була доступна. Ця відповідь має значення. Але вона не змінює суттєву урок: десятилітня уразливість класу відкрила оперативну пам’ять сучасної системи штучного інтелекту, оскільки дані за нею існували у відкритому вигляді.
Невдача шару оркестрації: Атака LiteLLM
Через три тижні той самий шаблон з’явився з іншого боку, і через інший шар.
LiteLLM — це відкрита бібліотека шлюзу штучного інтелекту, яку використовують тисячі компаній для маршрутизації запитів через постачальників штучного інтелекту. Його позиція в штучному інтелекті критична: він знаходиться на рівні оркестрації, володіючи ключами API для кожного постачальника, до якого він підключається. Якість компрометації на цьому рівні викриває дані для автентифікації через кожну інтегровану службу.
За повідомленням PyPI про інцидент, група атакувальників TeamPCP використала дані для автентифікації, пов’язані з залежністю в конвеєрі CI/CD LiteLLM, і використала доступ до системи для публікації двох версій LiteLLM з бекдором безпосередньо на PyPI. Порочені версії були активними менше години, перш ніж їх видалити. Оперативна діяльність була виявлена лише тому, що зловмисне програмне забезпечення містить помилку, яка призвела до краху машини дослідника.
Ланцюг постачань був вектором. Шар оркестрації був ціллю. Компрометуючи одну залежність вище за течією, атакувальники досягли рівня, на якому жили ключі постачальників кожної компанії вниз за течією.
Команда LiteLLM пізніше опублікувала інцидент і зусилля щодо його подолання в публічному роз’ясненні на GitHub.
Радіус вибуху став видимим майже одразу. TechCrunch, Fortune та The Register повідомили, що Mercor, стартап з штучним інтелектом у сфері рекрутингу вартістю 10 мільярдів доларів, який працює з компаніями, включаючи OpenAI, Anthropic, Meta та Google, був серед постраждалих організацій. Атакувальники заявили, що вони отримали великі обсяги даних, включаючи профілі кандидатів, особисту інформацію, відео-інтерв’ю контрактників, вихідний код та ключі API. Meta призупинила роботу з Mercor у зв’язку з розслідуванням. Подальше повідомлення вказувало на подібні моделі зловмисного програмного забезпечення в інших інструментах розробника, що свідчить про те, що операція могла вийти за межі одного проекту.
Інцидент з LiteLLM не був аномалією. Це була система, яка працює за призначенням. Кожна частина в трубопроводі штучного інтелекту потребує доступу до використовуваних даних для роботи, що означає, що кожна частина також є потенційною точкою витоку. Закріплення залежностей та обертання даних для автентифікації — це необхідні реакції, але вони адресують інцидент, а не архітектуру.
Невдача шару апаратного забезпечення: TEE.fail
Якщо порушення безпеки McKinsey продемонструвало, що шар застосунку не можна довіряти, а атака на LiteLLM продемонструвала, що ланцюг постачань не можна довіряти, дослідження TEE.fail продемонструвало, що апаратне забезпечення, призначене для компенсації обох, також не може бути повністю довіреним.
28 жовтня 2025 року дослідники з Georgia Tech, Purdue University та Synkhronix опублікували TEE.fail, атаку з боку каналу, яка витягує криптографічні ключі з довірених середовищ виконання, використовуючи фізичну інтерпозицію шини пам’яті на серверах DDR5. Ця атака впливає на Intel SGX, Intel TDX та AMD SEV-SNP, включаючи повністю оновлені системи з включеним режимом шифрування AMD. Це технології, які широко рекламуються як основа конфіденційного обчислення.
Дослідники витягнули ключі атестації: криптографічний матеріал, використовуваний для підтвердження того, що робочі навантаження виконуються всередині безпечних середовищ. З цими ключами скомпрометована система може видавати себе за довірену, працюючи повністю поза очікуваним захистом. Дослідники продемонстрували це безпосередньо: вони створили фальшиві атестації TDX на BuilderNet Ethereum, щоб отримати доступ до конфіденційних даних про транзакції, і фальшиві атестації Intel та NVIDIA, щоб виконувати робочі навантаження поза будь-яким довіреним середовищем, видаючи себе за легітимні.
Вплив на NVIDIA має значення для штучного інтелекту зокрема. Оскільки атестація GPU залежить від атестації CPU, скомпрометований ланцюжок довіри CPU може підірвати гарантії, надані довіреними середовищами виконання штучного інтелекту. Апаратна основа довірених середовищ виконання штучного інтелекту в цьому моделі загроз умовна, тобто залежить від довіреного середовища виконання CPU, яке було доведено скомпрометованим.
Виробники апаратного забезпечення відповіли офіційними рекомендаціями. AMD заявила, що атаки з фізичним доступом виходять за межі її стандартної моделі загроз і вказала, що не буде випускати оновлення мікропрограми. Intel та NVIDIA визнали висновки та вказали на тривалу роботу з мінімізації наслідків. Ці реакції є розумними в межах їх моделей загроз. Вони також підкреслюють важливий кордон: гарантії безпеки, заснованої на апаратному забезпеченні, залежать від припущень, включаючи фізичний контроль, які суверенні, регульовані та орієнтовані на суперника розгортання не завжди можуть зробити.
TEE.fail не робить ізоляцію апаратного забезпечення недійсною. Це демонструє, що вона умовна.
Невдача шару операційної системи: Одкровення Mythos
Якщо перші три інциденти поставили під сумнів шар застосунку, шар оркестрації та шар апаратного забезпечення, четверте розголошення в квітні 2026 року поставило під сумнів шар під усіма ними: операційні системи та основні бібліотеки, на яких працюють усі інші шари.
7 квітня 2026 року компанія Anthropic оголосила про Claude Mythos Preview, модель штучного інтелекту, яку вона відмовилася випустити публічно через її можливості з кібербезпекою, та одночасно запустила Project Glasswing, консорціум з AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA та Palo Alto Networks. Anthropic повідомила, що за кілька тижнів Mythos самостійно виявила тисячі невідомих уразливостей у великих операційних системах та веб-браузерах і була здатна створити робочі експлойти для багатьох з них.
Конкретні висновки важче ігнорувати, ніж будь-який підсумок. 27-річна уразливість у OpenBSD. 17-річна уразливість віддаленого виконання коду у сервері NFS FreeBSD, який зараз відстежується як CVE-2026-4747, який надає доступ до кореневої системи для неавторизованого атакувальника. 16-річна уразливість у FFmpeg, однієї з найбільш широко розгорнутих медіабібліотек в інтернеті. В одному випадку інженер Anthropic без формальної підготовки з безпеки попросив модель шукати уразливості віддаленого виконання коду протягом ночі та прокинувся до повністю робочого експлойту.
Це висновки на рівні операційної системи. OpenBSD та FreeBSD — це ядра. NFS — це підсистема мережі ядра. FFmpeg — це системна бібліотека, яка поставляється з більшість дистрибутивів Linux і підтримує медіапайплайни по всьому інтернету. Шар операційної системи вважався безпечним не тому, що він був доведений безпечним, а тому, що знаходження глибоких уразливостей у ньому потребувало рідкісної та дорогої людської експертизи. Це припущення було найкращим доступним евристом. Це ніколи не було гарантією.
Ця обмеження тепер послабилася. Сама Anthropic сформулювала це як двозначний зсув: ті самі можливості, які дозволяють моделі штучного інтелекту знаходити та виправляти уразливості у великому масштабі, також дозволяють їй, у неправильних руках, знаходити та експлуатувати їх у великому масштабі. Рішення Anthropic обмежити доступ через Project Glasswing відображає цю реальність. Це не розв’язує її. Подібні можливості, за оцінками компанії, поширені. Вартість аудиту старого коду зруйнована, і разом з нею і явна оборона того, що такий код був надто неясним, надто старим або надто широко переглянутим, щоб усе ще містити критичні уразливості.
Це також місце, де чотири інциденти сприяють одному результату. Захисти апаратного шару конфіденційного обчислень не працюють у ізоляції. Вони працюють як код ядра. Intel TDX працює в ядрі. Драйвери GPU NVIDIA працюють як модулі ядра. Ланцюжок атестації CPU залежить від довіреної операційної системи, щоб чесно повідомляти, що він робить. Якщо шар операційної системи під вашим довіреним середовищем виконання має десятки років потенційних уразливостей, а модель штучного інтелекту може зараз знаходити їх на машинній швидкості, тоді умовна безпека шару апаратного забезпечення залежить від шару операційної системи, чиї гарантії безпеки були刚 ослаблені тим же циклом розголошення.
Три попередні інциденти описують, як системи штучного інтелекту порушуються сьогодні. Mythos описує швидкість, з якою все, що знаходиться під ними, включаючи операційні системи, модулі ядра та системні бібліотеки, буде переаудитовано машинами. Порушення безпеки McKinsey використало клас уразливості встрічі з SQL, який існував понад два десятиліття. Уразливості такого віку саме те, чого моделі типу Mythos здатні знаходити у великому масштабі.

Шаблон
У кожному випадку дані були у відкритому тексті в момент порушення.
Шар застосунку обробляв його у відкритому вигляді. Шар оркестрації маршрутував його у відкритому вигляді. Шар апаратного забезпечення, незважаючи на захист, в кінцевому підсумку вимагав розшифрування на момент виконання. Шар операційної системи під усіма трьома працював у відкритому тексті за умовчанням. Чотири шари, чотири невдачі, і на кожному шарі той самий стан був дотриманий: коли відбулося порушення, дані були читабельними.
Це не колекція ізольованих невдач. Це сама архітектура.
Сучасні системи штучного інтелекту розроблені для роботи з читабельними даними. Кожен шар, включаючи пошук, маршрутизацію, висновок та виконання інструментів, вимагає відкритого доступу до функціонування. Це проектування означає, що будь-яке порушення на будь-якому шарі викриває дані, що стоять за ним.
Питання не в тому, чи буде шар скомпрометований. Це те, що атакувальник знаходить, коли це відбувається.
Від припущення про порушення до нульового впливу
Індустрія вже почала переходити від «запобігання порушенню» до «припущення порушення». Але більшість архітектур не пройшли наслідків.
Якщо порушення неминуче, то справжнє питання не в тому, як тримати атакувальників зовні. Це те, що відбувається, коли вони потрапляють всередину. Наразі відповідь проста: їм стають доступними дані. Оскільки, незважаючи на всі інвестиції в інфраструктуру безпеки, дані все ще відкриті в точці, коли вони стають цінними, коли їх використовують.
Відповідь індустрії була передбачуваною: більше моніторингу, швидше виявлення, додаткові шари конфіденційного обчислень. Це покращення. Але вони не розв’язують основну проблему. Вони все ще припускають, що якийсь шар — програмне забезпечення, апаратне забезпечення або операційний — може бути довіреним для захисту відкритих даних.
Альтернативою є видалення відкритого тексту повністю. Не захист шарів навколо даних, а зробити самі дані недоступними для будь-кого, хто до них досягає. Обчислення на зашифрованих даних, де запити, ваги моделі та виходи залишаються зашифрованими протягом усього трубопроводу, усувають той самий вплив, який ці інциденти використали.
Дослідження у сфері повністю гомоморфного шифрування та інших методів захисту конфіденційності роблять архітектури, які мінімізують або ліквідують вплив відкритого тексту, все більш практичними для реальних робочих навантажень штучного інтелекту. Хоча залишаються суттєві проблеми продуктивності, масштабованості та реалізації, мета фундаментально відрізняється від традиційних засобів контролю безпеки: зменшення вартості успішного порушення, а не просто зроблення порушення менш імовірним.
Зсув не з одного засобу безпеки на інший. Це з захисту систем до зменшення впливу. З довіреної інфраструктури до нульового довіри до даних. Від управління ризиками до мінімалізації самої поверхні атаки.
Що далі?
Обговорення Hard Fork поставило питання про те, чи фундаментально неправильно сформульована кібербезпека. Докази за останні кілька тижнів свідчать про те, що відповідь так, принаймні для штучного інтелекту.
Стара модель припускала, що системи можуть бути захищені, порушення можуть бути обмежені, а вплив може бути керований. Емерджентна реальність полягає в тому, що порушення повинні бути припущені, а вплив мінімізований. Інциденти, описані тут, свідчать про те, що захист систем штучного інтелекту може все більше залежати від зменшення кількості чутливих даних, доступних у разі порушення контролю.
Уразливості, виявлені протягом цих чотирьох інцидентів, не обмежуються одним шаром. Вони системні. їхнє усунення буде вимагати більшого, ніж інкрементальні покращення. Це буде вимагати переходу від захисту систем до зменшення впливу, від захисту периметра навколо даних до видалення відкритого тексту, який периметр був побудований для захисту.
Безпека штучного інтелекту вже не полягає в утриманні атакувальників зовні. Це забезпечення того, що коли вони потрапляють всередину, і це станеться, немає нічого читабельного, що вони можуть знайти.












