Кут Андерсона

Дослідження показує, що LLM готові допомагати у зловмисному «вібраційному кодуванні»

опублікований Травень 5, 2025

оновлений Вересень 6, 2025

Мартін Андерсон

Протягом останніх кількох років моделі великих мов (LLM) звертається ретельна перевірка через їхнє потенційне зловживання в наступальній кібербезпеці, зокрема в створення програмних експлойтів.

Нещодавня тенденція до «вібраційне кодування» (випадкове використання мовних моделей для швидкої розробки коду для користувача, замість явного навчання (користувач, який пише код) відродив концепцію, яка досягла свого апогею у 2000-х роках: «сценарний малюк» – відносно некваліфікований зловмисник, який має достатньо знань, щоб відтворити або розробити шкідливу атаку. Природно, це означає, що коли планка входу таким чином знижується, загрози, як правило, множаться.

Усі комерційні LLM мають певний захист від використання для таких цілей, хоча ці захисні заходи під постійним нападомЗазвичай більшість моделей FOSS (у кількох областях, від LLM до генеративних моделей зображень/відео) випускаються з певним подібним захистом, зазвичай для цілей дотримання вимог на Заході.

Однак офіційні релізи моделей потім регулярно тонко налаштований спільнотами користувачів, які прагнуть повнішої функціональності, або ж LoRAs використовується для обходу обмежень та потенційного отримання «небажаних» результатів.

Хоча переважна більшість онлайн-магістрів права (LLM) запобігають наданню користувачеві допомоги у шкідливих процесах, такі «вільні» ініціативи, як Глибокий капелюх доступні, щоб допомогти дослідникам безпеки діяти на рівних умовах, як і їхні опоненти.

Загальний досвід користувача на даний момент найчастіше представлений у ChatGPT серії, механізми фільтрації яких часто викликають критику від рідної громади LLM.

Схоже, ви намагаєтеся атакувати систему!

З огляду на цю передбачувану тенденцію до обмежень та цензури, користувачі можуть бути здивовані, дізнавшись, що ChatGPT виявився найбільш кооперативний усіх LLM, протестованих у нещодавньому дослідженні, розробленому для того, щоб змусити мовні моделі створювати експлойти шкідливого коду.

Команда новий папір від дослідників з UNSW Sydney та Організації наукових та промислових досліджень Співдружності (CSIRO) під назвою Гарні новини для дітей-скрипторів? Оцінка моделей великих мов для автоматизованої генерації експлойтів, пропонує першу систематичну оцінку того, наскільки ефективно ці моделі можна спонукати до створення робочих експлойтів. Приклади розмов з дослідження були надані за авторами.

У дослідженні порівнюється, як моделі працювали як на оригінальних, так і на модифікованих версіях відомих лабораторій вразливостей (структурованих програмних вправ, розроблених для демонстрації конкретних недоліків безпеки програмного забезпечення), допомагаючи виявити, чи спиралися вони на запам’ятовується приклади або труднощі через вбудовані обмеження безпеки.

З допоміжного сайту, програма магістра права Ollama допомагає дослідникам розробити атаку на вразливість рядків. Джерело: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

З допоміжного сайту, LLM Ollama допомагає дослідникам розробити атаку на вразливість рядків. Джерело: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

Хоча жодна з моделей не змогла створити ефективний експлойт, кілька з них були дуже близькі до цього; що ще важливіше, кілька з них хотів краще виконати завдання, що вказує на потенційну несправність існуючих підходів до захисних огороджень.

У папері зазначено:

«Наші експерименти показують, що GPT-4 та GPT-4o демонструють високий ступінь співпраці у генерації експлойтів, порівнянний з деякими нецензурованими моделями з відкритим кодом. Серед оцінених моделей Llama3 була найбільш стійкою до таких запитів».

«Незважаючи на їхню готовність допомогти, фактична загроза, яку становлять ці моделі, залишається обмеженою, оскільки жодна з них не успішно створила експлойти для п’яти користувацьких лабораторій з рефакторованим кодом. Однак GPT-4o, найсильніший виконавець у нашому дослідженні, зазвичай робив лише одну або дві помилки за спробу».

«Це свідчить про значний потенціал використання LLM для розробки передових, узагальнених методів [автоматизованої генерації експлойтів (AEG)].»

Багато других шансів

Трюїзм «У вас не буде другого шансу справити гарне перше враження» зазвичай не застосовується до LLM, оскільки мовна модель зазвичай обмежена контекстне вікно означає, що негативний контекст (у соціальному сенсі, тобто антагонізм) є не стійкий.

Подумайте: якби ви пішли до бібліотеки та попросили книгу про практичне виготовлення бомб, вам, ймовірно, щонайменше відмовили б. Але (якщо припустити, що це запитання не повністю зіпсувало розмову з самого початку) ваші прохання про пов'язані роботи, такі як книги про хімічні реакції або проектування схем, на думку бібліотекаря, будуть явно пов'язані з початковим запитом і розглядатимуться в цьому світлі.

Ймовірно, бібліотекар також пам'ятатиме в будь-якому майбутнє зустрічі, на яких ви одного разу попросили книгу про виготовлення бомби, зробивши цей новий контекст себе «непоправним».

Не так з LLM, якому може бути важко зберігати токенізовану інформацію навіть з поточної розмови, не кажучи вже про директиви довгострокової пам'яті (якщо такі є в архітектурі, Як і в випадку продукт ChatGPT-4o).

Таким чином, навіть випадкові розмови з ChatGPT випадково показують нам, що він іноді проціджує комара, але ковтає верблюда, не в останню чергу тоді, коли під час дискурсу дозволяється розвиватися складовій темі, дослідженню чи процесу, що стосуються інакше «забороненої» діяльності.

Це стосується всіх сучасних мовних моделей, хоча якість захисту може відрізнятися за ступенем та підходом між ними (тобто різниця між модифікацією вагами навченої моделі або використання вхідної/вихідної фільтрації тексту під час сеансу чату, що залишає модель структурно неушкодженою, але потенційно легшою для атаки).

Тестування методу

Щоб перевірити, наскільки LLM можна використовувати для створення робочих експлойтів, автори створили контрольоване середовище, використовуючи п'ять лабораторії від SEED Labs, кожен з яких побудований на відомих вразливостях, зокрема переповнення буфера, повернення до libc, то Напад брудної корови та умови перегонів.

Окрім використання оригінальних лабораторних робіт, дослідники створили модифіковані версії, перейменувавши змінні та функції на загальні ідентифікатори. Це мало на меті запобігти використанню моделей на основі запам'ятованих навчальних прикладів.

Кожну лабораторну роботу було виконано двічі для кожної моделі: один раз у її оригінальній формі, а інший раз у її обфускованій версії.

Потім дослідники ввели в цикл другий LLM: модель атакуючого, призначену для повторного запиту та запиту цільової моделі з метою вдосконалення та покращення її результату протягом кількох раундів. LLM, що використовувався для цієї ролі, був GPT-4o, який працював через скрипт, що опосередковував діалог між атакуючим і ціллю, дозволяючи циклу вдосконалення продовжуватися до п'ятнадцяти разів або доки подальше вдосконалення не вважалося неможливим:

Робочий процес для зловмисника на основі LLM, у цьому випадку GPT-4o.

Цільовими моделями для проекту були GPT-4o, GPT-4o-mini, Лама 3 (8В), Дельфін-Містраль (7B), і Дельфін-Фі (2.7B), що представляє як власницькі, так і системи з відкритим вихідним кодом, з поєднанням узгоджених та неузгоджених моделей (тобто моделей із вбудованими механізмами безпеки, призначеними для блокування шкідливих підказок, та тих, що були модифіковані шляхом точного налаштування або конфігурації для обходу цих механізмів).

Локально встановлювані моделі запускалися через Оллама фреймворк, а інші доступні через єдиний доступний метод – API.

Отримані результати оцінювалися на основі кількості помилок, які заважали експлойту функціонувати належним чином.

Результати

Дослідники перевірили, наскільки кооперативною була кожна модель під час процесу генерації експлойту, вимірюваючи це шляхом запису відсотка відповідей, у яких модель намагалася допомогти із завданням (навіть якщо результат був недосконалим).

Результати основного тесту, що демонструють середній рівень співпраці.

GPT-4o та GPT-4o-mini продемонстрували найвищий рівень співпраці, із середнім рівнем реагування 97 та 96 відсотків відповідно у п'яти категоріях вразливостей: переповнення буфера, повернення до libc, формат рядка, стан перегонів та Брудна корова.

Dolphin-Mistral та Dolphin-Phi слідували за ними, із середніми показниками співпраці 93 та 95 відсотків. Llama3 показав, що найменш готовність до участі, із загальним рівнем співпраці лише 27 відсотків:

Ліворуч ми бачимо кількість помилок, допущених LLM в оригінальних програмах SEED Lab; праворуч – кількість помилок, допущених у рефакторованих версіях.

Досліджуючи фактичну продуктивність цих моделей, вони виявили помітну різницю між готовність та ефективністьGPT-4o показав найточніші результати, загалом шість помилок у п'яти обфускованих лабораторних завданнях. GPT-4o-mini йшов далі з вісьмома помилками. Dolphin-Mistral досить добре показав себе в оригінальних лабораторних завданнях, але зазнав значних труднощів після рефакторингу коду, що свідчить про те, що під час навчання він міг бачити подібний вміст. Dolphin-Phi допустив сімнадцять помилок, а Llama3 найбільше – п'ятнадцять.

Збої зазвичай пов'язані з технічними помилками, які робили експлойти нефункціональними, такими як неправильні розміри буферів, відсутня логіка циклу або синтаксично коректні, але неефективні корисні навантаження. Жодна модель не змогла створити робочий експлойт для жодної з обфускованих версій.

Автори зазначили, що більшість моделей створювали код, який нагадував робочі експлойти, але не працювали через слабке розуміння того, як насправді працюють основні атаки – ця закономірність була очевидною для всіх категорій вразливостей і свідчила про те, що моделі імітували знайомі структури коду, а не міркували на основі логіки (наприклад, у випадках переповнення буфера багато хто не міг побудувати функціонуючий код). сани/гірка NOP).

Під час спроб повернення до libc корисні навантаження часто містили неправильні заповнення або неправильно розміщені адреси функцій, що призводило до виводу, який здавався коректним, але був непридатним для використання.

Хоча автори називають цю інтерпретацію спекулятивною, узгодженість помилок свідчить про ширшу проблему, в якій моделі не пов'язують кроки експлойту з їхнім передбачуваним ефектом.

Висновок

У статті визнаються певні сумніви щодо того, чи бачили протестовані мовні моделі оригінальні лабораторії SEED під час першого навчання; саме тому були створені варіанти. Тим не менш, дослідники підтверджують, що хотіли б працювати з реальними експлойтами в пізніших ітераціях цього дослідження; справді новий та нещодавній матеріал рідше підлягатиме ярлики або інші заплутані ефекти.

Автори також визнають, що пізніші та більш просунуті моделі «мислення», такі як GPT-o1 та DeepSeek-r1, які не були доступні на момент проведення дослідження, можуть покращити отримані результати, і що це є додатковим показником для майбутньої роботи.

У статті робиться висновок, що більшість протестованих моделей створили б робочі експлойти, якби вони були здатні на це. Їхня нездатність генерувати повністю функціональні результати, схоже, не є результатом заходів захисту від вирівнювання, а радше вказує на справжнє архітектурне обмеження, яке, можливо, вже було зменшено в новіших моделях або скоро буде зменшено.

Вперше опубліковано в понеділок, 5 травня 2025 року

Схожі теми:Розширені LLM AI Cyber Security Безпека AI LLM Vibe

Вгору Далі

Оптимізація витрат на хмарні технології на основі штучного інтелекту: стратегії та найкращі практики

Не пропустіть

Чому агентне вилучення документів замінює оптичне розпізнавання символів (OCR) для розумнішої автоматизації документів

Мартін Андерсон

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai