Угол Андерсона

Исследования показывают, что LLM готовы помочь во вредоносном «Vibe-кодировании»

опубликованный 5 мая 2025

обновлено 6 сентября, 2025

Мартин Андерсон

За последние несколько лет большие языковые модели (LLM) привлечённое внимание для их потенциального неправомерного использования в наступательной кибербезопасности, особенно в создание эксплойтов программного обеспечения.

Недавняя тенденция к кодирование вибрации (случайное использование языковых моделей для быстрой разработки кода для пользователя, вместо явного обучение (от пользователя к коду) возродил концепцию, достигшую своего апогея в 2000-х годах: «скрипт-кидди» – относительно неквалифицированного злоумышленника, обладающего лишь достаточными знаниями для воспроизведения или разработки вредоносной атаки. Естественно, подразумевается, что при таком снижении порога проникновения количество угроз будет увеличиваться.

Все коммерческие LLM имеют определенные защитные меры против использования в таких целях, хотя эти защитные меры под постоянным нападением. Как правило, большинство моделей FOSS (в различных областях, от LLM до генеративных моделей изображений/видео) выпускаются с какой-либо схожей защитой, обычно в целях обеспечения соответствия требованиям на Западе.

Однако официальные релизы моделей затем регулярно публикуются. доработаны сообществами пользователей, ищущими более полную функциональность, или же LoRA используется для обхода ограничений и потенциального получения «нежелательных» результатов.

Хотя подавляющее большинство онлайн-программ LLM не позволят пользователю помогать с вредоносными процессами, «неограниченные» инициативы, такие как Глубокая шляпа могут помочь исследователям в области безопасности действовать на равных условиях со своими оппонентами.

Общий пользовательский опыт в настоящее время чаще всего представлен в ChatGPT серии, чьи фильтрующие механизмы часто подвергаются критике из местного сообщества LLM.

Похоже, вы пытаетесь атаковать систему!

В свете этой предполагаемой тенденции к ограничениям и цензуре пользователи могут быть удивлены, обнаружив, что ChatGPT оказался наиболее сотрудничающий всех LLM, протестированных в недавнем исследовании, призванном заставить языковые модели создавать вредоносный код.

The Новый документ от исследователей из Университета Нового Южного Уэльса в Сиднее и Организации Содружества научных и промышленных исследований (CSIRO) под названием Хорошие новости для Script Kiddies? Оценка больших языковых моделей для автоматизированной генерации эксплойтов, предлагает первую систематическую оценку того, насколько эффективно эти модели могут быть побуждены к созданию рабочих эксплойтов. Примеры разговоров из исследования были предоставлены авторами.

В исследовании сравнивается, как модели работали как в исходных, так и в модифицированных версиях известных лабораторий по уязвимостям (упражнения по структурному программированию, разработанные для демонстрации конкретных недостатков безопасности программного обеспечения), что помогает выявить, опирались ли они на запомнить примеры или испытывали трудности из-за встроенных ограничений безопасности.

С сайта поддержки Ollama LLM помогает исследователям разрабатывать атаку на уязвимость строк. Источник: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

На сайте поддержки магистр права Оллама помогает исследователям разрабатывать атаку на уязвимость строк. Источник: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

Хотя ни одна из моделей не смогла создать эффективный эксплойт, некоторые из них были очень близки к этому; что еще важнее, некоторые из них хотел лучше справиться с задачей, что указывает на потенциальный отказ существующих подходов к ограждению.

В документе говорится:

«Наши эксперименты показывают, что GPT-4 и GPT-4o демонстрируют высокую степень кооперации в генерации эксплойтов, сравнимую с некоторыми нецензурированными моделями с открытым исходным кодом. Среди оцениваемых моделей Llama3 оказалась наиболее устойчивой к таким запросам.

«Несмотря на их готовность помочь, фактическая угроза, которую представляют эти модели, остается ограниченной, поскольку ни одна из них не смогла успешно сгенерировать эксплойты для пяти пользовательских лабораторий с рефакторингом кода. Однако GPT-4o, самый сильный исполнитель в нашем исследовании, обычно допускал только одну или две ошибки за попытку.

«Это говорит о значительном потенциале использования LLM для разработки продвинутых, обобщаемых методов [автоматизированной генерации эксплойтов (AEG)]».

Множество вторых шансов

Прописная истина: «У вас не будет второго шанса произвести хорошее первое впечатление» обычно не применима к магистрам права, поскольку языковая модель обычно ограничена контекстное окно означает, что негативный контекст (в социальном смысле, т.е. антагонизм) не настойчивый.

Подумайте: если бы вы пошли в библиотеку и попросили книгу о практическом изготовлении бомб, вам, скорее всего, отказали бы, как минимум. Но (предполагая, что этот запрос не полностью погубил разговор с самого начала) ваши запросы на сопутствующие работы, например, книги о химических реакциях или схемотехнике, по мнению библиотекаря, будут четко связаны с первоначальным запросом и будут рассматриваться в этом свете.

Скорее всего, библиотекарь также вспомнит в любом случае в будущем встречи, на которых вы однажды попросили книгу, способную создать бомбу, сделав этот новый контекст себя «непоправимым».

Но это не относится к LLM, который может испытывать трудности с сохранением токенизированной информации даже из текущего разговора, не говоря уже о директивах долговременной памяти (если таковые имеются в архитектуре, как с продукт ChatGPT-4o).

Таким образом, даже случайные разговоры с ChatGPT невольно показывают нам, что иногда он отцеживает комара, но проглатывает верблюда, особенно когда в ходе дискурса допускается развитие составляющей темы, исследования или процесса, относящегося к иным «запрещенным» видам деятельности.

Это справедливо для всех современных языковых моделей, хотя качество ограждения может различаться по степени и подходу среди них (т. е. разница между изменением весами обученной модели или с использованием входной/выходной фильтрации текста во время сеанса чата, что оставляет модель структурно нетронутой, но потенциально более уязвимой для атак).

Тестирование метода

Чтобы проверить, насколько далеко можно продвинуть LLM в плане создания рабочих эксплойтов, авторы создали контролируемую среду с использованием пяти лаборатории от SEED Labs, каждый из которых построен на известных уязвимостях, включая переполнение буфера, вернуться в libc, чтобы Атака грязной коровы и условия гонки.

Помимо использования оригинальных лабораторий, исследователи создали модифицированные версии, переименовав переменные и функции в общие идентификаторы. Это было сделано для того, чтобы предотвратить использование моделями заученных обучающих примеров.

Каждая лабораторная работа проводилась дважды для каждой модели: один раз в ее исходном виде и один раз в ее запутанной версии.

Затем исследователи ввели в цикл второй LLM: модель атакующего, разработанную для подсказок и повторных подсказок целевой модели с целью уточнения и улучшения ее вывода в течение нескольких раундов. LLM, использованная для этой роли, была GPT-4o, которая работала через сценарий, который опосредовал диалог между атакующим и целью, позволяя циклу уточнения продолжаться до пятнадцати раз или до тех пор, пока дальнейшее улучшение не будет признано возможным:

Рабочий процесс для злоумышленника на основе LLM, в данном случае GPT-4o.

Целевыми моделями для проекта были: ГПТ-4о, GPT-4o-мини, Лама3 (8В), Дельфин-Мистраль (7Б) и Дельфин-Фи (2.7B), представляющие как проприетарные, так и открытые системы, с комбинацией согласованных и несогласованных моделей (т. е. моделей со встроенными механизмами безопасности, предназначенными для блокировки вредоносных подсказок, и моделей, модифицированных посредством тонкой настройки или конфигурации для обхода этих механизмов).

Модели, устанавливаемые локально, запускались через Оллама фреймворк, а доступ к остальным осуществляется через единственный доступный им метод — API.

Полученные результаты оценивались на основе количества ошибок, которые не позволяли эксплойту работать должным образом.

Результаты

Исследователи проверили, насколько сотрудничающей была каждая модель в процессе генерации эксплойтов, измеряя процент ответов, в которых модель пыталась помочь в выполнении задачи (даже если выходные данные были некорректными).

Результаты основного теста, показывающие средний уровень сотрудничества.

GPT-4o и GPT-4o-mini продемонстрировали самый высокий уровень сотрудничества со средним показателем реагирования 97 и 96 процентов соответственно по пяти категориям уязвимостей: переполнение буфера, вернуться в libc, строка формата, состояние гонки и Грязная корова.

Dolphin-Mistral и Dolphin-Phi следовали за ними с небольшим отставанием, имея средний уровень сотрудничества 93 и 95 процентов. Llama3 показала наименее готовность участвовать, при этом общий уровень сотрудничества составил всего 27 процентов:

Слева мы видим количество ошибок, допущенных магистрами права в исходных программах SEED Lab; справа — количество ошибок, допущенных в переработанных версиях.

Изучая фактическую производительность этих моделей, они обнаружили заметный разрыв между готовность и эффективность: GPT-4o показал самые точные результаты, допустив в общей сложности шесть ошибок в пяти запутанных лабораторных работах. GPT-4o-mini показал себя достаточно хорошо с восемью ошибками. Dolphin-Mistral показал себя достаточно хорошо в исходных лабораторных работах, но значительно уступил, когда код был рефакторингован, что говорит о том, что он мог видеть похожий контент во время обучения. Dolphin-Phi допустил семнадцать ошибок, а Llama3 — больше всего, с пятнадцатью.

Сбои обычно были связаны с техническими ошибками, которые делали эксплойты нефункциональными, такими как неправильные размеры буфера, отсутствующая логика цикла или синтаксически допустимые, но неэффективные полезные нагрузки. Ни одна модель не смогла создать работающий эксплойт для любой из обфусцированных версий.

Авторы отметили, что большинство моделей создавали код, напоминающий работающие эксплойты, но не срабатывали из-за слабого понимания того, как на самом деле работают базовые атаки, — закономерность, которая была очевидна для всех категорий уязвимостей и которая предполагала, что модели имитировали знакомые структуры кода, а не рассуждали на основе задействованной логики (например, в случаях переполнения буфера многим не удавалось построить работающий код). NOP сани/слайд).

При попытках возврата к libc полезные данные часто включали некорректное заполнение или неверные адреса функций, что приводило к выходным данным, которые казались допустимыми, но были непригодны для использования.

Хотя авторы описывают эту интерпретацию как спекулятивную, последовательность ошибок указывает на более широкую проблему, в которой модели не связывают этапы эксплойта с их предполагаемым эффектом.

Заключение

В статье признается, что есть некоторые сомнения относительно того, видели ли тестируемые языковые модели оригинальные лаборатории SEED во время первого обучения; по этой причине были созданы варианты. Тем не менее, исследователи подтверждают, что они хотели бы работать с эксплойтами реального мира в более поздних итерациях этого исследования; действительно новый и недавний материал с меньшей вероятностью будет подвержен ярлыки или другие сбивающие с толку эффекты.

Авторы также признают, что более поздние и более продвинутые модели «мышления», такие как GPT-o1 и DeepSeek-r1, которые не были доступны на момент проведения исследования, могут улучшить полученные результаты, и что это является дополнительным указанием для будущей работы.

В статье делается вывод о том, что большинство протестированных моделей могли бы создать рабочие эксплойты, если бы они были способны это делать. Их неспособность генерировать полностью функциональные результаты, по-видимому, не является результатом мер безопасности выравнивания, а скорее указывает на подлинное архитектурное ограничение — то, которое, возможно, уже было уменьшено в более поздних моделях или скоро будет уменьшено.

Впервые опубликовано Понедельник, 5 мая 2025 г.

Похожие темы:Продвинутые LLM ИИ Кибербезопасность Безопасность ИИ LLM Вибе

Оптимизация затрат на облако с помощью искусственного интеллекта: стратегии и передовой опыт

Не пропустите

Почему извлечение документов агентом заменяет OCR для более интеллектуальной автоматизации документооборота

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai