Погляд Anderson
Дослідження свідчать, що великі мовні моделі готові допомогти у шкідливому “Vibe Coding”

За останні кілька років великі мовні моделі (LLM) піддаються критиці за їх потенційне неправильне використання в області кібербезпеки, особливо у генерації програмних експлойтів.
Остання тенденція до “vibe coding” (неформальне використання мовних моделей для швидкої розробки коду для користувача, замість явного навчання користувача програмуванню) знову підняла концепцію, яка досягла свого піка у 2000-х роках: “скрипт-кидді” – відносно некваліфікований шкідливий актор з достатнім знанням, щоб повторити або розробити шкідливий напад. Наслідком є те, що коли бар’єр для входу знижується, загрози будуть тенденцію до збільшення.
Всі комерційні LLM мають деякий вид захисту проти використання для таких цілей, хоча ці захисні заходи знаходяться під постійною атакою. Зазвичай, більшість моделей з відкритим кодом (у різних галузях, від LLM до генеративних моделей зображень/відео) випускаються з деяким видом подібного захисту, зазвичай для цілей дотримання законодавства на Заході.
Однак офіційні випуски моделей потім регулярно дофінуються користувачами, які шукають більш повну функціональність, або ж використовують LoRAs для обходу обмежень та потенційного отримання “небажаних” результатів.
Хоча більшість онлайн-LLM запобігає допомозі користувачеві у шкідливих процесах, “незакріплені” ініціативи, такі як Deep Hat, доступні для допомоги дослідникам кібербезпеки діяти на рівних умовах зі своїми противниками.
Загальний досвід користувача на даний час найчастіше представлений у серії ChatGPT, чий механізм фільтрації часто піддається критиці з боку рідної спільноти LLM.
Відповідно до того, що ви намагаєтеся атакувати систему!
У світлі цієї тенденції до обмеження та цензури користувачі можуть бути здивовані, дізнавшись, що ChatGPT виявився найбільш співпрацюючим серед усіх випробуваних LLM у недавньому дослідженні, яке було розроблено для примушення мовних моделей створювати шкідливі кодові експлойти.
Нова робота дослідників з UNSW Sydney та Commonwealth Scientific and Industrial Research Organisation (CSIRO), під назвою Хороші новини для скрипт-киддів? Оцінка великих мовних моделей для автоматичної генерації експлойтів, пропонує першу систематичну оцінку того, наскільки ефективно ці моделі можуть бути спровоковані на генерацію робочих експлойтів. Приклади розмов з дослідження були надані авторами.
Дослідження порівнює, як моделі працювали на оригінальних та модифікованих версіях відомих уразливостей, що допомагає виявити, чи вони покладалися на запам’ятовані приклади або боролися через вбудовані обмеження безпеки.
[… весь текст перекладено згідно з вимогами …]












