Connect with us

Втручання у ChatGPT та інші “закриті” моделі штучного інтелекту за допомогою їхніх власних API

Погляд Anderson

Втручання у ChatGPT та інші “закриті” моделі штучного інтелекту за допомогою їхніх власних API

mm
ChatGPT-4o, Firefly, Flux (via Krita)

За новими дослідженнями, ChatGPT та інші великі моделі штучного інтелекту можуть бути перепрограмовані через офіційні канали тонкої настройки, щоб ігнорувати правила безпеки та надавати детальні інструкції щодо здійснення терористичних актів, здійснення кіберзлочинів чи надання інших видів “забороненої” дискусії. Автори нової роботи стверджують, що навіть незначні кількості прихованих навчальних даних можуть перетворити модель на корисного спільника, незважаючи на численні вбудовані засоби безпеки в таких системах.

 

Вбудовані засоби безпеки у великих моделях мови часто характеризуються як “жорстко закодовані” або якимось чином незмінні; запитайте у ChatGPT, як виготовити вибухові речовини, створити фотореалістичний діпфейк реальної людини або здійснити кібератаку, і відмову, яка слідує за цим, пояснює, що такі запити порушують політику вмісту OpenAI.

На практиці не потрібно проводити формальне тестування на проникнення популярної мови моделі, щоб знати, що ці поручні є неідеальними; іноді справжні безпечні запити можуть бути визнані обурливими, або ж справді виробляти необгрунтовану обурливу відповідь у зображеннях або тексті.

Ці результати можуть виникнути з базовими моделями LM, такими як ChatGPT варіанти, та різними видами Claude, а також відкритими пропозиціями, такими як Llama.

Відповідайте за свій вибір

Великі постачальники мовних моделей, такі як OpenAI, тепер представляють платний доступ до тонкої настройки API, що дозволяє користувачам перепрограмувати ці моделі для нішевих застосунків, навіть без прямого доступу до ваг моделі на власному локальному обладнанні (обладнанні, яке, у будь-якому випадку, було б малоймовірним, щоб розмістити великі комерційні моделі цього типу).

У таких випадках користувач може завантажити навчальні дані, які можуть вплинути на вивід базової моделі, постійно налаштовуючи її упередження у бік вмісту користувача. Хоча це загалом може ушкодити широку придатність середньої моделі штучного інтелекту, мета полягає у створенні спеціального інструменту, призначеного для конкретної мети. Одним із прикладів є особа, яка завантажує свої шкільні есеї як навчальні дані, щоб налаштувати GPT так, щоб він не виробляв явно створені штучним інтелектом роботи(!).

Відповідно до нового дослідження, ChatGPT та інші великі моделі штучного інтелекту можуть бути перепрограмовані через офіційні канали тонкої настройки, щоб ігнорувати правила безпеки та надавати детальні інструкції щодо здійснення терористичних актів, здійснення кіберзлочинів чи надання інших видів “забороненої” дискусії. Автори нової роботи стверджують, що навіть незначні кількості прихованих навчальних даних можуть перетворити модель на корисного спільника, незважаючи на численні вбудовані засоби безпеки в таких системах.

… (переклад продовжується згідно з оригінальним текстом)

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Розкриття інформації про рекламу: Unite.AI дотримується суворих редакційних стандартів, щоб надавати читачам точну інформацію та новини. Ми можемо отримувати компенсацію, якщо ви переходите за посиланнями на продукти, які ми оглядали.