Зв'язатися з нами

Як думає Клод? Квест Anthropic, щоб розблокувати чорну скриньку ШІ

Штучний Інтелект

Як думає Клод? Квест Anthropic, щоб розблокувати чорну скриньку ШІ

mm

Великі мовні моделі (LLM), такі як Claude, змінили спосіб використання технологій. Вони оснащені такими інструментами, як чат-боти, допомагають писати есе та навіть створювати вірші. Але, незважаючи на свої дивовижні здібності, ці моделі багато в чому залишаються загадкою. Люди часто називають їх «чорним ящиком», оскільки ми бачимо, що вони говорять, але не бачимо, як вони це розуміють. Це нерозуміння створює проблеми, особливо у таких важливих сферах, як медицина чи право, де помилки чи приховані упередження можуть завдати реальної шкоди.

Розуміння того, як працюють LLM, є важливим для побудови довіри. Якщо ми не можемо пояснити, чому модель дала певну відповідь, важко довіряти її результатам, особливо в делікатних областях. Інтерпретованість також допомагає виявляти та виправляти упередження або помилки, гарантуючи безпеку та етичність моделей. Наприклад, якщо модель послідовно сприяє певним точкам зору, знання причин може допомогти розробникам виправити це. Ця потреба в ясності є тим, що спонукає дослідження до більшої прозорості цих моделей.

Anthropic, компанія, що стоїть за цим Клод, працював над відкриттям цієї чорної скриньки. Вони досягли захоплюючого прогресу у з’ясуванні того, як думають магістратури, і ця стаття досліджує їхні досягнення в полегшенні розуміння процесів Клода.

Картографування думок Клода

У середині 2024 року команда Anthropic зробила захоплююче прорив. Вони створили базову «карту» того, як Клод обробляє інформацію. Використовуючи прийом, який називається вивчення словника, вони знайшли мільйони закономірностей у «мозку» Клода — його нейронній мережі. Кожна модель або «особливість» пов’язана з певною ідеєю. Наприклад, деякі функції допомагають Клоду виявляти міста, відомих людей або помилки кодування. Інші пов’язані з складнішими темами, як-от гендерні упередження чи секретність.

Дослідники виявили, що ці ідеї не ізольовані в окремих нейронах. Натомість вони розподілені між багатьма нейронами мережі Клода, причому кожен нейрон сприяє виробленню різних ідей. Це накладення ускладнювало Anthropic з’ясування цих ідей. Але, помітивши ці повторювані моделі, дослідники Anthropic почали розшифровувати, як Клод організовує свої думки.

Відстеження міркувань Клода

Далі Антропік хотів побачити, як Клод використовує ці думки для прийняття рішень. Нещодавно вони створили інструмент під назвою графіки атрибуції, який працює як покроковий посібник із процесу мислення Клода. Кожна точка на графіку — це ідея, яка спалахує в голові Клода, а стрілки показують, як одна ідея перетікає в наступну. Цей графік дозволяє дослідникам відстежувати, як Клод перетворює запитання на відповідь.

Щоб краще зрозуміти роботу графіків атрибуції, розглянемо цей приклад: коли вас запитають: «Яка столиця штату з Далласом?» Клод повинен зрозуміти, що Даллас знаходиться в Техасі, а потім згадати, що столицею Техасу є Остін. Графік атрибуції показав саме цей процес — одна частина Клода позначила «Техас», що призвело до того, що інша частина вибрала «Остін». Команда навіть перевірила його, налаштувавши частину «Техас», і, звичайно, це змінило відповідь. Це показує, що Клод не просто здогадується — він працює над проблемою, і тепер ми можемо спостерігати, як це відбувається.

Чому це важливо: аналогія з біологічних наук

Щоб зрозуміти, чому це важливо, варто подумати про деякі основні досягнення в біологічних науках. Подібно до того, як винахід мікроскопа дозволив вченим виявити клітини – приховані будівельні блоки життя, ці інструменти інтерпретації дозволяють дослідникам штучного інтелекту відкривати будівельні блоки думки в моделях. І подібно до того, як картографування нейронних ланцюгів у мозку чи секвенування геному проклало шлях до прориву в медицині, картографування внутрішньої роботи Клода може прокласти шлях до більш надійного та керованого машинного інтелекту. Ці інструменти інтерпретації можуть зіграти життєво важливу роль, допомагаючи нам зазирнути в процес мислення моделей ШІ.

Виклики

Навіть незважаючи на весь цей прогрес, ми все ще далекі від повного розуміння таких магістрів права, як Клод. Наразі графіки атрибуції можуть пояснити лише кожне четверте рішення Клода. Хоча карта його функцій вражає, вона охоплює лише частину того, що відбувається в мозку Клода. Маючи мільярди параметрів, Клод та інші магістри права виконують незліченну кількість обчислень для кожного завдання. Відстежувати кожну з них, щоб побачити, як формується відповідь, — це все одно, що намагатися прослідкувати за кожним нейроном, що запускається в людському мозку під час однієї думки.

Існує також виклик "галюцинація.” Іноді моделі штучного інтелекту генерують відповіді, які звучать правдоподібно, але насправді є хибними, як-от впевнене ствердження невірного факту. Це відбувається тому, що моделі покладаються на шаблони своїх тренувальних даних, а не на справжнє розуміння світу, що залишається складною проблемою, підкреслюючи прогалини в нашому розумінні їхньої внутрішньої роботи.

Зсув є ще однією значною перешкодою. Моделі штучного інтелекту вчаться з величезних наборів даних, зібраних з Інтернету, які за своєю суттю містять людські упередження — стереотипи, упередження та інші суспільні вади. Якщо Клод вловить ці упередження зі свого навчання, це може відобразити їх у його відповідях. З'ясувати, звідки походять ці упередження та як вони впливають на міркування моделі, є складним завданням, яке вимагає як технічних рішень, так і ретельного розгляду даних і етики.

Bottom Line

Робота Anthropic над створенням великих мовних моделей (LLM), таких як Claude, більш зрозумілими, є значним кроком вперед у прозорості ШІ. Розкриваючи, як Клод обробляє інформацію та приймає рішення, вони спрямовуються до вирішення ключових проблем щодо підзвітності ШІ. Цей прогрес відкриває двері для безпечної інтеграції магістратури в такі важливі сектори, як охорона здоров'я та право, де довіра та етика є життєво важливими.

У міру того як розвиваються методи покращення інтерпретації, галузі, які обережно ставилися до впровадження ШІ, тепер можуть переглянути їх. Такі прозорі моделі, як Claude, пропонують чіткий шлях до майбутнього штучного інтелекту — машин, які не лише копіюють людський інтелект, але й пояснюють їхні міркування.

Доктор Техсін Зія є штатним доцентом Університету COMSATS Ісламабад, має ступінь доктора філософії зі штучного інтелекту у Віденському технологічному університеті, Австрія. Спеціалізуючись на штучному інтелекті, машинному навчанні, науці про дані та комп’ютерному зорі, він зробив значний внесок публікаціями в авторитетних наукових журналах. Доктор Техсін також керував різними промисловими проектами як головний дослідник і працював консультантом зі штучного інтелекту.