Зв'язатися з нами

Ребекка Цянь, співзасновниця та технічна директорка Patronus AI – серія інтерв'ю

інтерв'ю

Ребекка Цянь, співзасновниця та технічна директорка Patronus AI – серія інтерв'ю

mm

Ребекка Цянь є співзасновницею та технічним директором Patronus AI, маючи майже десятирічний досвід створення систем машинного навчання на перетині NLP, втіленого ШІ та інфраструктури. У Facebook AI вона працювала над дослідженнями та розгортанням, навчала FairBERTa, велику мовну модель, розроблену з метою забезпечення справедливості, розробляла модель демографічних збурень для переписування контенту Вікіпедії та керувала семантичним парсингом для роботизованих асистентів. Вона також створила конвеєри "людина в циклі" для втілених агентів та створила інструменти для інфраструктури, такі як Continuous Contrast Set Mining, який був впроваджений в інфраструктурних командах Facebook та представлений на ICSE. Вона зробила свій внесок у проекти з відкритим кодом, включаючи FacebookResearch/fairo та блокноти семантичного парсингу Droidlet. Як засновниця, вона зараз зосереджується на масштабованому контролі, навчанні з підкріпленням та розгортанні безпечних агентів ШІ, що враховують особливості середовища.

Патронус А.І – це компанія з Сан-Франциско, яка надає дослідницьку платформу для оцінки, моніторингу та оптимізації моделей великих мов програмування (LLM) та агентів штучного інтелекту, щоб допомогти розробникам впевнено випускати надійні генеративні продукти штучного інтелекту. Платформа пропонує автоматизовані інструменти оцінки, бенчмаркінг, аналітику, користувацькі набори даних та середовища, що специфічні для агентів, що виявляють проблеми продуктивності, такі як галюцинації, ризики безпеки або логічні збої, дозволяючи командам постійно вдосконалювати та усувати несправності систем штучного інтелекту в реальних випадках використання. Patronus обслуговує корпоративних клієнтів та технологічних партнерів, надаючи їм можливість оцінювати поведінку моделей, виявляти помилки у великих масштабах та підвищувати надійність та продуктивність у виробничих додатках штучного інтелекту.

Ви маєте глибокий досвід у розробці систем машинного навчання (ML) у Facebook AI, зокрема роботу над FairBERTa та конвеєрами взаємодії людини. Як цей досвід вплинув на ваше бачення впровадження та безпеки штучного інтелекту в реальному світі?

Робота в Meta AI змусила мене зосередитися на тому, що потрібно для того, щоб моделі були надійними на практиці, особливо в рамках відповідального NLP. Я працював над моделюванням мови, орієнтованим на справедливість, наприклад, над навчанням LLM з метою справедливості, і на власні очі бачив, як важко оцінювати та інтерпретувати результати моделі. Це сформувало моє ставлення до безпеки. Якщо ви не можете виміряти та зрозуміти поведінку моделі, важко впевнено впроваджувати ШІ в реальному світі.

Що спонукало вас перейти від дослідницької інженерії до підприємництва, стати співзасновником Patronus AI, і яку проблему вважали найнагальнішою для вирішення на той час?

У той час оцінювання стало перешкодою для розвитку штучного інтелекту. У квітні я залишив Meta AI, щоб розпочати Patronus з Анандом, бо на власні очі бачив, як важко оцінювати та інтерпретувати результати роботи ШІ. А щойно генеративний ШІ почав впроваджуватися в корпоративні робочі процеси, стало очевидно, що це вже не просто лабораторна проблема. 

Ми постійно чули одне й те саме від підприємств. Вони хотіли впровадити LLM, але не могли надійно їх протестувати, контролювати або зрозуміти види збоїв, такі як галюцинації, особливо в регульованих галузях, де толерантність до помилок дуже низька. 

Тож нагальною проблемою на початку було створення способу автоматизації та масштабування оцінки моделей — оцінювання моделей у реальних сценаріях, створення змагальних тестових випадків та бенчмаркінг — щоб команди могли розгортатися з упевненістю, а не здогадками.

Нещодавно Patronus представив генеративні симулятори як адаптивне середовище для агентів ШІ. Які обмеження в існуючих підходах до оцінювання або навчання привели вас до цього напрямку?

Ми постійно спостерігали зростаючу невідповідність між тим, як оцінюються агенти ШІ, і тим, як від них очікується робота в реальному світі. Традиційні бенчмарки вимірюють ізольовані можливості у фіксований момент часу, але реальна робота є динамічною. Завдання перериваються, вимоги змінюються під час виконання, а рішення ускладнюються на довгі горизонти. Агенти можуть виглядати сильно в статичних тестах і все одно зазнавати серйозних невдач після розгортання. У міру вдосконалення агентів вони також перенасичують фіксовані бенчмарки, що призводить до стагнування навчання. Генеративні симулятори з'явилися як спосіб заміни статичних тестів живими середовищами, які адаптуються в міру навчання агента.

Як ви бачите, як генеративні симулятори змінюють спосіб навчання та оцінки агентів ШІ порівняно зі статичними бенчмарками або фіксованими наборами даних?

Зміна полягає в тому, що бенчмарки перестають бути тестами та починають перетворюватися на середовища. Замість того, щоб представляти фіксований набір питань, симулятор генерує завдання, навколишні умови та логіку оцінювання на льоту. У міру того, як агент поводиться та вдосконалюється, середовище адаптується. Це руйнує традиційну межу між навчанням та оцінюванням. Ви більше не запитуєте, чи відповідає агент бенчмарку, а чи може він надійно працювати з часом у динамічній системі.

З технічної точки зору, які основні архітектурні ідеї лежать в основі генеративних симуляторів, зокрема щодо генерації завдань, динаміки середовища та структур винагород?

На високому рівні, генеративні симулятори поєднують навчання з підкріпленням з адаптивною генерацією середовища. Симулятор може створювати нові завдання, динамічно оновлювати правила світу та оцінювати дії агента в режимі реального часу. Ключовим компонентом є те, що ми називаємо коригувальником навчальної програми, який аналізує поведінку агента та змінює складність і структуру сценаріїв, щоб навчання залишалося продуктивним. Структури винагород розроблені таким чином, щоб їх можна було перевірити та вони були специфічними для предметної області, тому агенти спрямовуються до правильної поведінки, а не до поверхневих скорочень.

Оскільки сфера оцінки ШІ та інструментарію для агентів стає дедалі більш переповненою, що найчіткіше відрізняє підхід Patronus?

Наша увага зосереджена на екологічній валідності. Ми проектуємо середовища, що відображають реальні людські робочі процеси, включаючи переривання, перемикання контексту, використання інструментів та багатоетапне мислення. Замість того, щоб оптимізувати агентів для гарного вигляду в попередньо визначених тестах, ми зосереджуємося на виявленні видів збоїв, які мають значення у виробництві. Симулятор оцінює поведінку з часом, а не лише окремі результати.

Які типи завдань або режимів відмови найбільше виграють від оцінювання на основі симулятора порівняно зі звичайним тестуванням?

Найбільшу користь отримують довгострокові, багатоетапні завдання. Навіть невеликі показники помилок на крок можуть призвести до значних показників збоїв у складних завданнях, які статичні бенчмарки не враховують. Оцінювання на основі симулятора дозволяє виявляти збої, пов'язані з дотриманням графіка протягом тривалого часу, обробкою перерв, координацією використання інструментів та адаптацією до зміни умов під час виконання завдання.

Як навчання на основі навколишнього середовища змінює ваше уявлення про безпеку штучного інтелекту, і чи генеративні симулятори вносять нові ризики, такі як винагородний хакерський атак або режими емерджентних відмов?

Навчання на основі середовища насправді спрощує виявлення багатьох проблем безпеки. Злом винагород, як правило, процвітає в статичних середовищах, де агенти можуть використовувати фіксовані лазівки. У генеративних симуляторах саме середовище є рухомою мішенню, що ускладнює підтримку цих скорочень. Проте, все ще потрібне ретельне проектування з урахуванням винагород та нагляду. Перевага середовищ полягає в тому, що вони дають вам набагато більше контролю та видимості поведінки агентів, ніж будь-коли могли б статичні бенчмарки.

Дивлячись на п'ять років уперед, де ви бачите Patronus AI з точки зору як технічних амбіцій, так і впливу на галузь?

Ми вважаємо, що середовища стають фундаментальною інфраструктурою для ШІ. У міру того, як агенти переходять від відповідей на запитання до виконання реальної роботи, середовища, в яких вони навчаються, визначатимуть, наскільки вони стануть компетентними та надійними. Наша довгострокова амбіція — перетворити реальні робочі процеси на структуровані середовища, в яких агенти зможуть постійно навчатися. Традиційний поділ між оцінюванням та навчанням руйнується, і ми вважаємо, що цей зсув визначить наступну хвилю систем ШІ.

Дякую за чудове інтерв’ю, читачі, які хочуть дізнатися більше, повинні відвідати Патронус А.І.

Антуан — далекоглядний лідер і партнер-засновник Unite.AI, керований непохитною пристрастю до формування та просування майбутнього ШІ та робототехніки. Будучи серійним підприємцем, він вірить, що штучний інтелект буде таким же руйнівним для суспільства, як електрика, і його часто ловлять на захопленні потенціалом революційних технологій і AGI.

Як футурист, він присвячений дослідженню того, як ці інновації впливатимуть на наш світ. Крім того, він є засновником Securities.io, платформа, орієнтована на інвестиції в передові технології, які переосмислюють майбутнє та змінюють цілі сектори.