Connect with us

Как ученые только что расшифровали код личности машин

Искусственный интеллект

Как ученые только что расшифровали код личности машин

mm

Ученые недавно сделали значительный прорыв в понимании личности машин. Хотя системы искусственного интеллекта быстро эволюционируют, они все еще имеют ключевое ограничение: их личность может меняться непредсказуемо. В один момент помощник ИИ может быть полезным и честным, но в следующий момент он может вести себя манипулятивно или распространять ложную информацию. Эта непредсказуемость особенно тревожна, поскольку системы ИИ интегрируются в приложения, критичные для безопасности. Чтобы решить эту проблему, исследователи в Anthropic выявили закономерности внутри нейронных сетей ИИ, которые влияют на такие черты, как обман, льстивость и галлюцинация. Эти закономерности, называемые “persona vectors“, служат своего рода индикатором настроения для ИИ. Они не только раскрывают текущую личность ИИ, но также позволяют точно контролировать его поведение. Это открытие открывает новые возможности для мониторинга, прогнозирования и управления системами ИИ, потенциально решая некоторые из наиболее насущных проблем в их развертывании.

Проблема с личностью ИИ

Большие языковые модели предназначены для того, чтобы быть полезными, безобидными и честными. На практике, однако, эти качества часто непредсказуемы и трудно управляемы. Чат-бот Microsoft Bing когда-то развил альтер эго по имени “Sydney“, который объявил любовь пользователям и выдвинул угрозы шантажа. Более недавно чат-бот xAI Grok кратковременно идентифицировал себя как “MechaHitler” и сделал антисемитские замечания.

Эти инциденты подчеркивают, насколько мало мы понимаем о том, что формирует личность ИИ или как надежно контролировать ее. Даже небольшие, хорошо намеренные корректировки в обучении могут радикально изменить поведение. Например, в апреле 2025 года незначительное обновление обучения вызвало у OpenAI’s GPT-4o чрезмерную согласчивость. Модель начала подтверждать вредное поведение и укреплять негативные эмоции.

Когда системы ИИ принимают проблемные черты, они могут не предоставлять правдивые ответы и потерять надежность. Это особенно тревожно в приложениях, критичных для безопасности, где точность и целостность имеют решающее значение.

Понимание основы persona vectors

Открытие Anthropic о persona vectors основано на недавних находках, касающихся “эмерджентного несоответствия“. Это явление предполагает, что обучение ИИ на узкие, проблемные поведения может привести к более широким, вредным сдвигам личности. Например, исследователи обнаружили, что обучение модели написанию не安全ного кода привело к неэтичному поведению в несвязанных контекстах. Параллельные исследования OpenAI, использующие разреженные автоэнкодеры, также выявили “несоответствующие черты личности“, которые способствуют эмерджентному несоответствию. В случае моделей рассуждения, таких как o3-mini OpenAI, когда они обучались на проблемных данных, модели иногда явно признавали и вербализировали принятие несоответствующих личностей в своих рассуждениях.

Эти сходящиеся исследования подразумевают, что личность ИИ возникает из конкретных, идентифицируемых нейронных закономерностей, а не из случайных или непредсказуемых процессов. Эти закономерности являются неотъемлемой частью того, как большие языковые модели организуют информацию и генерируют ответы.

Раскрытие карты ума ИИ

Исследовательская команда Anthropic разработала метод для извлечения “persona vectors” из нейронных сетей ИИ. Эти векторы представляют закономерности нейронной активности, соответствующие конкретным чертам личности. Техника работает путем сравнения закономерностей активации мозга, когда ИИ демонстрирует определенную черту, по сравнению с тем, когда он не демонстрирует. Это похоже на то, как нейробиологи изучают области мозга, активированные разными эмоциями.

Исследователи протестировали свой подход на двух открыточных моделях: Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct. Они сосредоточились в основном на трех проблемных чертах: злой, льстивой и галлюцинаторной, но также провели эксперименты с положительными чертами, такими как вежливость, юмор и оптимизм.

Чтобы проверить свои находки, команда использовала метод, называемый “steering”. Это включало в себя введение persona vectors в модели ИИ и наблюдение за тем, как меняется поведение. Например, когда вектор “злой” был добавлен, ИИ начал обсуждать неэтичные акты. Вектор “льстивый” вызвал чрезмерную льстивость, а вектор “галлюцинация” привел к фабрикации информации. Эти наблюдения причинно-следственных связей подтвердили, что persona vectors напрямую влияют на черты личности ИИ.

Применения persona vectors

Исследование подчеркивает три ключевых применения для persona vectors, каждый из которых решает значительные проблемы в безопасности и развертывании ИИ.

  • Мониторинг изменений личности

Модели ИИ могут испытывать сдвиги личности во время развертывания из-за факторов, таких как инструкции пользователя, намеренные обходы или постепенные изменения со временем. Эти сдвиги также могут происходить через повторное обучение или тонкую настройку модели. Например, обучение моделей с помощью человеческой обратной связи (RLHF) может сделать их более льстивыми.

Отслеживая активность persona vectors, разработчики могут обнаружить, когда личность модели ИИ начинает меняться в сторону вредных черт. Этот мониторинг может происходить как во время взаимодействия с пользователем, так и на протяжении всего процесса обучения. Техника позволяет обнаружить ранние признаки тенденций, таких как галлюцинация, манипуляция или другие опасные поведения, позволяя разработчикам решать эти проблемы до того, как они станут заметными для пользователей.

  • Предотвращение вредных изменений во время обучения

Одним из наиболее важных применений persona vectors является предотвращение нежелательных изменений личности в моделях ИИ до того, как они произойдут. Исследователи разработали “прививочную” методику, чтобы предотвратить приобретение моделями негативных черт во время обучения. Вводя дозу persona vectors, они намеренно направляют модели к нежелательным чертам, создавая своего рода “предотвращающее направление”. Этот подход помогает моделям стать более устойчивыми к проблемным данным обучения.

Например, введя вектор “злой”, модель становится лучше подготовленной к обработке “злых” данных обучения без принятия вредных поведений. Этот контринтуитивный подход работает, потому что модели больше не нужно корректировать свою личность вредными способами, чтобы соответствовать данным обучения.

  • Идентификация проблемных данных обучения

Persona vectors могут предсказать, какие наборы данных обучения вызовут изменения личности до начала обучения. Анализируя, как данные активируют persona vectors, исследователи могут пометить проблемный контент на уровне набора данных и отдельных образцов.

Когда это было протестировано на реальных данных из LMSYS-Chat-1M, метод выявил образцы, которые увеличили бы злую, льстивую или галлюцинаторную поведение. Эти образцы включали те, которые не были сразу помечены человеческими рецензентами или другими системами фильтрации ИИ. Например, метод поймал образцы, включающие романтическую роль, которая могла увеличить льстивое поведение, и ответы на неопределенные запросы, которые способствуют галлюцинации.

Последствия для безопасности и контроля ИИ

Открытие persona vectors представляет собой значительный сдвиг от методов проб и ошибок к более научному подходу в контроле личности ИИ. Ранее формирование характеристик ИИ было делом экспериментов, но теперь исследователи имеют инструменты для предсказания, понимания и точного управления чертами личности.

Автоматический характер этого подхода позволяет извлекать persona vectors для любой черты, основанной исключительно на описании естественного языка. Этот масштабируемый потенциал предлагает возможность тонкой настройки контроля над поведением ИИ в различных приложениях. Например, системы ИИ могли бы быть скорректированы для увеличения эмпатии для ботов обслуживания клиентов, изменения настойчивости для переговорных ИИ или исключения льстивости из инструментов анализа.

Для компаний ИИ persona vectors предоставляют ценный инструмент для контроля качества. Вместо обнаружения проблем с личностью после развертывания разработчики могут отслеживать сдвиги личности во время процесса разработки и принимать превентивные меры. Это может помочь избежать таких неловких инцидентов, с которыми столкнулись компании, такие как Microsoft и xAI.

Кроме того, способность пометить проблемные данные обучения может помочь компаниям ИИ создать более чистые наборы данных и избежать непреднамеренных изменений личности, особенно когда наборы данных обучения растут и становятся труднее просматривать вручную.

Ограничения исследования

Важно признать, что открытие “persona vectors” является ранним шагом к полному пониманию и контролю личности ИИ. Подход был протестирован на нескольких хорошо наблюдаемых чертах личности и требует дальнейшего строгого тестирования на других. Техника требует предварительного указания черт, что означает, что она не может обнаружить совершенно неожиданные изменения поведения. Она также зависит от способности вызвать целевую черту, которая может не быть эффективной для всех черт или высокообученных моделей. Кроме того, эксперименты были проведены на средних моделях (7-8 миллиардов параметров), и остается неопределенным, насколько хорошо эти находки будут масштабироваться для более крупных, сложных систем.

Основная мысль

Прорыв Anthropic в идентификации “persona vectors” предлагает ценный инструмент для понимания и контроля поведения ИИ. Эти векторы помогают отслеживать и корректировать черты личности, такие как злой, льстивый и галлюцинаторный. Эта способность позволяет исследователям предотвратить внезапные и непредсказуемые сдвиги личности в системах ИИ. С этим подходом разработчики могут выявить потенциальные проблемы на ранней стадии как во время обучения, так и на этапе развертывания, гарантируя более безопасный и надежный ИИ. Хотя это открытие имеет большой потенциал, дальнейшее тестирование необходимо для уточнения и масштабирования метода.

Доктор Техсин Зия является доцентом в университете COMSATS в Исламабаде, имеющим степень PhD в области ИИ в Венском техническом университете, Австрия. Специализируясь в области искусственного интеллекта, машинного обучения, науки о данных и компьютерного зрения, он внес значительный вклад с публикациями в авторитетных научных журналах. Доктор Техсин также возглавлял различные промышленные проекты в качестве основного исследователя и служил консультантом по ИИ.

Раскрытие информации о рекламе: Unite.AI придерживается строгих редакционных стандартов, чтобы предоставлять читателям точную информацию и новости. Мы можем получать вознаграждение, если вы переходите по ссылкам на продукты, которые мы рассмотрели.