Лидеры мнений
Когда ИИ думает как люди: Изучение разума LLM и агентов

Сегодня LLM и агенты учатся, анализируют и принимают решения способами, которые могут стереть границу между их алгоритмическим “мышлением” и человеческим умом. Подходы, на которых они основаны, уже имитируют наши когнитивные процессы, и масштаб их обучения превосходит человеческий опыт на несколько порядков. Это вызывает вопрос: создаем ли мы инструмент, который расширяет наши возможности, или мы даем начало новому типу ума, последствия которого еще невозможно предсказать?
Как думают модели
Важно различать понятия LLM и агентов. Чтобы провести аналогию с компьютером, LLM можно сравнить с одним из его компонентов, например, процессором. Агент, однако, является整个 системой, “материнской платой”, к которой подключены различные модули: память, видеокарта и сеть. Аналогично, агент является сложной системой, которая может включать один или несколько LLM, дополненных механизмами принятия решений и инструментами для взаимодействия с внешней средой.
Если мы рассмотрим работу одного LLM, все сводится к сопоставлению шаблонов. Однако, когда агент соединяет несколько LLM, мы можем сказать, что он “думает”, хотя этот процесс все еще основан на шаблонах. Агент строит логику взаимодействия между моделями: например, один LLM анализирует задачу, и на основе этого анализа агент определяет, какое действие должен выполнить другой LLM.
Человеческое мышление работает подобным образом: мы полагаемся на накопленные знания и шаблоны, выбираем их в нужный момент, обрабатываем и формулируем выводы. Этот процесс называется рассуждением.
ChatGPT, как и человек, имеет два типа памяти: кратковременную и долговременную. Разница в том, что у людей доступ к этим уровням памяти более сложен и не всегда линеен.
Кратковременная память – это информация, с которой мы работаем прямо сейчас. Для человека это может быть то, что вы сказали пять минут назад: он может вспомнить это или нет. GPT, однако, всегда учитывает все, что находится в его “окне контекста” – он не может пропустить или проигнорировать эти данные.
Долговременная память у людей состоит из воспоминаний, которые не всегда активны и могут появиться только с конкретными триггерами: детское воспоминание, травма или, например, работа с психологом. GPT имеет подобную логику: он не “вспоминает” информацию самостоятельно, если она не специально активирована. Например, инструкция типа “Никогда не спрашивайте меня этот вопрос снова” или “Всегда обращайтесь ко мне официально” может быть сохранена в долговременной памяти и применена во время каждой сессии.
Другим примером долговременной памяти являются сохраненные документы. Предположим, вы загрузили в GPT инструкцию по проведению маркетинговых исследований. Модель может сохранить ее в памяти, но это не означает, что она будет ссылаться на этот документ при каждом вопросе. Если вы спросите: “Можете ли вы осветить фонариком Луну?” GPT проигнорирует инструкцию. Но если запрос содержит ключевые слова, совпадающие с текстом документа, модель может “вспомнить” его.
Этот механизм реализуется через RAG (Retrieval-Augmented Generation), подход, при котором модель получает доступ к сохраненной информации, запущенной соответствующими сигналами через векторные базы данных.
Таким образом, можно сказать, что модель действительно имеет память, но она функционирует в соответствии с другой, более формализованной логикой, отличной от человеческой памяти.
Почему разговор с ИИ иногда кажется терапевтическим, а в другие разы холодным и роботизированным?
Современные языковые модели чрезвычайно велики: они хранят огромное количество данных, знаний и контекста. Все эта информация организована в так называемые “кластеры”, тематические и семантические области. Модель была обучена на различных источниках, от художественной литературы и научных статей до комментариев на YouTube.
Когда вы взаимодействуете с ИИ, ваш запрос (промпт) эффективно направляет модель к определенному кластеру.
Например, если вы напишете: “Вы – юрист по недвижимости в Нью-Йорке с 20-летним опытом, помогите мне купить квартиру”, модель активирует несколько кластеров одновременно: юрист → Нью-Йорк → недвижимость. В результате вы получаете связный, релевантный и реалистичный ответ, как будто вы действительно консультируетесь с опытным профессионалом.
Если запрос касается более личных или философских тем, таких как саморазвитие или эмоции, модель “переключается” на другие кластеры, такие как психология, философия или внутренняя работа. В этом случае ее ответы могут показаться удивительно человеческими и даже терапевтическими.
Однако с чрезмерно общими или расплывчатыми формулировками модель “заблудится” в своей кластерной структуре и даст стандартный ответ, формальный, отстраненный и лишенный эмоциональной тональности.
Стиль и глубина ответа ИИ зависят от того, какой кластер вы направляете его с помощью своего промпта.
Философия обучения модели и RLHF
Искусственный интеллект имеет различные подходы к обучению. Это не столько философия, сколько стратегия.
Классический вариант – обучение с учителем, когда модели задается вопрос и правильный ответ. Она учится, наблюдая, что считается правильным, и затем воспроизводит подобные решения в будущем.
Но другой подход – RLHF (Reinforcement Learning from Human Feedback). Это другой стиль: модель пробует что-то, получает “награду” за успешные действия и корректирует свое поведение. Постепенно она развивает эффективную стратегию.
RLHF можно сравнить с процессом превращения сырого материала в готовый продукт. Чтобы создать модель, удобную для использования, требуется огромная работа с человеческим обратной связью.
Представьте, что я показываю вам объект без прямого его названия. Вы колеблетесь: “Это ли цигаретная коробка? Карточный держатель?” Я даю только намеки типа: “Ближе”, “Дальше”, “60% да”. После сотен таких итераций вы угадываете: “Ах, это кошелек”.
LLM обучаются таким же образом. Люди, аннотаторы и профессионалы в целом оценивают: этот ответ хороший, этот плохой, и присваивают баллы. Компании, такие как Keymakr, которые специализируются на высококачественной аннотации и проверке данных, играют ключевую роль в этом процессе. Обратная связь также поступает от обычных пользователей: лайки, жалобы и реакции. Модель интерпретирует эти сигналы, формируя поведенческие закономерности.
Как выглядит обучение модели на практике
Ярким примером является эксперимент OpenAI по обучению агентов с помощью усиления обучения в игре “Прятки”.
В нем участвовали две команды: “искатели” (красные) и “прятавшиеся” (синие). Правила были простыми: если искатель поймает прятавшегося, он зарабатывает очко; если нет, он теряет одно. Первоначально агенты имели только базовые физические способности, бег и прыжки, без каких-либо предустановленных стратегий.
Сначала искатели действовали хаотично, и поимка противников происходила случайно. Но после миллионов итераций их поведение эволюционировало. Прятавшиеся начали использовать окружающие объекты, чтобы заблокировать двери и построить барьеры. Эти навыки появились без прямого программирования, исключительно через повторные попытки и награды за успех.
В ответ искатели начали использовать прыжки, возможность, доступную с самого начала, но ранее игнорируемую. После серии неудач случайное использование прыжков показало свою тактическую ценность. Затем прятавшиеся усложнили свою защиту, удалив объекты из поля зрения искателей и построив более надежные укрытия.
Эксперимент показал, что через миллиарды циклов проб, ошибок, наград и штрафов может сформироваться сложное кооперативное поведение без вмешательства разработчиков. Более того, агенты начали действовать в координации, даже хотя механизмы коммуникации не были запрограммированы, просто потому, что командная работа оказалась более эффективной.
То же самое относится и к большим языковым моделям. Невозможно запрограммировать все сценарии: существует слишком много ситуаций и слишком большая вариативность в мире. Поэтому мы не учим модель фиксированным правилам; мы учим ее, как учиться.
Это и есть ценность RLHF. Без нее LLM и агенты остаются просто библиотекой текстов. С ней они становятся разговорным партнером, способным адаптироваться, исправлять себя и, по сути, эволюционировать.
Что дальше?
Многие задаются вопросом, могут ли разработки LLM и агентов привести к нежелательным или даже опасным последствиям.
Важно понять, что то, что мы видим сегодня, – это не даже MVP, а всего лишь прототип.
Настоящая революция не будет заключаться в том, чтобы помочь написать красивое письмо или перевести его на французский язык. Это незначительные вещи. Основное направление – автоматизация микрозадач и рутинных процессов, оставляющая людям только真正 творческие, интеллектуальные задачи или время для отдыха.
Настоящие инновации сосредоточены вокруг агентов, систем, которые могут самостоятельно мыслить, действовать и принимать решения вместо человека. Именно на этом направлении сегодня фокусируются компании, такие как OpenAI, Google, Meta и другие.
Большие языковые модели – это только основа. Будущее лежит в агентах, обученных жить в динамическом мире, получать обратную связь и адаптироваться к изменениям.












