Connect with us

Исследования показывают, что модели LLM по умолчанию используют простое рассуждение при увеличении сложности

Искусственный интеллект

Исследования показывают, что модели LLM по умолчанию используют простое рассуждение при увеличении сложности

mm

Команда исследователей опубликовала всестороннее исследование 20 ноября, анализирующее более 192 000 следов рассуждений из больших языковых моделей (LLM), показывая, что системы ИИ полагаются на поверхностные, линейные стратегии, а не на иерархические когнитивные процессы, которые люди естественным образом используют.

Исследовательская команда изучила 18 разных моделей по задачам рассуждения текста, зрения и аудио, сравнивая их подходы с 54 человеческими следами мышления, собранными специально для этого исследования. Анализ установил таксономию из 28 когнитивных элементов, которые охватывают вычислительные ограничения, метакогнитивные контроли, представления знаний и операции преобразования — предоставляя основу для оценки не только того, дают ли модели правильные ответы, но и того, как они приходят к этим выводам.

Фундаментальные различия в когнитивной архитектуре

Человеческое рассуждение последовательно демонстрирует иерархическое вложение и метакогнитивный контроль — способность отражать и регулировать свои собственные мыслительные процессы. Люди легко организуют информацию в вложенные структуры, активно отслеживая свой прогресс через сложные проблемы.

Модели LLM в основном используют поверхностную прямую цепочку, перемещаясь шаг за шагом через проблемы без иерархической организации или самоанализа, характеризующего человеческое познание. Это расхождение становится наиболее выраженным, когда задачи плохо структурированы или двусмысленны, где человеческая адаптивность значительно превосходит подходы ИИ.

Исследование показало, что языковые модели обладают поведенческими компонентами, связанными с успешным рассуждением, но часто не используют их спонтанно. Производительность варьируется драматически в зависимости от типа проблемы: рассуждение в дилеммах показало наибольшую вариацию, при этом более мелкие модели испытывали значительные трудности, а логическое рассуждение показало умеренную производительность, при которой более крупные модели в целом превосходили более мелкие. Модели демонстрируют контринтуитивные слабости, успешно справляясь с сложными задачами, но терпя неудачу на более простых вариантах.

Улучшение производительности за счет руководимого рассуждения

Исследовательская команда разработала руководство по рассуждению в время тестирования, которое автоматически обеспечивает успешные когнитивные структуры, демонстрируя улучшение производительности до 66,7% на сложных проблемах, когда модели побуждаются использовать более человеческие подходы к рассуждению. Это открытие предполагает, что модели LLM обладают潜ными возможностями для более сложного рассуждения, но нуждаются в явном руководстве, чтобы использовать их эффективно.

Пропасть между человеческим и искусственным рассуждением расширяется с увеличением сложности задач. Хотя модели могут справиться с прямыми проблемами только за счет прямой цепочки, они испытывают трудности с рекурсивными, самоанализирующими стратегиями, которые люди естественным образом используют при столкновении с неоднозначными или многослойными задачами.

Публично доступный набор данных исследования предоставляет базовую линию для будущих исследований, сравнивающих искусственный и человеческий интеллект. Отображая 28 различных когнитивных элементов, основа позволяет исследователям точно определить, где разумение ИИ разрушается, а не просто измерять показатели точности.

Последствия для разработки ИИ

Результаты подчеркивают фундаментальное ограничение в текущих системах ИИ: пропасть между вычислительной возможностью и настоящей когнитивной сложностью. Модели, обученные на огромных наборах данных, могут найти правильные ответы на многие задачи, но не обладают рефлексивным, иерархическим мышлением, характеризующим человеческое решение проблем.

Это исследование основывается на растущих опасениях по поводу ограничений рассуждения ИИ, выявленных в нескольких областях. Улучшение производительности за счет руководимого рассуждения предполагает, что лучшие стратегии подсказок и модификации архитектуры могут помочь моделям более эффективно использовать их потенциальные возможности рассуждения.

Самый значительный вклад исследования может заключаться в его подробной таксономии когнитивных элементов, предоставляющей исследователям и разработчикам конкретные цели для улучшения. Вместо того, чтобы рассматривать рассуждение как монолитную способность, основа разбивает его на измеримые компоненты, которые можно отдельно устранить с помощью модификаций обучения или техник инженерии подсказок.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.