Sztuczna inteligencja

Badania ujawniają, że LLM domyślnie stosują proste rozumowanie, gdy zwiększa się złożoność

Published November 25, 2025

Updated April 1, 2026

Alex McFarland

Zespół badaczy opublikował kompleksowe badanie 20 listopada, analizując ponad 192 000 śladów rozumowania z dużych modeli językowych (LLM), ujawniając, że systemy AI opierają się na płytkich, liniowych strategiach, a nie na hierarchicznych procesach poznawczych, które ludzie naturalnie zastosowują.

Zespół badawczy zbadał 18 różnych modeli w zadaniach rozumnienia tekstu, widzenia i słuchu, porównując ich podejścia z 54 śladami myślenia ludzi zebranymi specjalnie dla tego badania. Analiza ustanowiła taksonomię 28 elementów poznawczych, które obejmują ograniczenia obliczeniowe, kontrolę metapoznawczą, reprezentacje wiedzy i operacje transformacji – zapewniając ramy do oceny nie tylko tego, czy modele produkują poprawne odpowiedzi, ale także w jaki sposób dochodzą do tych wniosków.

Podstawowe różnice w architekturze poznawczej

Rozumowanie ludzkie konsekwentnie wykazuje hierarchiczne zagnieżdżanie i monitorowanie metapoznawcze – zdolność do refleksji i regulacji własnych procesów myślowych. Ludzie płynnie organizują informacje w zagnieżdżone struktury, aktywnie śledząc swój postęp w złożonych problemach.

LLM przede wszystkim stosują płytkie łańcuchy do przodu, przechodząc krok po kroku przez problemy bez hierarchicznej organizacji lub samooceny, która charakteryzuje ludzkie poznanie. Ten dywergencja staje się najbardziej wyraźna, gdy zadania są źle ustrukturyzowane lub niejasne, gdzie ludzka adaptacyjność znacznie przewyższa podejścia AI.

Badanie wykazało, że modele językowe posiadają składniki behawioralne związane z udanym rozumowaniem, ale często nie wdrożenie ich spontanicznie. Wyniki Dramatycznie różnią się w zależności od typu problemu: rozumnienie dylematów wykazało największą zmienność, a mniejsze modele miały znaczne trudności, podczas gdy rozumnienie logiczne wykazało umiarkowaną wydajność, a większe modele geralnie przewyższały mniejsze. Modele wykazują sprzeczne słabości, odnosząc sukcesy w złożonych zadaniach, a nie w prostszych wariantach.

Poprawa wyników dzięki ukierunkowanemu rozumowaniu

Zespół badawczy opracował ukierunkowane ukierunkowanie podczas testowania, które automatycznie tworzy udane struktury poznawcze, wykazując poprawę wyników do 66,7% w złożonych problemach, gdy modele są nakierowane na przyjęcie bardziej ludzkich podejść do rozumowania. To odkrycie sugeruje, że LLM posiadają ukryte możliwości bardziej zaawansowanego rozumowania, ale potrzebują jawnych wskazówek, aby je skutecznie wykorzystać.

Przerwa między ludzkim a AI rozumowaniem rośnie, gdy zwiększa się złożoność zadania. Podczas gdy modele mogą radzić sobie z prostymi problemami za pomocą łańcuchów do przodu, mają trudności z rodzajem rekursywnych, samooceniających strategii, które ludzie wdrożenie naturalnie, gdy stają w obliczu niejasnych lub wielowarstwowych wyzwań.

Publicznie dostępny zestaw danych zapewnia podstawę do przyszłych badań porównujących sztuczną i ludzką inteligencję. Poprzez mapowanie 28 odrębnych elementów poznawczych, ramy umożliwiają badaczom wskazanie dokładnie, gdzie rozumowanie AI ulega awarii, a nie tylko mierzenie wyników.

Wnioski dla rozwoju AI

Wyniki podkreślają podstawową ograniczenie w obecnych systemach AI: przerwę między zdolnością obliczeniową a prawdziwą złożonością poznawczą. Modele wyszkolone na ogromnych zbiorach danych mogą dopasowywać się do poprawnych odpowiedzi na wiele zadań, ale brakuje im refleksyjnego, hierarchicznego myślenia, które charakteryzuje ludzkie rozwiązywanie problemów.

To badanie opiera się na rosnących obawach dotyczących ograniczeń AI w rozumowaniu zidentyfikowanych w wielu dziedzinach. Poprawa wyników z ukierunkowanym rozumowaniem sugeruje, że lepsze strategie nakierowania i modyfikacje architektury mogą pomóc modelom w lepszym dostępie do ich ukrytych możliwości rozumowania.

Największym wkładem tego badania może być szczegółowa taksonomia elementów poznawczych, zapewniająca badaczom i deweloperom konkretnych celów do poprawy. Zamiast traktować rozumowanie jako monolityczną zdolność, ramy dzielą ją na mierzone składniki, które mogą być indywidualnie adresowane za pomocą modyfikacji szkolenia lub technik inżynierii nakierowania.