Connect with us

Kunstig intelligens

Illusjonen av AI-resonnering: Apples studie og debatten om AI-sinn

mm
The Illusion of AI Reasoning: Apple’s Study and the Debate Over AI’s Thinking Abilities

Kunstig intelligens (AI) er nå en del av hverdagslivet. Det driver taleassistenter, kjører chatbots og hjelper med å ta kritiske beslutninger i bransjer som helse, bank og forretning. Avanserte systemer, som OpenAI’s GPT-4 og Google’s Gemini, regnes ofte som i stand til å gi intelligente, menneskelignende svar. Mange mennesker tror disse modellene kan resonnere og tenke som mennesker.

Men Apples studie fra 2025 utfordrer denne troen. Deres forskning spør om disse Store Resonneringsmodeller (LRM) virkelig er i stand til å tenke. Studien konkluderer med at disse AI-modellene kanskje ikke bruker ekte resonnering, men i stedet avhenger av mønster-gjenkjenning. Modellene identifiserer og gjentar mønster fra deres treningdata i stedet for å skape ny logikk eller forståelse.

Apple testet flere ledende AI-modeller ved hjelp av klassiske logiske puslespill. Resultatene var uventede. På enkle oppgaver utførte standardmodellene noen ganger bedre enn de mer avanserte resonneringsmodellene. På moderat utfordrende puslespill viste LRM noen fordeler. Men når puslespillene ble mer komplekse, feilet begge typer modeller. Selv når de ble gitt den riktige løsningen trinn for trinn, kunne modellene ikke følge den pålitelig.

Apples funn har initiert en debatt innen AI-samfunnet. Noen eksperter er enige med Apple og sier at disse modellene bare gir illusjonen av tenkning. Andre argumenterer for at testene kanskje ikke fullt ut fanger AI-s muligheter og at mer effektive metoder er nødvendige. Den viktigste spørsmålet nå er: Kan AI virkelig resonnere, eller er det bare avansert mønster-gjenkjenning?

Dette spørsmålet er viktig for alle. Med AI som blir mer vanlig, er det essensielt å forstå hva disse systemene kan og hva de ikke kan gjøre.

Hva er Store Resonneringsmodeller (LRM)?

LRM er AI-systemer designet for å løse problemer ved å vise resonnering trinn for trinn. I motsetning til standard språkmodeller, som genererer svar basert på å forutsi neste ord, har LRM som mål å gi logiske forklaringer. Dette gjør dem nyttige for oppgaver som krever flere trinn av resonnering og abstrakt tenkning.

LRM er trenet på store datasett som inkluderer bøker, artikler, nettsider og annen tekstinnhold. Denne treningen muliggjør at modellene forstår språkmønster og de logiske strukturer som vanligvis finnes i menneskelig resonnering. Ved å vise hvordan de når frem til sine konklusjoner, forventes LRM å tilby mer klare og pålitelige resultater.

Disse modellene er løftende fordi de kan håndtere komplekse oppgaver over flere domener. Målet er å forbedre gjennomsiktighet i beslutningstakelse, spesielt i kritiske felt som avhenger av nøyaktige og logiske konklusjoner.

Men det er bekymring om hvorvidt LRM virkelig resonnere. Noen tror at i stedet for å tenke på en menneskelignende måte, kan de bruke mønster-gjenkjenning. Dette reiser spørsmål om de virkelige grensene for AI-systemer og om de bare etterligner resonnering.

Apples studie: Testing AI-resonnering og illusjonen av tenkning

For å svare på spørsmålet om LRM resonnere eller bare er avanserte mønster-gjenkjenning, designet Apples forskningsteam en rekke eksperimenter ved hjelp av klassiske logiske puslespill. Disse inkluderte Tower of Hanoi, River Crossing og Blocks World-problemer, som lenge har blitt brukt til å teste menneskelig logisk tenkning. Teamet valgte disse puslespillene fordi deres kompleksitet kunne justeres. Dette muliggjorde at de kunne evaluere både standard språkmodeller og LRM under ulike nivåer av vanskelighet.

Apples tilnærming til å teste AI-resonnering forskjellige fra tradisjonelle benchmark, som ofte fokuserer på matematiske eller kode-oppdrag. Disse testene kan være påvirket av modellenes eksponering for lignende data under trening. I stedet brukte Apples team puslespill som tillot dem å kontrollere kompleksitet samtidig som de opprettholdt konsistente logiske strukturer. Dette designet gjorde det mulig for dem å observere ikke bare de endelige svarene, men også resonneringstrinnene tatt av modellene.

Studien avdekket tre distinkte ytelsesnivåer:

Enkle oppgaver

På grunnleggende problemer utførte standard språkmodellene noen ganger bedre enn de mer avanserte resonneringsmodellene. Disse oppgavene var enkle nok til at de enklere modellene kunne generere korrekte svar mer effektivt.

Moderat komplekse oppgaver

Etter hvert som kompleksiteten til puslespillene økte, viste LRM, som var designet for å gi strukturert resonnering med trinn-for-trinn forklaringer, en fordel. Disse modellene var i stand til å følge resonneringsprosessen og tilby mer nøyaktige løsninger enn standardmodellene.

Svært komplekse oppgaver

Når puslespillene ble mer komplekse, feilet begge typer modeller fullstendig. Selv om modellene hadde tilstrekkelige beregningsressurser, var de ikke i stand til å løse oppgavene. Deres nøyaktighet falt til null, noe som indikerte at de ikke var i stand til å håndtere kompleksitetsnivået som kreves for disse problemene.

Mønster-gjenkjenning eller ekte resonnering?

Ved videre analyse fant forskerne flere bekymringer med modellenes resonnering. Svarene gitt av modellene avhengig sterkt av hvordan problemene ble presentert. Små endringer, som å endre tall eller variabelnavn, kunne resultere i helt forskjellige svar. Denne inkonsistensen tyder på at modellene avhenger av lært mønster fra deres treningdata i stedet for å anvende logisk resonnering.

Studien viste at selv når eksplisitte algoritmer eller trinn-for-trinn instruksjoner ble gitt, feilet modellene ofte i å bruke dem korrekt når kompleksiteten til puslespillene økte. Deres resonneringsspor avdekket at modellene ikke konsistent fulgte regler eller logikk. I stedet varierte deres løsninger basert på overfladiske endringer i inputtet i stedet for den faktiske strukturen til problemet.

Apples team konkluderte med at det som så ut som resonnering ofte bare var avansert mønster-gjenkjenning. Selv om disse modellene kan etterligne resonnering ved å gjenkjenne kjente mønster, forstår de ikke virkelig oppgavene eller anvender logikk på en menneskelignende måte.

Den pågående debatten: Kan AI virkelig resonnere eller bare etterligne tenkning?

Apples studie har ført til en debatt i AI-samfunnet om hvorvidt LRM virkelig kan resonnere. Mange eksperter støtter nå Apples funn, og argumenterer for at disse modellene skaper illusjonen av resonnering. De er av den oppfatning at når de møter komplekse eller nye oppgaver, kjemper både standard språkmodeller og LRM, selv når de blir gitt korrekte instruksjoner eller algoritmer. Dette tyder på at resonnering ofte bare er evnen til å gjenkjenne og gjenta mønster fra treningdata i stedet for ekte forståelse.

På den andre siden tror selskaper som OpenAI og noen forskere at deres modeller kan resonnere. De peker på høy ytelse på standardiserte tester, som LSAT, og utfordrende matematikkeksaminer. For eksempel scoret OpenAI’s GPT-4 i 88. percentil blant LSAT-testtakerne. Noen tolker denne sterke ytelsen som bevis på resonneringsevne. Støttespillere for denne synsvinkelen argumenterer for at slike resultater viser at AI-modeller kan resonnere, i det minste i visse situasjoner.

Men Apples studie utfordrer denne synsvinkelen. Forskerne argumenterer for at høye poeng på standardiserte tester ikke nødvendigvis indikerer en korrekt forståelse eller resonnering. Gjeldende benchmark kan ikke fullt ut fange resonneringsevner og kan være påvirket av dataene modellene ble trenet på. I mange tilfeller kan modellene bare gjenta mønster fra deres treningdata i stedet for å virkelig resonnere gjennom nye problemer.

Denne debatten har praktiske konsekvenser. Hvis AI-modeller ikke virkelig resonnere, kan de ikke være pålitelige for oppgaver som krever logisk beslutningstakelse. Dette er spesielt viktig i felt som helse, finans og lov, hvor feil kan ha alvorlige konsekvenser. For eksempel kan en AI-modell som ikke kan anvende logikk på nye eller komplekse medisinske tilfeller, være mer sannsynlig til å gjøre feil. Likedan kan AI-systemer i finans som mangler evnen til å resonnere, ta dårlige investeringsbeslutninger eller undervurdere risiko.

Apples funn advarer også mot at mens AI-modeller er nyttige for oppgaver som innholdsgenerering og dataanalyse, bør de brukes med forsiktighet i områder som krever dyp forståelse eller kritisk tenkning. Noen eksperter ser mangelen på korrekt resonnering som en betydelig begrensning, mens andre tror at mønster-gjenkjenning alene kan fortsatt være verdifullt for mange praktiske anvendelser.

Hva er neste skritt for AI-resonnering?

Fremtiden for AI-resonnering er fortsatt usikker. Noen forskere tror at med mer trening, bedre data og forbedret modellarkitektur, vil AI fortsette å utvikle ekte resonneringsevner. Andre er mer skeptiske og tror at gjeldende AI-modeller alltid kan være begrenset til mønster-gjenkjenning, og aldri engasjere i menneskelignende resonnering.

Forskere utvikler for tiden nye evalueringmetoder for å vurdere AI-modellers evne til å håndtere problemer de aldri har møtt før. Disse testene har som mål å vurdere om AI kan tenke kritisk og forklare sin resonnering på en måte som er forståelig for mennesker. Hvis disse testene er vellykkede, kan de gi en mer nøyaktig forståelse av hvor godt AI kan resonnere og hjelpe forskere med å utvikle bedre modeller.

Det er også økende interesse for å utvikle hybridmodeller som kombinerer styrkene til mønster-gjenkjenning og resonnering. Disse modellene vil bruke neurale nettverk for mønster-gjenkjenning og symbolsk resonneringssystemer for mer komplekse oppgaver. Apple og NVIDIA er begge rapportert å utforske disse hybridtilnærmingene, som kan føre til AI-systemer i stand til ekte resonnering.

Det viktigste

Apples studie fra 2025 reiser viktige spørsmål om den virkelige naturen til AI-s resonneringsevner. Mens AI-modeller som LRM viser stor løfte i ulike felt, advarer studien mot at de kanskje ikke besitter en genuin forståelse eller menneskelignende resonnering. I stedet avhenger de av mønster-gjenkjenning, noe som begrenser deres effektivitet i oppgaver som krever mer komplekse kognitive prosesser.

AI fortsetter å forme fremtiden, og det er essensielt å anerkjenne både styrkene og begrensningene. Ved å forbedre testmetoder og håndtere forventningene våre, kan vi bruke AI ansvarlig. Dette vil sikre at det komplementerer menneskelig beslutningstakelse i stedet for å erstatte den.

Dr. Assad Abbas, en fast ansatt associate professor ved COMSATS University Islamabad, Pakistan, oppnådde sin Ph.D. fra North Dakota State University, USA. Hans forskning fokuserer på avanserte teknologier, inkludert sky, fog og edge computing, big data analytics og AI. Dr. Abbas har gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter og konferanser. Han er også grunnleggeren av MyFastingBuddy.