Connect with us

Kunstig intelligens

Ujevn Intelligens: Hvorfor AIs Mestrer Olympiadeproblemer, men Struggler med Skolemåtematikk

mm

Det kunstige intelligenssamfunnet feiret en bemerkelsesverdig milepæl i 2025 da både Google DeepMind og OpenAI systems oppnådde gullmedaljeDen internasjonale matematikkolympiaden. Disse AI-modellene løste problemer som bare en håndfull av verdens brightest unge matematikere kunne løse. Likevel, disse samme systemene strever ofte når de blir bedt om å utføre grunnleggende aritmetikk som enhver middelskoleelev kan håndtere med lett. Denne slående paradokset avslører noe grunnleggende om naturen til kunstig intelligens i dag. Vi er vitne til oppblomstringen av hva som bare kan kalles ujevn intelligens, der maskiner viser overmenneskelige evner i visse domener samtidig som de feiler på oppgaver vi betrakter som grunnleggende.

Olympiadeseieren

Den internasjonale matematikkolympiaden er den ledende standarden for pre-universitets matematikkonkurranser. Hvert år, de brightest unge matematikerne fra hele verden, takler seks problemer som krever dyp innsikt, kreativ tenkning og høy-nivå bevis-teknikker. I 2025, AI-systemer fra både Google DeepMind og OpenAI scoret 35 av 42 poeng, nok til å vinne gullmedaljer. DeepMinds AlphaGeometry 2 løste et komplekst geometriproblem på bare 19 sekunder, mens AlphaProof løste problemer i tallteori og algebra som forvirret de fleste menneskelige deltakerne.

Disse prestasjonene bygger på års incrementale fremgang. Systemene bruker formelle matematiske språk som Lean for å konstruere strenge bevis. De anvender teknikker som curriculum learning, der AI trener på problemer med økende vanskelighetsgrad. Denne treningen muliggjør at AI forstår komplekse relasjoner mellom matematiske objekter, gjenkjenner subtile mønster og konstruerer elegante bevis.

Den grunnleggende kampen

De samme AI-systemene som oppnår gull på olympiadeproblemer, strever ofte på oppgaver som synes trivielle. For eksempel, hvis du ber dem om å multiplisere store tall, kan de med sikkerhet produsere feilaktige svar. Liksom hvis du prøver å utføre andre grunnleggende aritmetiske operasjoner, blir deres prestasjon uforutsigbar. Problemet er ikke begrenset til enkel beregning. Disse systemene strever ofte med tekstproblemer som krever sporing av multiple mengder, forståelse av virkelige verdenskontekst eller anvendelse av grunnleggende matematiske operasjoner i sekvens.

Dette svakhetens essens kommer fra hvordan disse AI-modellene grunnleggende fungerer. Store språkmodeller forutsier hva tekst som skal komme neste basert på mønster de har sett i treningsdata. Når de møter “2 + 2”, gjenkjenner de dette mønsteret og forutsier riktig “4” ikke fordi de forstår addisjon, men fordi denne sekvensen opptrer talløse ganger i deres treningsdata. Når du presenterer dem for uvanlige beregninger som sjelden opptrer i tekst, forringes deres prestasjon raskt. De er i realiteten mønster-gjenkjenning maskiner som excellerer når mønster er klare og konsistente, men strever når de blir tvunget til å beregne et usett problem.

Arkitekturparadokset

Kontrasten mellom olympiadeseier og aritmetisk feil avslører en dypere arkitektonisk problem. Moderne AI-systemer excellerer på problemer som kan løses gjennom mønster-gjenkjenning, logisk deduksjon og systematisk søk gjennom løsningsrom. Olympiadeproblemer, til tross for deres vanskelighetsgrad, har ofte elegante strukturer som AI kan utnytte. Systemene kan utforske forskjellige bevisstrategier, verifisere logiske skritt og bygge på etablerte matematiske rammer. De opererer i en verden av symboler og regler hvor konsistens og logikk dominere.

I motsetning, stiller grunnleggende aritmetikk, paradoksalt, forskjellige utfordringer. Den krever presis manipulering av mengder, ikke mønster-gjenkjenning. Den krever forståelse av numerisk størrelse og relasjoner som ikke kan approksimeres. Når et AI-system tilnærmer seg aritmetikk gjennom språkmodellering, behandler det tall som tokens som skal forutsies, ikke mengder som skal beregnes. Denne grunnleggende misforholdet mellom oppgavens krav og modellarkitekturen skaper prestasjonsgapet vi observerer.

Treningsdata og dens begrensninger

AI-egenskaper avhenger i stor grad av kvaliteten og naturen til treningsdata. Matematiske bevis og avanserte problemer opptrer ofte i godt strukturerte formater online. Akademiske artikler, lærebøker og utdanningsressurser gir klare eksempler på matematisk resonnering. Internettet inneholder omfattende diskusjoner av matematiske konsepter, bevis-teknikker og problemløsingsstrategier. Denne rike korpusen muliggjør at AI-systemer kan lære avansert matematisk tenkning.

Grunnleggende matematikk, derimot, lider under et annet problem. Selv om grunnleggende aritmetikk opptrer hyppig online, kommer den sjelden med de detaljerte resonneringskjedene som hjelper AI å forstå underliggende prosesser. Enkle beregninger uttrykkes som fakta, ikke som prosedyrer. Treningsdata inneholder resultater av beregning, men ikke beregningsprosessen selv. Dette skaper en grunnleggende gap i forståelse som manifesterer seg som dårlig prestasjon på grunnleggende oppgaver.

Konsekvenser for AI-utvikling

Denne ujevne mønsteret av intelligens har avgjørende konsekvenser for hvordan vi designer og bruker AI-systemer. Vi kan ikke anta at suksess i komplekse oppgaver betyr kompetanse i enklere oppgaver. En AI i stand til å bevise matematiske teorier, kan feile på å balansere en sjekkbok. Et system som skriver datakode, kan streve med grunnleggende telling. Denne realiteten krever nøye overveielse av AI-egenskaper og begrensninger i virkelige verden-applikasjoner.

Fenomenet avslører også viktigheten av hybridtiltak. I stedet for å forvente at en enkelt modell håndterer alle oppgaver, kan vi måtte ha spesialiserte systemer for forskjellige typer oppgaver. For eksempel, å kombinere symbolisk beregning for aritmetikk med språkmodeller for resonnering, kan skape mer pålitelige løsninger. Fremtiden for AI kan ligge i å koordinere flere spesialiserte systemer i stedet for å forfølge monolittisk generell intelligens.

Vei Fremover

Å erkjenne ujevn intelligens gir en klarere retning for å bygge mer kapable AI-systemer. Forskere utvikler metoder for å integrere beregningsverktøy i språkmodeller, som muliggjør at de kan delegere aritmetikk til kalkulatorer. Ny treningsstrategi fokuserer på å lære modellene når å bruke eksterne verktøy i stedet for å prøve å internalisere hver ferdighet. Denne tilnærmingen speiler menneskelig intelligens, hvor vi avhenger av kalkulatorer for beregning og reserverer vår mentale innsats for høyere-nivå resonnering.

Paradokset om ujevn intelligens lærer oss til slutt om ydmykhet om kunstig intelligens. Disse systemene er hverken universelt overlegne eller uniformt begrensede. I stedet, viser de en kompleks blanding av styrker og svakheter som vi må være klar over for å effektivt bruke og forbedre AI-egenskaper. Suksess krever ikke bare å utvide hva AI kan gjøre, men også å håndtere dens grunnleggende gap. Maskinene som kan bevise teorier, men feiler på grunnleggende addisjon, viser at intelligens, enten kunstig eller menneskelig, er en mangfoldig fenomen som ikke er enkelt å definere.

Bunnlinjen

AI-suksessen med å løse olympiadeproblemer, men feil på enkel matematikk, viser at intelligens ikke utvikler seg jevnt. Disse systemene kan være briljante i ett område og svake i et annet. Å forstå dette ujevne mønsteret er viktig for hvordan vi designer og bruker AI. I stedet for å forvente at en modell gjør alt, kan vi måtte kombinere forskjellige tilnærminger som spiller på hver systems styrker. Reell fremgang vil komme fra å bygge AI som fungerer pålitelig i praksis, ikke fra å anta at det vil være bra på hver oppgave.

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.