Kunstig intelligens

Test-Tidsskalerings-Sauce: Hemmeligheden Bag Den Nye Bølge Af PhD-Niveau-Reasoning-Modeller

mm

Det kunstige intelligens-område har nået et punkt, hvor blot at tilføje mere data eller øge modellens størrelse ikke er den bedste måde at gøre den mere intelligent. I de seneste år troede vi, at hvis vi byggede større neurale netværk og fødede dem mere af internettet, ville de til sidst blive mere intelligente. Denne tilgang, kendt som skaleringslove, fungerede bemærkelsesværdigt godt. Den gav os modeller, der kan skrive digte, oversætte sprog og bestå advokateksamen. Men disse modeller havde ofte svært ved at håndtere dyb logik, kompleks matematik og multi-trins videnskabelige problemer. De var udmærkede til mønstergenkendelse, men fejlede ofte i problemer, der kræver multi-trins resonnering.

For nylig er der opstået en ny trend, der ændrer måden, vi tænker om AI-kapaciteter på. Denne trend kaldes test-tidsskalerings-sauce. I stedet for kun at fokusere på, hvor meget en model lærer under sin træningsfase, fokuserer forskere nu på, hvor meget modellen “tænker”, når den faktisk besvarer et spørgsmål. Denne skift er hemmeligheden bag den seneste bølge af resonansmodeller, såsom OpenAI’s o1-serie, som nu udfører på niveau med PhD-studerende i svære fag som fysik, kemi og biologi.

Skiftet fra Skalerings-Træning til Skalerings-Inferens

For at forstå, hvorfor dette er en stor ændring, må vi se på, hvordan AI blev bygget indtil nu. Traditionelt blev “intelligensen” i en model bestemt på basis af dens træning. Dette involverede at bruge måneder og millioner af dollars på at køre enorme mængder af data gennem tusindvis af GPU’er. Når træningen var færdig, var modellen essentiellement frosset. Når du stillede det et spørgsmål, ville det give et svar næsten øjeblikkeligt baseret på mønstrene, det allerede havde lært. Dette kaldes inferens eller test-tid.

Problemet med denne traditionelle tilgang er, at modellen kun har én chance for at få svaret rigtigt. Den behandler prompten og genererer tokens én efter én uden mulighed for at “tænke” eller “doble-tjekke” sin logik, før den taler. Test-tidsskalerings-sauce ændrer denne dynamik. Den giver modellen mulighed for at bruge mere beregningskraft under inferens-fasen. Ligesom et menneske måske tager et par sekunder til at svare på et enkelt spørgsmål, men flere minutter eller timer til at løse et komplekst matematisk problem, er AI-modeller nu designet til at skala deres indsats baseret på opgavens sværhedsgrad.

Definering af Begrebet Test-Tidsskalerings-Sauce

Test-tidsskalerings-sauce henviser til teknikker, der giver en AI-model mulighed for at bruge ekstra beregningsressourcer til at behandle en anmodning på leveringstidspunktet. I simple termer betyder det at give modellen mere “tænketid”. Dette handler ikke om at gøre modellen større, men om at gøre den mere bevidst. Når en model bruger test-tidsskalerings-sauce, producerer den ikke bare det første svar, der kommer i tanker. I stedet kan den måske udforske forskellige stier, tjekke for fejl i sin egen logik og forfine sit svar, før brugeren nogensinde ser det.

Dette begreb sammenlignes ofte med, hvordan det menneskelige hjerte fungerer. Psykologer taler ofte om “System 1” og “System 2” tænkning. System 1 er hurtig, instinktiv og emotionel. Det er, hvad du bruger, når du genkender et ansigt eller kører en bil på en velkendt vej. System 2 er langsommere, mere bevidst og logisk. Det er, hvad du bruger, når du løser et svært matematisk problem eller planlægger et komplekst projekt. Indtil for nylig var LLM’er mest System 1-tænkere. Test-tidsskalerings-sauce er broen, der giver dem adgang til System 2-tænkning.

Mekanikken Bag Resonans-Processen

Der er flere måder, som forskere opnår test-tidsskalerings-sauce på. En af de mest almindelige metoder kaldes Chain of Thought (CoT) prompting, men i disse nye modeller er det bygget direkte ind i systemet, snarere end noget, brugeren skal bede om. Modellen er trænet til at bryde et problem ned i mindre, logiske trin. Ved at gøre det, kan modellen verificere hvert enkelt trin i løsningen, før den går videre til det næste.

En anden vigtig teknik indebærer søgealgoritmer, såsom Monte Carlo Tree Search. I stedet for kun at forudsige det næste mest sandsynlige ord, genererer modellen multiple mulige stier for et svar. Den vurderer disse stier og bestemmer, hvilken der er mest sandsynlig til at føre til en korrekt løsning. Hvis den rammer en død ende eller indser, at en tidligere trin var forkert, kan den gå tilbage og prøve en anden tilgang. Denne “look-ahead”-funktion er meget lig til, hvordan en skakmotor vurderer tusindvis af mulige træk, før den vælger det bedste. Ved at søge gennem mange muligheder under inferens-stadiet kan modellen løse langt mere komplekse problemer, end dem der kan løses direkte ved hjælp af en standard LLM.

Hvorfor PhD-Niveau-Resonans Kræver Mere End Hukommelse

Grunden til, at dette er så vigtigt, er, at høj-niveau-resonans i videnskab og matematik ikke kan løses af hukommelse alene. I en PhD-fysik-eksamen kan du ikke blot gentage en fakt, du læste i en lærebog. Du må anvende komplekse principper til en ny og unik situation. Standard-modeller hallucinerer ofte i disse scenarier, fordi de prøver at forudsige det næste ord baseret på sandsynlighed snarere end logik.

Test-tidsskalerings-sauce giver modellen mulighed for at opføre sig mere som en forsker. Den kan teste hypoteser internt. For eksempel, hvis en model bedes om at skrive en kompleks kode, kan den “køre” logikken i sin skjulte tænke-kæde, identificere en potentiel fejl og korrigere den, før den præsenterer den endelige kode. Denne evne til selv-korrigering er, hvad giver den nye bølge af modeller mulighed for at score højt på benchmarks som American Invitational Mathematics Examination (AIME) eller GPQA (en svær videnskabs-test designet af eksperter). De gætter ikke blot; de verificerer.

Effektivitets-Trade-Off Og Beregningsomkostninger

Selvom test-tidsskalerings-sauce er kraftfuld, kommer den med en betydelig omkostning. I den gamle måde at gøre tingene på var den dyreste del af AI træningen. Når modellen var deployet, var det relativt billigt og hurtigt at køre den. Med test-tidsskalerings-sauce skifter omkostningen mod brugerens anmodning. Fordi modellen udfører mere arbejde ved at generere multiple stier og kontrollere sin egen arbejde, tager det længere tid at svare og kræver mere hardware-ressourcer.

Dette skaber en ny økonomi for AI. Vi bevæger os mod en situation, hvor “omkostningen pr. forespørgsel” kan variere vildt. Et enkelt spørgsmål om vejr kan koste en brøkdel af en cent og tage et sekund. En dyb videnskabelig undersøgelse kan koste flere dollars i beregnings tid og kan tage en time at behandle. Denne trade-off er nødvendig for at opnå høj-niveau-resonans, men det betyder også, at udviklere må finde måder at gøre disse modeller effektive, så de kan bruges i stor skala i industrier som medicin eller ingeniørvidenskab.

Indvirkningen På Fremtiden For Kunstig Intelligens

Opkomsten af test-tidsskalerings-sauce antyder, at vi måske er ved at indtræde i en ny æra af AI-udvikling. I årevis var der en bekymring om, at vi ville løbe tør for høj-kvalitets menneskelig data til at træne modeller. Hvis modeller kun lærer af, hvad mennesker allerede har skrevet, kan de ramme en loft. Men test-tidsskalerings-sauce viser, at modeller kan forbedre deres præstation ved at tænke hårdere, snarere end blot at læse mere.

Dette åbner døren for, at AI kan lave sine egne opdagelser. Hvis en model kan resonere gennem et problem, den aldrig har set før, kan den potentielt finde nye løsninger i materialevidenskab, lægemiddelforskning eller vedvarende energi. Det flytter AI fra at være en hjælpsom assistent, der summerer tekst, til at være en digital samarbejdspartner, der kan hjælpe med at løse verdens sværeste problemer. Vi ser en bevægelse væk fra “genererende” AI til “resonans” AI.

Bottom-Line

Test-tidsskalerings-sauce viser sig at være den manglende sammenkædning i jagten på avanceret kunstig intelligens. Ved at give modeller mulighed for at bruge mere beregningskraft på leveringstidspunktet, har vi låst op for en niveau af præstation, der tidligere blev anset for at være år væk. Disse modeller begynder at demonstrere en type logik, der føles langt tættere på menneskelig intelligens end den simple mønstergenkendelse i fortiden.

Da vi går fremad, vil udfordringen være at finpudse disse teknikker. Vi må gøre resonans hurtigere og mere tilgængeligt, mens vi finder den rette balance mellem “hurtig” og “langsom” tænkning. Hemmeligheden er ikke længere blot modellens størrelse eller mængden af data, den har set. Hemmeligheden er, hvordan modellen bruger sin tid til at tænke. For alle, der følger med i AI’s fremgang, er det klart, at fokus er skiftet. Kapløbet er ikke længere kun om, hvem der har den største model, men hvem der har den model, der kan resonere bedst. Denne skift vil sandsynligvis definere de næste ti års innovation i feltet.

Dr. Tehseen Zia er en fastansat lektor ved COMSATS University Islamabad, med en ph.d. i AI fra Vienna University of Technology, Østrig. Specialiseret i kunstig intelligens, maskinlæring, datavidenskab og computer vision, har han gjort betydelige bidrag med publikationer i anerkendte videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som hovedundersøger og fungeret som AI-rådgiver.