Connect with us

Hur vÀl kan LLM faktiskt resonera genom besvÀrliga problem?

Tankeledare

Hur vÀl kan LLM faktiskt resonera genom besvÀrliga problem?

mm

Introduktionen och utvecklingen av generativ AI har varit så plötslig och intensiv att det faktiskt är ganska svårt att fullt ut uppskatta hur mycket denna teknik har förändrat våra liv.

Zooma ut till för bara tre år sedan. Ja, AI blev alltmer utbredd, åtminstone i teorin. Fler människor visste några av de saker den kunde göra, även om det fortfarande fanns stora missförstånd om AI:s förmågor. På något sätt gavs tekniken samtidigt för lite och för mycket credit för vad den faktiskt kunde uppnå. Ändå kunde den genomsnittlige personen peka på åtminstone ett eller två områden där AI arbetade, utförde högt specialiserade uppgifter ganska bra, i högt kontrollerade miljöer. Allt bortom det var antingen fortfarande i ett forskningslaboratorium eller enkelt inte existerade.

Jämför det med idag. Med noll färdigheter utöver förmågan att skriva en mening eller ställa en fråga, ligger världen vid våra fingertoppar. Vi kan generera bilder, musik och till och med filmer som är verkligt unika och fantastiska, och har förmågan att störa hela branscher. Vi kan superchargera vår sökmotorprocess, ställa en enkel fråga som, om den formuleras rätt, kan generera sidor med anpassat innehåll som är tillräckligt bra för att passera som en universitetsutbildad forskare … eller en genomsnittlig tredjeklassare om vi specificerar perspektivet. Medan de på något sätt, på bara ett eller två år, har blivit vanliga, ansågs dessa förmågor vara absolut omöjliga för bara några få år sedan. Fältet generativ AI existerade men hade inte tagit av på något sätt.

Idag har många människor experimenterat med generativ AI, såsom ChatGPT, Midjourney eller andra verktyg. Andra har redan integrerat dem i sina dagliga liv. Utvecklingstakten har varit så bländande att den är nästan alarmerande. Och med tanke på framstegen under de senaste sex månaderna, kommer vi utan tvekan att bli förbluffade, om och om igen, under de kommande åren.

Ett specifikt verktyg som används inom generativ AI har varit prestationen av Retrieval-Augmented Generation (RAG)-system och deras förmåga att tänka igenom särskilt komplexa frågor. Introduktionen av FRAMES-datamängden, som beskrivs i detalj i en artikel om hur utvärderingsdatamängden fungerar, visar både var tillståndet för konsten är nu och vart det är på väg. Även sedan introduktionen av FRAMES i slutet av 2024, har ett antal plattformar redan slagit nya rekord på sin förmåga att resonera genom svåra och komplexa frågor.

Låt oss dyka in i vad FRAMES är tänkt att utvärdera och hur väl olika generativa AI-modeller presterar. Vi kan se hur både decentralisering och öppen källkodsplattformar inte bara håller sina positioner (särskilt Sentient Chat), utan också tillåter användare att få en tydlig glimt av den förbluffande resonemang som vissa AI-modeller är kapabla att uppnå.

FRAMES som ett fönster in i GenAI-hjärnan

FRAMES-datamängden och dess utvärderingsprocess fokuserar på 824 “multi-hop”-frågor som är utformade för att kräva inferens, logisk anslutning, användning av flera olika källor för att hämta nyckelinformation och förmågan att logiskt sätta ihop allt för att besvara frågan. Frågorna behöver mellan två och 15 dokument för att besvaras korrekt och innehåller också medvetet begränsningar, matematiska beräkningar och deduktioner, samt förmågan att bearbeta tidsbaserad logik. Med andra ord är dessa frågor extremt svåra och representerar faktiskt mycket verkliga forskningsuppgifter som en människa kan utföra på internet. Vi hanterar dessa utmaningar hela tiden och måste söka efter de utspridda nyckelbitarna av information i en hav av internetkällor, sammanfoga informationen baserat på olika webbplatser, skapa ny information genom att beräkna och deducera och förstå hur man konsoliderar dessa fakta till ett korrekt svar på frågan.

Vad forskare fann när datamängden först släpptes och testades var att de bästa GenAI-modellerna kunde vara ganska exakta (cirka 40%) när de behövde besvara med enstaka steg, men kunde uppnå en 73% exakthet om de tilläts samla in alla nödvändiga dokument för att besvara frågan. Ja, 73% kanske inte verkar som en revolution. Men om du förstår exakt vad som måste besvaras, blir siffran mycket mer imponerande.

Till exempel är en specifik fråga: “Vilket år var bandledaren för gruppen som ursprungligen framförde låten som sampas i Kanye Wests låt Power född?” Hur skulle en människa gå tillväga för att lösa detta problem? Personen kanske ser att de behöver samla in olika informationsdelar, såsom texten till Kanye Wests låt “Power”, och sedan kunna lyssna igenom låten och identifiera punkten i låten där en annan låt faktiskt sampas.

Men tänk på det: vad skulle en GenAI behöva åstadkomma för att upptäcka en annan låt än den ursprungliga medan den “lyssnar” på den? Här är en grundläggande fråga som blir ett utmärkt test av verkligt intelligent AI. Och om vi kunde hitta låten, lyssna på den och identifiera de sampade texterna, är det bara Steg 1. Vi behöver fortfarande ta reda på vad låtens namn är, vad bandet heter, vem bandledaren är och sedan vilket år den personen föddes.

FRAMES visar att för att besvara realistiska frågor, behövs en enorm mängd tankeprocesser. Två saker kommer i åtanke här.

Först, förmågan hos decentraliserade GenAI-modeller att inte bara konkurrera, utan potentiellt dominera resultaten, är otrolig. Ett växande antal företag använder den decentraliserade metoden för att skala sin bearbetningsförmåga samtidigt som de säkerställer att en stor gemenskap äger programvaran, inte en centraliserad svart låda som inte kommer att dela med sig av sina framsteg. Företag som Perplexity och Sentient leder denna trend, var och en med formidabla modeller som presterar bättre än de första exakthetsrekorden när FRAMES släpptes.

Det andra elementet är att ett mindre antal av dessa AI-modeller inte bara är decentraliserade, utan också öppen källkod. Till exempel är Sentient Chat båda, och tidiga tester visar hur komplex dess resonemang kan vara, tack vare den ovärderliga öppna källkodsåtkomsten. FRAMES-frågan ovan besvaras med hjälp av samma tankeprocess som en människa skulle använda, med dess resonemangsdetaljer tillgängliga för granskning. Kanske ännu mer intressant är att deras plattform är strukturerad som ett antal modeller som kan finjustera ett givet perspektiv och prestanda, även om finjusteringsprocessen i vissa GenAI-modeller resulterar i minskad exakthet. I fallet med Sentient Chat har många olika modeller utvecklats. Till exempel kan en nyligen modell som kallas “Dobby 8B” både överträffa FRAMES-benchmarken och utveckla en distinkt pro-krypto och pro-frihetsattityd, som påverkar modellens perspektiv när den bearbetar informationsdelar och utvecklar ett svar.

På horisonten

Nyckeln till alla dessa förbluffande innovationer är den snabba hastighet som förde oss hit. Vi måste erkänna att så fort denna teknik har utvecklats, kommer den bara att utvecklas ännu snabbare i den närmaste framtiden. Vi kommer att kunna se, särskilt med decentraliserade och öppen källkods-GenAI-modeller, att den kritiska tröskeln där systemets intelligens börjar överträffa alltmer av vår egen, och vad det innebär för framtiden.

David Balaban Àr en datorsÀkerhetsforskare med över 17 Ärs erfarenhet av malwareanalys och utvÀrdering av antivirusprogram. David driver MacSecurity.net och Privacy-PC.com projekt som presenterar expertrÄd om samtida informations sÀkerhetsfrÄgor, inklusive social ingenjörskonst, malware, penetrationstestning, hotintelligens, online integritet och white hat-hacking. David har en stark bakgrund inom felsökning av malware, med ett nyligt fokus pÄ motÄtgÀrder mot ransomware.