Kunstig intelligens

ChatGPTs første jubileum: Reshaping the Future of AI Interaction

Publisert

5 måneder siden

Desember 6, 2023

Når vi reflekterer over ChatGPTs første år, er det klart at dette verktøyet har endret AI-scenen betydelig. ChatGPT ble lansert på slutten av 2022 og skilte seg ut på grunn av sin brukervennlige, samtalestil som gjorde at interaksjon med AI føltes mer som å chatte med en person enn en maskin. Denne nye tilnærmingen fanget raskt publikums oppmerksomhet. I løpet av bare fem dager etter utgivelsen hadde ChatGPT allerede tiltrukket seg en million brukere. I begynnelsen av 2023 økte dette antallet til rundt 100 millioner månedlige brukere, og i oktober hadde plattformen trukket inn rundt 1.7 milliarder besøk over hele verden. Disse tallene sier mye om dens popularitet og nytte.

I løpet av det siste året har brukere funnet alle slags kreative måter å bruke ChatGPT på, fra enkle oppgaver som å skrive e-poster og oppdatere CV-er til å starte suksessrike bedrifter. Men det handler ikke bare om hvordan folk bruker det; teknologien i seg selv har vokst og forbedret. Opprinnelig var ChatGPT en gratis tjeneste som tilbyr detaljerte tekstsvar. Nå er det ChatGPT Plus, som inkluderer ChatGPT-4. Denne oppdaterte versjonen er trent på mer data, gir færre feil svar og forstår komplekse instruksjoner bedre.

En av de største oppdateringene er at ChatGPT nå kan samhandle på flere måter – den kan lytte, snakke og til og med behandle bilder. Dette betyr at du kan snakke med den via mobilappen og vise den bilder for å få svar. Disse endringene har åpnet nye muligheter for AI og har endret hvordan folk ser på og tenker på AIs rolle i livene våre.

Fra starten som en teknisk demo til den nåværende statusen som en stor aktør i teknologiverdenen, er ChatGPTs reise ganske imponerende. Opprinnelig ble det sett på som en måte å teste og forbedre teknologi ved å få tilbakemeldinger fra publikum. Men det ble raskt en viktig del av AI-landskapet. Denne suksessen viser hvor effektivt det er å finjustere store språkmodeller (LLM) med både veiledet læring og tilbakemeldinger fra mennesker. Som et resultat kan ChatGPT håndtere et bredt spekter av spørsmål og oppgaver.

Kappløpet om å utvikle de mest kapable og allsidige AI-systemene har ført til en spredning av både åpen kildekode og proprietære modeller som ChatGPT. For å forstå deres generelle evner kreves omfattende målestokker på tvers av et bredt spekter av oppgaver. Denne delen utforsker disse referansene, og kaster lys over hvordan ulike modeller, inkludert ChatGPT, står opp mot hverandre.

Evaluering av LLM-er: Benchmarks

MT-benk: Denne benchmarken tester evner til samtale med flere svinger og instruksjonsfølgende evner på tvers av åtte domener: skriving, rollespill, informasjonsutvinning, resonnement, matematikk, koding, STEM-kunnskap og humaniora/samfunnsvitenskap. Sterkere LLM-er som GPT-4 brukes som evaluatorer.
AlpakkaEval: Basert på AlpacaFarm-evalueringssettet, benchmarker denne LLM-baserte automatiske evaluatoren modeller mot svar fra avanserte LLM-er som GPT-4 og Claude, og beregner vinnerraten for kandidatmodeller.
Åpne LLM Leaderboard: Ved å bruke Language Model Evaluation Harness, evaluerer denne ledertavlen LLM-er på syv viktige benchmarks, inkludert resonneringsutfordringer og generelle kunnskapstester, i både null-skudd og få-skudd-innstillinger.
STOR-benk: Denne samarbeidsreferansen dekker over 200 nye språkoppgaver, som spenner over et mangfold av emner og språk. Den tar sikte på å undersøke LLM-er og forutsi deres fremtidige evner.
ChatEval: Et rammeverk for debatt med flere agenter som lar team selv diskutere og evaluere kvaliteten på svar fra ulike modeller på åpne spørsmål og tradisjonelle oppgaver for generering av naturlig språk.

Sammenlignende ytelse

Når det gjelder generelle benchmarks, har åpen kildekode LLM-er vist bemerkelsesverdig fremgang. Lama-2-70Boppnådde for eksempel imponerende resultater, spesielt etter å ha blitt finjustert med instruksjonsdata. Varianten, Llama-2-chat-70B, utmerket seg i AlpacaEval med en gevinstrate på 92.66 %, og overgikk GPT-3.5-turbo. GPT-4 forblir imidlertid frontløperen med en gevinstrate på 95.28 %.

Zephyr-7B, en mindre modell, demonstrerte egenskaper som kan sammenlignes med større 70B LLM-er, spesielt i AlpacaEval og MT-Bench. I mellomtiden scoret WizardLM-70B, finjustert med et mangfoldig utvalg av instruksjonsdata, høyest blant åpen kildekode LLM-er på MT-Bench. Imidlertid lå den fortsatt bak GPT-3.5-turbo og GPT-4.

Et interessant bidrag, GodziLLa2-70B, oppnådde en konkurransedyktig poengsum på Open LLM Leaderboard, som viser potensialet til eksperimentelle modeller som kombinerer forskjellige datasett. På samme måte skilte Yi-34B, utviklet fra bunnen av, seg ut med score som kan sammenlignes med GPT-3.5-turbo og bare litt bak GPT-4.

UltraLlama, med sin finjustering på varierte og høykvalitetsdata, matchet GPT-3.5-turbo i sine foreslåtte benchmarks og overgikk det til og med på verdens- og fagkunnskapsområder.

Oppskalering: The Rise of Giant LLMs

Topp LLM-modeller siden 2020

En bemerkelsesverdig trend i LLM-utvikling har vært oppskalering av modellparametere. Modeller som Gopher, GLaM, LaMDA, MT-NLG og PaLM har flyttet grensene, og kulminerte i modeller med opptil 540 milliarder parametere. Disse modellene har vist eksepsjonelle evner, men deres lukkede kildekode har begrenset deres bredere anvendelse. Denne begrensningen har ansporet interessen for å utvikle åpen kildekode LLM-er, en trend som får fart.

Parallelt med å skalere opp modellstørrelser, har forskere utforsket alternative strategier. I stedet for bare å gjøre modellene større, har de fokusert på å forbedre forhåndsopplæringen av mindre modeller. Eksempler inkluderer Chinchilla og UL2, som har vist at mer ikke alltid er bedre; smartere strategier kan også gi effektive resultater. Videre har det vært betydelig oppmerksomhet rundt instruksjonsinnstilling av språkmodeller, med prosjekter som FLAN, T0 og Flan-T5 som gir betydelige bidrag til dette området.

ChatGPT Catalyst

Introduksjonen av OpenAI's ChatGPT markerte et vendepunkt i NLP-forskningen. For å konkurrere med OpenAI lanserte selskaper som Google og Anthropic sine egne modeller, henholdsvis Bard og Claude. Selv om disse modellene viser ytelse som kan sammenlignes med ChatGPT i mange oppgaver, ligger de fortsatt bak den nyeste modellen fra OpenAI, GPT-4. Suksessen til disse modellene tilskrives først og fremst forsterkende læring fra menneskelig tilbakemelding (RLHF), en teknikk som får økt forskningsfokus for ytterligere forbedring.

Rykter og spekulasjoner rundt OpenAIs Q* (Q-Star)

Nylige rapporter tyder på at forskere ved OpenAI kan ha oppnådd et betydelig fremskritt innen AI med utviklingen av en ny modell kalt Q* (uttales Q-stjerne). Angivelig har Q* evnen til å utføre matematikk på grunnskolenivå, en bragd som har utløst diskusjoner blant eksperter om potensialet som en milepæl mot kunstig generell intelligens (AGI). Mens OpenAI ikke har kommentert disse rapportene, har ryktene til Q* skapt betydelig spenning og spekulasjoner på sosiale medier og blant AI-entusiaster.

Utviklingen av Q* er bemerkelsesverdig fordi eksisterende språkmodeller som ChatGPT og GPT-4, selv om de er i stand til noen matematiske oppgaver, ikke er spesielt flinke til å håndtere dem pålitelig. Utfordringen ligger i behovet for at AI-modeller ikke bare gjenkjenner mønstre, slik de for tiden gjør gjennom dyp læring og transformatorer, men også for å resonnere og forstå abstrakte konsepter. Matematikk, som er en målestokk for resonnement, krever at AI planlegger og utfører flere trinn, og demonstrerer et dypt grep om abstrakte konsepter. Denne evnen vil markere et betydelig sprang i AI-evner, som potensielt strekker seg utover matematikk til andre komplekse oppgaver.

Eksperter advarer imidlertid mot å overhype denne utviklingen. Selv om et AI-system som pålitelig løser matematiske problemer ville være en imponerende prestasjon, signaliserer det ikke nødvendigvis fremveksten av superintelligent AI eller AGI. Nåværende AI-forskning, inkludert innsats fra OpenAI, har fokusert på elementære problemer, med varierende grad av suksess i mer komplekse oppgaver.

De potensielle applikasjonsfremskritt som Q* er enorme, alt fra personlig veiledning til å hjelpe til med vitenskapelig forskning og ingeniørfag. Det er imidlertid også viktig å administrere forventningene og anerkjenne begrensningene og sikkerhetshensyn knyttet til slike fremskritt. Bekymringene om AI utgjør en eksistensiell risiko, en grunnleggende bekymring for OpenAI, forblir relevante, spesielt ettersom AI-systemer begynner å kommunisere mer med den virkelige verden.

LLM-bevegelsen med åpen kildekode

For å øke LLM-forskningen med åpen kildekode, ga Meta ut Llama-seriens modeller, og utløste en bølge av nye utviklinger basert på Llama. Dette inkluderer modeller finjustert med instruksjonsdata, som Alpakka, Vicuna, Lima og WizardLM. Forskning forgrener seg også til å forbedre agentkapasiteter, logiske resonnementer og langkontekstmodellering innenfor det Llama-baserte rammeverket.

Videre er det en økende trend med å utvikle kraftige LLM-er fra bunnen av, med prosjekter som MPT, Falcon, XGen, Phi, Baichuan, Mistral, Grokog Yi. Denne innsatsen reflekterer en forpliktelse til å demokratisere evnene til lukkede kildekode LLM-er, og gjøre avanserte AI-verktøy mer tilgjengelige og effektive.

Effekten av ChatGPT og åpen kildekode-modeller i helsevesenet

Vi ser på en fremtid der LLM-er bistår med klinisk notattaking, utfylling av skjemaer for refusjoner og støtter leger i diagnose og behandlingsplanlegging. Dette har fanget oppmerksomheten til både teknologigiganter og helseinstitusjoner.

Microsofts diskusjoner med Epic, en ledende programvareleverandør for elektroniske helsejournaler, signaliserer integrering av LLM-er i helsevesenet. Initiativer er allerede på plass ved UC San Diego Health og Stanford University Medical Center. Tilsvarende Googles partnerskap med Mayo Clinic og Amazon Web Services' lansering av HealthScribe, en klinisk dokumentasjonstjeneste for AI, markerer betydelige fremskritt i denne retningen.

Imidlertid vekker disse raske utplasseringene bekymringer om å avstå kontroll over medisin til bedriftens interesser. Den proprietære karakteren til disse LLM-ene gjør dem vanskelige å evaluere. Deres mulige modifikasjoner eller seponering av lønnsomhetsgrunner kan kompromittere pasientbehandling, personvern og sikkerhet.

Det presserende behovet er for en åpen og inkluderende tilnærming til LLM-utvikling i helsevesenet. Helseinstitusjoner, forskere, klinikere og pasienter må samarbeide globalt for å bygge åpen kildekode LLM-er for helsetjenester. Denne tilnærmingen, som ligner på Trillion Parameter Consortium, vil tillate sammenslåing av beregningsmessige, økonomiske ressurser og ekspertise.

Relaterte temaer:GPT lama 2 LLM

Neste

UltraFastBERT: Eksponentielt raskere språkmodellering

Ikke gå glipp av

Elon Musks xAI søker finansieringsøkning på milliarder dollar

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.