Tekoäly
ChatGPT:n ensimmäinen vuosipäivä: Muokkaamassa tulevaisuutta AI-vuorovaikutukselle

Heijastamalla ChatGPT:n ensimmäistä vuotta on selvää, että tämä työkalu on merkittävästi muuttanut AI-maastoa. Laitettu käyttöön vuoden 2022 lopussa, ChatGPT erottui sen käyttäjäystävällisen, keskustelumaisen tyylinsä ansiosta, joka teki AI:n kanssa vuorovaikuttelemisesta tuntuisan enemmän kuin ihmisen kanssa kuin koneen kanssa. Tämä uusi lähestymistapa kiinnitti nopeasti yleisön silmän. Vain viiden päivän kuluttua julkaisunsa jälkeen ChatGPT oli jo houkutellut miljoona käyttäjää. Vuoden 2023 alkuun mennessä tämä luku oli kasvanut noin 100 miljoonaan kuukausittaiseen käyttäjään, ja lokakuuhun mennessä alusta oli kerännyt noin 1,7 miljardia vierailua maailmanlaajuisesti. Nämä luvut puhuvat paljon sen suosiosta ja hyödyllisyydestä.
Viime vuoden aikana käyttäjät ovat löytäneet kaikenlaisia luovia keinoja käyttää ChatGPT:ää, yksinkertaisista tehtävistä kuten sähköpostien kirjoittamisesta ja ansioluettelojen päivittämisestä menestyksekkäiden yritysten perustamiseen. Mutta se ei ole vain siinä, miten ihmiset sitä käyttävät; itse teknologia on kasvanut ja parantunut. Alun perin ChatGPT oli ilmainen palvelu, joka tarjosi yksityiskohtaisia tekstivastauksia. Nyt on ChatGPT Plus, joka sisältää ChatGPT-4:n. Tämä päivitetty versio on koulutettu enemmän dataa, antaa vähemmän väärä vastauksia ja ymmärtää monimutkaisia ohjeita paremmin.
Yksi suurimmista päivityksistä on, että ChatGPT voi nyt vuorovaikuttaa monin eri tavoilla – se voi kuunnella, puhua ja jopa prosessoida kuvia. Tämä tarkoittaa, että voit puhua sille sen mobiilisovelluksen kautta ja näyttää sille kuvia saadaksesi vastauksia. Nämä muutokset ovat avanneet uusia mahdollisuuksia AI:lle ja muuttaneet, miten ihmiset kokevat ja ajattelevat AI:n roolia elämässään.
Sen alkuajoista teknodemona sen nykyiseen asemaan merkittävänä tekijänä teknomaailmassa, ChatGPT:n matka on varsin vaikuttava. Alun perin se nähtiin tavalta testata ja parantaa teknologiaa saamalla palautetta yleisöltä. Mutta se nopeasti muuttui olennaiseksi osaksi AI-maastoa. Tämä menestys osoittaa, kuinka tehokasta on hienosäätää suuria kielen malleja (LLM) sekä valvotulla oppimisella että ihmisten palautteella. Seurauksena ChatGPT voi käsitellä laajan valikoiman kysymyksiä ja tehtäviä.
Kilpailu kehittää kyvykkäimpiä ja monipuolisimpia AI-järjestelmiä on johtanut sekä avoimen lähdekoodin että omistajiin perustuvien mallien, kuten ChatGPT:n, lisääntymiseen. Ymmärtääkseen heidän yleiset kykynsä, vaaditaan kattavia mittareita laajan tehtäväspektrin yli. Tämä osio tutkii näitä mittareita, antaen valaistusta siitä, miten eri mallit, mukaan lukien ChatGPT, vertautuvat toisiinsa.
Arviointi LLM: Mittarit
- MT-Bench: Tämä mittari testaa monivaiheisen keskustelun ja ohjeiden seuraamisen kykyä kahdeksalla alueella: kirjoittaminen, roolipeli, tietojen poisto, päättely, matematiikka, koodaus, STEM-tiede ja humanistiset/tieteelliset tieteet. Vahvemmat LLM:t, kuten GPT-4, käytetään arvioijina.
- AlpacaEval: Perustuu AlpacaFarm-arviointijoukkoon, tämä LLM-pohjainen automaattinen arvioija mittaa malleja edistyneiden LLM:ien, kuten GPT-4 ja Claude, vastauksia vastaan, laskien ehdokasmallien voittoprosentin.
- Avoin LLM Johtaja: Käyttäen Kielen mallin arviointikehikkoa, tämä johtaja arvioi LLM:itä seitsemällä avainmittarilla, mukaan lukien päättelyhaasteet ja yleistietokokeet, sekä nollan ja usean laukauksen asetelmissa.
- BIG-bench: Tämä yhteistyössä tehty mittari kattaa yli 200 uutta kielen tehtävää, käsittäen monia aiheita ja kieliä. Se pyrkii tutkimaan LLM:itä ja ennustamaan heidän tulevia kykyjään.
- ChatEval: Monen agentin väittelykehyksessä, joka sallii joukkueiden keskenäisen keskustelun ja arvioinnin eri mallien vastausten laadusta avoimissa kysymyksissä ja perinteisissä luonnollisen kielen generointitehtävissä.
Vertaileva suorituskyky
Yleisten mittareiden osalta avoimet LLM:t ovat osoittaneet merkittävää edistystä. Esimerkiksi Llama-2-70B saavutti vaikuttavia tuloksia, erityisesti sen jälkeen, kun se oli hienosäätelty ohjeistusdataa. Sen variantti, Llama-2-chat-70B, menestyi AlpacaEvalissa 92,66 prosentin voittoprosentilla, ohittaa GPT-3.5-turbon. Kuitenkin GPT-4 säilyy edelleen kärjessä 95,28 prosentin voittoprosentilla.
Zephyr-7B, pienempi malli, osoitti kykyjä, jotka ovat vertailukelpoisia suurempien 70B LLM:ien kanssa, erityisesti AlpacaEvalissa ja MT-Benchissä. Vastaavasti WizardLM-70B, joka on hienosäätelty monipuolisen ohjeistusaineiston kanssa, saavutti korkeimman tuloksen avoimien LLM:ien joukossa MT-Benchissä. Kuitenkin se oli edelleen jäljessä GPT-3.5-turbosta ja GPT-4:stä.
Mielenkiintoinen tulokas, GodziLLa2-70B, saavutti kilpailukykyisen tuloksen Avoin LLM Johtajassa, osoittaen kokeellisten mallien yhdistämisen moninaisten tietojoukkojen kanssa. Vastaavasti Yi-34B, joka on kehitetty alusta alkaen, erottui tuloksilla, jotka olivat vertailukelpoisia GPT-3.5-turbon kanssa ja vain hieman GPT-4:tä heikommat.
UltraLlama, joka on hienosäätelty monipuolisen ja laadukkaan aineiston kanssa, vastasi GPT-3.5-turboa ehdotetuissa mittareissa ja jopa ohitti sen joissakin maailman ja ammattitaidon osa-alueilla.
Skalata: Jättiläisten LLM:ien nousu

Merkittävä kehityssuuntaus LLM:ien kehityksessä on ollut malliparametrien skaalautuminen. Mallit kuten Gopher, GLaM, LaMDA, MT-NLG ja PaLM ovat venyttäneet rajoja, johtaneet malleihin, joissa on jopa 540 miljardia parametreja. Nämä mallit ovat osoittaneet poikkeuksellisia kykyjä, mutta niiden suljettu luonne on rajoittanut niiden laajempaa soveltamista. Tämä rajoitus on herättänyt mielenkiintoa avoimen lähdekoodin LLM:ien kehittämiseen, trendiin, joka on voimistumassa.
Rinnakkain mallikokojen kasvattamiseen, tutkijat ovat tutkineet vaihtoehtoisia strategioita. Sen sijaan, että tekevät vain suurempia malleja, he ovat keskittyneet parantamaan pienempien mallien esikoulutusta. Esimerkkejä ovat Chinchilla ja UL2, jotka ovat osoittaneet, että enemmän ei aina ole parempaa; älykkäät strategiat voivat tuottaa tehokkaita tuloksia myös. Lisäksi on ollut merkittävää huomiota kielen mallien ohjeistuksen parantamisessa, mukaan lukien hankkeet kuten FLAN, T0 ja Flan-T5, jotka ovat tehneet merkittäviä panoksia tähän alueeseen.
ChatGPT:n katalysaattori
OpenAI:n ChatGPT:n esittely merkitsi käännekohtaa NLP-tutkimuksessa. Kilpaillakseen OpenAI:ta vastaan, yritykset kuten Google ja Anthropic julkaisivat omat mallinsa, Bard ja Claude. Vaikka nämä mallit osoittavat vertailukelpoista suorituskykyä useissa tehtävissä ChatGPT:n kanssa, ne ovat edelleen jäljessä OpenAI:n viimeisimmästä mallista, GPT-4. Näiden mallien menestys on pääasiallisesti attribuoitu vahvistusoppimiselle ihmisten palautteen avulla (RLHF), tekniikkaan, jota tutkitaan lisää parantamiseksi.
Spekulaatiot OpenAI:n Q* (Q-tähti) ympärillä
Viimeaikaiset raportit viittaavät siihen, että OpenAI:n tutkijat saattavat saavuttaneet merkittävän edistysaskeleen AI:ssa uuden mallin, Q* (lausutaan Q-tähti), kehittämisellä. Ilmoitetaan, että Q*:lla on kyky suorittaa perusopetuksen tasolla olevaa matematiikkaa, saavutus, joka on herättänyt keskustelua asiantuntijoiden keskuudessa sen potentiaalista merkkipaaluna kohti tekoälyä (AGI). Vaikka OpenAI ei ole kommentoinut näitä raportteja, Q*:n ilmoitettujen kykyjen ympärillä vallitseva jännitys on herättänyt merkittävää kuumotusta ja spekulaatiota sosiaalisessa mediassa ja AI-ihmisten keskuudessa.
Q*:n kehitys on merkittävää, koska olemassa olevat kielen mallit, kuten ChatGPT ja GPT-4, vaikka ne pystyvät joissakin matemaattisissa tehtävissä, eivät ole erityisen taitavia niiden luotettavassa suorittamisessa. Haaste piilee tarpeessa, jotta AI-mallit eivät vain tunnista kuvioita, kuten he tällä hetkellä tekevät syvän oppimisen ja transformerien kautta, vaan myös järjellä ja ymmärtävät abstrakteja käsitteitä. Matematiikka, ollessaan päättelyn mittari, vaatii AI-järjestelmältä suunnittelun ja useiden askelten suorittamisen, osoittaen syvän ymmärryksen abstrakteja käsitteitä. Tämä kyky merkitsisi merkittävää loikkaa AI-kyvyissä, mahdollisesti laajentuen matematiikan ulkopuolelle muihin monimutkaisiin tehtäviin.
Kuitenkin asiantuntijat varoittavat liiallisen innostumisen vaarasta tämän kehityksen suhteen. Vaikka AI-järjestelmä, joka luotettavasti ratkaisee matemaattisia ongelmia, olisi vaikuttava saavutus, se ei välttämättä merkitse superälykkään AI:n tai AGI:n saapumista. Nykyinen AI-tutkimus, mukaan lukien OpenAI:n ponnistelut, on keskittynyt perusongelmiin, vaihtelevilla tasolla monimutkaisemmissa tehtävissä.
Tämänkaltaisten edistysten soveltamismahdollisuudet ovat laajat, ulottuen henkilökohtaisesta opettamisesta tukemiseen tieteellisessä tutkimuksessa ja insinööritöissä. Kuitenkin on tärkeää hallita odotuksia ja tunnistaa rajoitukset ja turvallisuusuhkat, jotka liittyvät tällaisiin edistyksiin. Ongelmat AI:n aiheuttamista eksistentiaalisista riskeistä, perustavaa huolta OpenAI:lle, ovat edelleen merkittäviä, erityisesti kun AI-järjestelmät alkavat vuorovaikuttaa enenevissä määrin todellisen maailman kanssa.
Avoimen lähdekoodin LLM-liike
Lisätäkseen avoimen lähdekoodin LLM-tutkimusta, Meta julkaisi Llama-sarjan malleja, laukaisi aallon uusia kehityksiä, jotka perustuvat Llamaan. Tähän kuuluu malleja, jotka on hienosäätelty ohjeistusdataa, kuten Alpaca, Vicuna, Lima ja WizardLM. Tutkimus on myös laajentunut parantamaan agenttien kykyjä, loogista päättelyä ja pitkän kontekstin mallintamista Llama-pohjaisessa kehyksessä.
Lisäksi on kasvava trendi kehittää voimakkaita LLM:itä alusta alkaen, kuten MPT, Falcon, XGen, Phi, Baichuan, Mistral, Grok ja Yi. Nämä ponnistelut heijastavat sitoutumista demokratisoimaan suljettujen LLM:ien kykyjä, tehdäkseen edistyneitä AI-työkaluja helpommin saataville ja tehokkaammaksi.
ChatGPT:n ja avoimien mallien vaikutus terveydenhuoltoon
Olemme näkemässä tulevaisuutta, jossa LLM:t avustavat kliinisten muistiinpanojen tekemisessä, lomakkeiden täyttämisessä korvauksia varten ja tukevat lääkäreitä diagnosoinnissa ja hoidon suunnittelussa. Tämä on herättänyt sekä teknologiajättiläisten että terveydenhuollon laitosten huomion.
Microsoftin keskustelut Epicin kanssa, johtavana sähköisen potilastietojen ohjelmistotoimittajana, osoittavat LLM:ien integroimista terveydenhuoltoon. Aloitteita on jo käynnissä UC San Diego Healthissa ja Stanford University Medical Centerissä. Vastaavasti Google yhteistyö Mayo Clinicin kanssa ja Amazon Web Servicesin HealthScribe, AI-kliininen dokumentointipalvelu, merkitsevät merkittäviä askelia tässä suunnassa.
Kuitenkin nämä nopeat käyttöönotot herättävät huolia siitä, että lääketiede siirtyy yritysten valvontaan. Suljettujen LLM:ien luonne tekee niiden arvioinnin haasteelliseksi. Niiden mahdollinen muuttaminen tai lopettaminen voittojen vuoksi voi vaarantaa potilaiden hoitoa, yksityisyyttä ja turvallisuutta.
Kiireellinen tarve on avoimelle ja kaikille avoimelle lähestymistavalle LLM:ien kehittämisessä terveydenhuollossa. Terveydenhuollon laitokset, tutkijat, lääkärit, potilaat ja muut sidosryhmät tulee tehdä yhteistyötä maailmanlaajuisesti kehittääkseen avoimen lähdekoodin LLM:itä terveydenhuoltoon. Tämä lähestymistapa, samanlainen kuin Trillion Parametri Konsortio, sallisi laskentaresurssien, taloudellisten resurssien ja asiantuntijoiden yhdistämisen.










