peň Prvé výročie ChatGPT: Pretváranie budúcnosti interakcie AI - Unite.AI
Spojte sa s nami

Umelá inteligencia

Prvé výročie ChatGPT: Pretváranie budúcnosti interakcie AI

mm

uverejnené

 on

ChatGPT vs. modely s otvoreným zdrojom

Pri pohľade na prvý rok ChatGPT je jasné, že tento nástroj výrazne zmenil scénu AI. ChatGPT, ktorý bol spustený na konci roka 2022, vynikal svojim užívateľsky prívetivým štýlom konverzácie, vďaka ktorému sa interakcia s AI cítila skôr ako chatovanie s osobou než so strojom. Tento nový prístup rýchlo zaujal verejnosť. Už za päť dní po vydaní ChatGPT prilákal milión používateľov. Začiatkom roku 2023 sa toto číslo zvýšilo na približne 100 miliónov používateľov mesačne a do októbra platforma celosvetovo prilákala približne 1.7 miliardy návštev. Tieto čísla hovoria veľa o jeho popularite a užitočnosti.

Za posledný rok používatelia našli najrôznejšie kreatívne spôsoby používania ChatGPT, od jednoduchých úloh, ako je písanie e-mailov a aktualizácia životopisov, až po začatie úspešného podnikania. Nie je to však len o tom, ako to ľudia používajú; samotná technológia sa rozrástla a zlepšila. ChatGPT bola spočiatku bezplatná služba ponúkajúca podrobné textové odpovede. Teraz je tu ChatGPT Plus, ktorý zahŕňa ChatGPT-4. Táto aktualizovaná verzia je trénovaná na viac údajov, poskytuje menej nesprávnych odpovedí a lepšie rozumie zložitým pokynom.

Jednou z najväčších aktualizácií je, že ChatGPT môže teraz interagovať viacerými spôsobmi – môže počúvať, hovoriť a dokonca spracovávať obrázky. To znamená, že sa s ním môžete rozprávať prostredníctvom jeho mobilnej aplikácie a zobrazovať mu obrázky, aby ste dostali odpovede. Tieto zmeny otvorili nové možnosti pre AI a zmenili spôsob, akým ľudia vnímajú a premýšľajú o úlohe AI ​​v našich životoch.

Cesta ChatGPT je od svojich začiatkov ako technologickej ukážky až po súčasný stav významného hráča v technologickom svete celkom pôsobivá. Spočiatku to bolo vnímané ako spôsob testovania a zlepšovania technológie získavaním spätnej väzby od verejnosti. Rýchlo sa však stala nevyhnutnou súčasťou prostredia AI. Tento úspech ukazuje, aké efektívne je doladiť veľké jazykové modely (LLM) s učením pod dohľadom a spätnou väzbou od ľudí. Vďaka tomu dokáže ChatGPT zvládnuť širokú škálu otázok a úloh.

Preteky vo vývoji najschopnejších a najuniverzálnejších systémov AI viedli k rozšíreniu modelov s otvoreným zdrojom aj proprietárnych modelov, ako je ChatGPT. Pochopenie ich všeobecných schopností si vyžaduje komplexné benchmarky pre široké spektrum úloh. Táto časť skúma tieto referenčné hodnoty a objasňuje, ako sa rôzne modely vrátane ChatGPT navzájom spájajú.

Hodnotenie LLM: Benchmarky

  1. MT-Bench: Tento benchmark testuje viackolovú konverzáciu a schopnosti nasledovať inštrukcie v ôsmich doménach: písanie, hranie rolí, extrakcia informácií, uvažovanie, matematika, kódovanie, znalosti STEM a humanitné/spoločenské vedy. Silnejšie LLM ako GPT-4 sa používajú ako hodnotitelia.
  2. AlpacaEval: Na základe hodnotiacej sady AlpacaFarm tento automatický hodnotiaci nástroj založený na LLM porovnáva modely s odpoveďami pokročilých LLM, ako sú GPT-4 a Claude, a vypočítava mieru víťazstva kandidátskych modelov.
  3. Otvorte tabuľku výsledkov LLM: Tento rebríček hodnotí LLM pomocou nástroja Language Model Evaluation Harness podľa siedmich kľúčových kritérií, vrátane výziev na uvažovanie a všeobecných vedomostných testov, a to v nastaveniach typu zero-shot a few-shot.
  4. VEĽKÁ lavica: Tento spoločný benchmark pokrýva viac ako 200 nových jazykových úloh, ktoré zahŕňajú rôzne témy a jazyky. Jeho cieľom je skúmať LLM a predpovedať ich budúce schopnosti.
  5. ChatEval: Rámec diskusií s viacerými agentmi, ktorý umožňuje tímom autonómne diskutovať a hodnotiť kvalitu odpovedí z rôznych modelov na otvorené otázky a tradičné úlohy generovania prirodzeného jazyka.

Porovnávací výkon

Pokiaľ ide o všeobecné referenčné hodnoty, LLM s otvoreným zdrojom preukázali pozoruhodný pokrok. Lama-2-70B, napríklad dosiahol pôsobivé výsledky, najmä po doladení pomocou inštrukcií. Jeho variant, Llama-2-chat-70B, exceloval v AlpacaEval s 92.66% výhrou, čím prekonal GPT-3.5-turbo. GPT-4 však zostáva lídrom s 95.28% výhrou.

Zephyr-7B, menší model, preukázal schopnosti porovnateľné s väčšími 70B LLM, najmä v AlpacaEval a MT-Bench. Medzitým WizardLM-70B, vyladený s rozmanitým rozsahom inštrukčných údajov, dosiahol najvyššie skóre medzi open source LLM na MT-Bench. Stále však zaostával za GPT-3.5-turbo a GPT-4.

Zaujímavý záznam, GodziLLa2-70B, dosiahol konkurenčné skóre v rebríčku Open LLM, čím ukázal potenciál experimentálnych modelov kombinujúcich rôzne súbory údajov. Podobne Yi-34B, vyvinutý od nuly, vynikal skóre porovnateľnými s GPT-3.5-turbo a len mierne za GPT-4.

UltraLlama sa svojím doladením na rôznorodé a vysokokvalitné dáta vyrovnala GPT-3.5-turbo v navrhovaných benchmarkoch a dokonca ho prekonala v oblastiach svetových a odborných znalostí.

Rozšírenie: Vzostup obrovských LLM

LLM modely

Najlepšie modely LLM od roku 2020

Pozoruhodným trendom vo vývoji LLM bolo zväčšovanie parametrov modelu. Modely ako Gopher, GLaM, LaMDA, MT-NLG a PaLM posunuli hranice a vyvrcholili modelmi s až 540 miliardami parametrov. Tieto modely preukázali výnimočné schopnosti, ale ich povaha uzavretého zdroja obmedzila ich širšie uplatnenie. Toto obmedzenie podnietilo záujem o vývoj LLM s otvoreným zdrojom, čo je trend, ktorý naberá na sile.

Súbežne so zväčšením veľkosti modelov výskumníci skúmali alternatívne stratégie. Namiesto toho, aby len zväčšovali modely, zamerali sa na zlepšenie predtréningu menších modelov. Príklady zahŕňajú činčila a UL2, ktoré ukázali, že viac nie je vždy lepšie; inteligentnejšie stratégie môžu tiež priniesť efektívne výsledky. Okrem toho sa značná pozornosť venovala ladeniu výučby jazykových modelov, pričom projekty ako FLAN, T0 a Flan-T5 významne prispeli k tejto oblasti.

Katalyzátor ChatGPT

Predstavenie OpenAI ChatGPT znamenalo zlom vo výskume NLP. Aby mohli konkurovať OpenAI, spoločnosti ako Google a Anthropic spustili svoje vlastné modely, Bard a Claude. Aj keď tieto modely vykazujú v mnohých úlohách výkon porovnateľný s ChatGPT, stále zaostávajú za najnovším modelom od OpenAI, GPT-4. Úspech týchto modelov sa pripisuje predovšetkým posilneniu učenia sa z ľudskej spätnej väzby (RLHF), čo je technika, ktorej výskum sa venuje zvýšenému záujmu o ďalšie zlepšenie.

Povesti a špekulácie okolo Q* OpenAI (Q-Star)

Najnovšie správy naznačujú, že výskumníci z OpenAI mohli dosiahnuť významný pokrok v AI s vývojom nového modelu s názvom Q* (vyslovuje sa Q hviezda). Q* má údajne schopnosť vykonávať matematiku na úrovni základnej školy, čo je výkon, ktorý medzi odborníkmi vyvolal diskusiu o jeho potenciáli ako míľnika smerom k umelej všeobecnej inteligencii (AGI). Aj keď OpenAI tieto správy nekomentovala, špekulatívne schopnosti Q* vyvolali značné vzrušenie a špekulácie na sociálnych sieťach a medzi nadšencami AI.

Vývoj Q* je pozoruhodný, pretože existujúce jazykové modely ako ChatGPT a GPT-4, aj keď sú schopné vykonávať niektoré matematické úlohy, nie sú obzvlášť schopné ich spoľahlivo zvládnuť. Výzva spočíva v potrebe modelov AI nielen rozpoznať vzory, ako to v súčasnosti robia prostredníctvom hlbokého učenia a transformátorov, ale aj uvažovať a chápať abstraktné pojmy. Matematika, ktorá je meradlom pre uvažovanie, vyžaduje, aby AI naplánovala a vykonala viacero krokov, čo demonštruje hlboké pochopenie abstraktných pojmov. Táto schopnosť by znamenala významný skok v schopnostiach AI, ktorý by potenciálne presahoval hranice matematiky k iným zložitým úlohám.

Odborníci však varujú pred preháňaním tohto vývoja. Zatiaľ čo systém AI, ktorý spoľahlivo rieši matematické problémy, by bol pôsobivým úspechom, nemusí to nevyhnutne signalizovať príchod superinteligentnej AI alebo AGI. Súčasný výskum AI, vrátane úsilia OpenAI, sa zameral na elementárne problémy s rôznym stupňom úspechu v zložitejších úlohách.

Potenciálne vylepšenia aplikácií, ako je Q*, sú rozsiahle, od personalizovaného doučovania až po pomoc pri vedeckom výskume a inžinierstve. Je však tiež dôležité riadiť očakávania a rozpoznať obmedzenia a bezpečnostné obavy spojené s takýmito pokrokmi. Obavy z AI predstavujúce existenčné riziká, ktoré sú základnou obavou OpenAI, zostávajú na mieste, najmä keď sa systémy AI začínajú viac prepájať s reálnym svetom.

Hnutie LLM s otvoreným zdrojom

Na podporu výskumu LLM s otvoreným zdrojom vydala spoločnosť Meta modely série Llama, čím spustila vlnu nového vývoja založeného na Llame. Patria sem modely doladené údajmi o pokynoch, ako sú Alpaca, Vicuna, Lima a WizardLM. Výskum sa tiež rozvetvuje do vylepšenia schopností agentov, logického uvažovania a modelovania v dlhom kontexte v rámci založenom na Llame.

Okrem toho existuje rastúci trend vývoja výkonných LLM od nuly s projektmi ako MPT, Falcon, XGen, Phi, Baichuan, mistral, groka Yi. Toto úsilie odzrkadľuje záväzok demokratizovať schopnosti LLM s uzavretým zdrojom, vďaka čomu sú pokročilé nástroje AI dostupnejšie a efektívnejšie.

Vplyv modelov ChatGPT a Open Source v zdravotníctve

Pozeráme sa na budúcnosť, kde LLM budú pomáhať pri zapisovaní klinických poznámok, vypĺňaní formulárov na úhradu a pri podpore lekárov pri diagnostike a plánovaní liečby. To upútalo pozornosť technologických gigantov aj zdravotníckych inštitúcií.

Microsoft diskusie s Epic, popredný poskytovateľ softvéru pre elektronické zdravotné záznamy, signalizujú integráciu LLM do zdravotnej starostlivosti. Iniciatívy už existujú v UC San Diego Health a Stanford University Medical Center. Podobne aj Google partnerstvá s Mayo Clinic a Amazon Web ServicesSpustenie HealthScribe, služby klinickej dokumentácie AI, znamená významný pokrok v tomto smere.

Tieto rýchle nasadenia však vyvolávajú obavy z postúpenia kontroly nad liekmi na firemné záujmy. Vlastnícky charakter týchto LLM sťažuje ich hodnotenie. Ich prípadná úprava alebo prerušenie z dôvodov ziskovosti by mohla ohroziť starostlivosť o pacienta, súkromie a bezpečnosť.

Naliehavou potrebou je otvorený a inkluzívny prístup k rozvoju LLM v zdravotníctve. Zdravotnícke inštitúcie, výskumníci, lekári a pacienti musia globálne spolupracovať na budovaní open source LLM pre zdravotnú starostlivosť. Tento prístup, podobný konzorciu Trillion Parameter Consortium, by umožnil združovanie výpočtových, finančných zdrojov a odborných znalostí.

Posledných päť rokov som strávil ponorením sa do fascinujúceho sveta strojového učenia a hlbokého učenia. Moja vášeň a odborné znalosti ma viedli k tomu, že som prispel k viac ako 50 rôznym projektom softvérového inžinierstva s osobitným zameraním na AI/ML. Moja neustála zvedavosť ma tiež priviedla k spracovaniu prirodzeného jazyka, oblasti, ktorú by som chcel ďalej skúmať.