stubs Attīstošā ģeneratīvā AI ainava: ekspertu, multimodalitātes un AGI meklējumu apsekojums — Unite.AI
Savienoties ar mums

Vispārējais mākslīgais intelekts

Attīstošā ģeneratīvā AI ainava: ekspertu, multimodalitātes un AGI meklējumu apsekojums

mm

Izdots

 on

Mākslīgā intelekta (AI) joma 2023. gadā ir piedzīvojusi milzīgu izaugsmi. Ģeneratīvā AI, kas koncentrējas uz reālistiska satura, piemēram, attēlu, audio, video un teksta, izveidi, ir bijis šo sasniegumu priekšgalā. Tādi modeļi kā DALL-E 3, Stable Diffusion un ChatGPT ir parādījuši jaunas radošas iespējas, taču arī radījuši bažas par ētiku, aizspriedumiem un ļaunprātīgu izmantošanu.

Tā kā ģeneratīvais AI turpina strauji attīstīties, šķiet, ka ekspertu (EM), multimodālās mācīšanās un centienu pēc mākslīgā vispārējā intelekta (AGI) kombinācija veidos nākamās pētniecības un lietojumu robežas. Šis raksts sniegs visaptverošu pārskatu par ģeneratīvā AI pašreizējo stāvokli un nākotnes trajektoriju, analizējot, kā tādas inovācijas kā Google Gemini un paredzamie projekti, piemēram, OpenAI Q*, pārveido ainavu. Tajā tiks pētītas reālās pasaules sekas veselības aprūpē, finansēs, izglītībā un citās jomās, vienlaikus risinot jaunas problēmas saistībā ar pētniecības kvalitāti un AI saskaņošanu ar cilvēka vērtībām.

ChatGPT izlaišana 2022. gada beigās īpaši izraisīja jaunu satraukumu un bažas saistībā ar AI, sākot no tā iespaidīgās dabiskās valodas prasmes līdz dezinformācijas izplatīšanas iespējām. Tikmēr Google jaunais Gemini modelis demonstrē ievērojami labākas sarunvalodas spējas salīdzinājumā ar tādiem priekšgājējiem kā LaMDA, izmantojot tādus sasniegumus kā uzmanība. Baumotie projekti, piemēram, OpenAI Q*, liecina par sarunvalodas AI apvienošanu ar mācīšanās pastiprināšanu.

Šīs inovācijas liecina par prioritātes maiņu uz multimodāliem, daudzpusīgiem ģeneratīvajiem modeļiem. Konkurences turpina saasināt arī tādu uzņēmumu kā Google, Meta, Anthropic un Cohere, kas sacenšas par robežu nobīdīšanu atbildīgā AI attīstībā.

AI pētniecības attīstība

Pieaugot iespējām, ir mainījušās arī pētniecības tendences un prioritātes, kas bieži vien atbilst tehnoloģiskajiem pavērsieniem. Dziļās mācīšanās pieaugums atkal izraisīja interesi par neironu tīkliem, savukārt dabiskās valodas apstrāde pieauga ar ChatGPT līmeņa modeļiem. Tikmēr uzmanība ētikai joprojām ir nemainīga prioritāte straujā progresa apstākļos.

Iepriekšējās drukas krātuvēs, piemēram, arXiv, ir bijis arī eksponenciāls mākslīgā intelekta iesniegumu pieaugums, nodrošinot ātrāku izplatīšanu, bet samazinot salīdzinošo pārskatīšanu un palielinot nepārbaudītu kļūdu vai novirzes risku. Mijiedarbība starp pētniecību un reālo ietekmi joprojām ir sarežģīta, tāpēc progresa virzīšanai ir nepieciešami koordinētāki centieni.

EM un multimodālās sistēmas — nākamais ģeneratīvā AI vilnis

Lai nodrošinātu daudzpusīgāku, izsmalcinātāku AI dažādās lietojumprogrammās, divas pieejas kļūst arvien populārākas: ekspertu (EM) un multimodālās mācīšanās kombinācijas.

EM arhitektūras apvieno vairākus specializētus neironu tīklu “ekspertus”, kas optimizēti dažādiem uzdevumiem vai datu tipiem. Google Gemini izmanto EM, lai apgūtu gan garas sarunu apmaiņas, gan kodolīgas atbildes uz jautājumiem. EM ļauj apstrādāt plašāku ievades diapazonu, nepalielinot modeļa izmēru.

Multimodālās sistēmas, piemēram, Google Gemini, nosaka jaunus etalonus, apstrādājot dažādas modalitātes, ne tikai tekstu. Tomēr, lai realizētu multimodālā AI potenciālu, ir jāpārvar galvenie tehniskie šķēršļi un ētiskas problēmas.

Dvīņi: Multimodalitātes kritēriju pārdefinēšana

Gemini ir multimodāls sarunvalodas AI, kas izveidots, lai izprastu sakarības starp tekstu, attēliem, audio un video. Tā dubultā kodētāja struktūra, vairāku veidu uzmanība un multimodālā dekodēšana nodrošina izsmalcinātu kontekstuālo izpratni. Tiek uzskatīts, ka Gemini pārspēj viena kodētāja sistēmas, saistot teksta jēdzienus ar vizuālajiem reģioniem. Integrējot strukturētas zināšanas un specializētu apmācību, Gemini pārspēj tādus priekšgājējus kā GPT-3 un GPT-4:

  • Apstrādātas dažādas metodes, tostarp audio un video
  • Veiktspēja pēc tādiem etaloniem kā liela daudzuzdevumu valodas izpratne
  • Kodu ģenerēšana dažādās programmēšanas valodās
  • Mērogojamība, izmantojot pielāgotas versijas, piemēram, Gemini Ultra un Nano
  • Pārredzamība, izmantojot rezultātu pamatojumu

Tehniskie šķēršļi multimodālās sistēmās

Lai realizētu stabilu multimodālu AI, ir jāatrisina problēmas saistībā ar datu daudzveidību, mērogojamību, novērtēšanu un interpretējamību. Nesabalansētas datu kopas un anotāciju nekonsekvence rada neobjektivitāti. Vairāku datu straumju apstrāde noslogo skaitļošanas resursus un prasa optimizētu modeļu arhitektūru. Lai integrētu pretrunīgas multimodālas ievades, ir vajadzīgi sasniegumi uzmanības mehānismos un algoritmos. Mērogojamības problēmas joprojām pastāv lielo skaitļošanas izmaksu dēļ. Novērtēšanas metrikas precizēšana, izmantojot visaptverošus etalonus, ir ļoti svarīga. Lietotāju uzticības uzlabošana, izmantojot izskaidrojamu AI, arī joprojām ir ļoti svarīga. Šo tehnisko šķēršļu novēršana būs atslēga multimodālā AI iespēju atbloķēšanai.

Uzlabotas mācīšanās metodes, piemēram, pašuzraudzīta mācīšanās, meta-apmācība un precizēšana, ir AI izpētes priekšgalā, uzlabojot AI modeļu autonomiju, efektivitāti un daudzpusību.

Pašuzraudzīta mācīšanās: autonomija modeļu apmācībā

Pašuzraudzītā mācīšanās uzsver autonomu modeļu apmācību, izmantojot nemarķētus datus, tādējādi samazinot manuālās marķēšanas centienus un modeļu novirzes. Tas ietver ģeneratīvus modeļus, piemēram, autokodētājus un GAN datu izplatīšanas apguvei un ievades rekonstrukcijai, un izmanto kontrastējošas metodes, piemēram, SimCLR un MoCo, lai atšķirtu pozitīvos un negatīvos paraugu pārus. Pašprognozēšanas stratēģijām, ko iedvesmojis NLP un uzlabojuši nesenie Vision Transformers, ir nozīmīga loma pašpārraudzītā mācībā, demonstrējot tās potenciālu mākslīgā intelekta autonomās apmācības spēju uzlabošanā.

Meta-apmācība

Meta-learning jeb “mācīšanās mācīties” ir vērsta uz AI modeļu aprīkošanu ar spēju ātri pielāgoties jauniem uzdevumiem, izmantojot ierobežotus datu paraugus. Šis paņēmiens ir kritisks situācijās ar ierobežotu datu pieejamību, nodrošinot, ka modeļi var ātri pielāgoties un veikt dažādus uzdevumus. Tas uzsver dažu kadru vispārināšanu, ļaujot AI veikt plašu uzdevumu klāstu ar minimālu datu daudzumu, uzsverot tā nozīmi daudzpusīgu un pielāgojamu AI sistēmu izstrādē.

Precīza regulēšana: AI pielāgošana īpašām vajadzībām

Precizēšana ietver iepriekš apmācītu modeļu pielāgošanu noteiktiem domēniem vai lietotāju vēlmēm. Tās divas galvenās pieejas ietver pilnīgu precizēšanu, kas pielāgo visus kodētāja un klasifikatora svarus, un funkciju ekstrakcijas precīzo regulēšanu, kur kodētāja svari tiek iesaldēti pakārtotai klasifikācijai. Šis paņēmiens nodrošina, ka ģeneratīvie modeļi tiek efektīvi pielāgoti konkrētām lietotāju vajadzībām vai domēna prasībām, uzlabojot to pielietojamību dažādos kontekstos.

Cilvēka vērtību saskaņošana: AI saskaņošana ar ētiku

Cilvēka vērtību saskaņošana ir vērsta uz AI modeļu saskaņošanu ar cilvēka ētiku un vērtībām, nodrošinot, ka viņu lēmumi atspoguļo sabiedrības normas un ētikas standartus. Šis aspekts ir ļoti svarīgs scenārijos, kuros AI cieši mijiedarbojas ar cilvēkiem, piemēram, veselības aprūpē un personīgajos asistentos, lai nodrošinātu, ka AI sistēmas pieņem ētiski un sociāli atbildīgus lēmumus.

AGI attīstība

AGI koncentrējas uz AI izstrādi ar holistiskas izpratnes un sarežģītas spriešanas spēju, kas atbilst cilvēka kognitīvajām spējām. Šī ilgtermiņa vēlme nepārtraukti virza AI pētniecības un izstrādes robežas. AGI Safety and Containment pievēršas potenciālajiem riskiem, kas saistīti ar progresīvām mākslīgā intelekta sistēmām, uzsverot nepieciešamību pēc stingriem drošības protokoliem un ētiskas saskaņošanas ar cilvēka vērtībām un sabiedrības normām.

Inovatīva EM

Mixture of Experts (MoE) modeļa arhitektūra ir ievērojams progress uz transformatoriem balstītos valodu modeļos, piedāvājot nepārspējamu mērogojamību un efektivitāti. EM modeļi, piemēram, Switch Transformer un Mixtral, strauji maina modeļa mērogu un veiktspēju dažādos valodu uzdevumos.

Pamatkoncepcija

EM modeļos tiek izmantota uz retumu balstīta arhitektūra ar vairākiem ekspertu tīkliem un apmācāmu vārtu mehānismu, optimizējot skaitļošanas resursus un pielāgojoties uzdevumu sarežģītībai. Tie demonstrē būtiskas priekšrocības priekšapmācības ātrumā, taču saskaras ar problēmām precizēšanā un prasa ievērojamu atmiņu, lai izdarītu secinājumus.

MoE modeļi ir pazīstami ar savu izcilo pirmsapmācības ātrumu, ar tādiem jauninājumiem kā DeepSpeed-MoE, kas optimizē secinājumus, lai panāktu labāku latentumu un izmaksu efektivitāti. Jaunākie sasniegumi ir efektīvi novērsuši visaptverošās komunikācijas vājās vietas, uzlabojot apmācību un secinājumu veikšanas efektivitāti.

Vispārējā mākslīgā intelekta celtniecības bloku montāža

AGI atspoguļo hipotētisku iespēju AI saskaņot vai pārsniegt cilvēka intelektu jebkurā jomā. Lai gan mūsdienu mākslīgais intelekts izceļas ar šauriem uzdevumiem, AGI joprojām ir tālu un strīdīgs, ņemot vērā tā iespējamos riskus.

Tomēr pakāpeniski sasniegumi tādās jomās kā pārnešanas mācīšanās, daudzuzdevumu apmācība, sarunvalodas spējas un abstrakcija tuvojas AGI augstajam redzējumam. OpenAI spekulatīvā Q* projekta mērķis ir integrēt pastiprināšanas mācības LLM kā vēl vienu soli uz priekšu.

Ētiskās robežas un AI modeļu manipulācijas riski

Jailbreaks ļauj uzbrucējiem apiet ētiskās robežas, kas noteiktas AI precizēšanas procesā. Tā rezultātā tiek ģenerēts kaitīgs saturs, piemēram, dezinformācija, naida runa, pikšķerēšanas e-pasta ziņojumi un ļaunprātīgs kods, radot risku personām, organizācijām un sabiedrībai kopumā. Piemēram, jailbreaked modelis varētu radīt saturu, kas veicina šķelšanos vai atbalsta kibernoziedzīgas darbības. (Uzziniet vairāk)

Lai gan vēl nav ziņots par kiberuzbrukumiem, izmantojot jailbreaking, vairāki koncepcijas pierādījuma jailbreaki ir viegli pieejami tiešsaistē un pārdošanai tumšajā tīmeklī. Šie rīki nodrošina uzvednes, kas izstrādātas, lai manipulētu ar AI modeļiem, piemēram, ChatGPT, kas, iespējams, ļauj hakeriem nopludināt sensitīvu informāciju, izmantojot uzņēmuma tērzēšanas robotus. Šo rīku izplatība tādās platformās kā kibernoziedzības forumi uzsver, ka ir steidzami jārisina šis apdraudējums. (Lasīt vairāk)

Jailbreak risku mazināšana

Lai novērstu šos draudus, ir nepieciešama daudzpusīga pieeja:

  1. Izturīga precizēšana: dažādu datu iekļaušana precizēšanas procesā uzlabo modeļa noturību pret manipulācijām.
  2. Sacensību apmācība: Apmācība ar pretrunīgiem piemēriem uzlabo modeļa spēju atpazīt manipulētas ievades un pretoties tām.
  3. Regulārais novērtējums: nepārtraukta rezultātu pārraudzība palīdz atklāt novirzes no ētikas vadlīnijām.
  4. Cilvēku uzraudzība: cilvēku pārskatītāju iesaistīšana nodrošina papildu drošības līmeni.

Ar AI darbināmi draudi: halucināciju izmantošana

AI halucinācijas, kurās modeļi ģenerē rezultātus, kas nav pamatoti ar viņu apmācības datiem, var tikt ierocis. Piemēram, uzbrucēji manipulēja ar ChatGPT, lai ieteiktu neesošas pakotnes, izraisot ļaunprātīgas programmatūras izplatīšanos. Tas uzsver nepieciešamību pēc pastāvīgas modrības un stingriem pretpasākumiem pret šādu izmantošanu. (Izpētiet tālāk)

Lai gan AGI īstenošanas ētika joprojām ir apgrūtinoša, tās centieni turpina ietekmēt ģeneratīvos AI pētniecības virzienus — neatkarīgi no tā, vai pašreizējie modeļi atgādina atspēriena punktus vai apkārtceļus ceļā uz cilvēka līmeņa AI.

Pēdējos piecus gadus esmu pavadījis, iegremdējot sevi aizraujošajā mašīnmācīšanās un dziļās mācīšanās pasaulē. Mana aizraušanās un pieredze lika man piedalīties vairāk nekā 50 dažādos programmatūras inženierijas projektos, īpašu uzmanību pievēršot AI/ML. Mana pastāvīgā ziņkārība mani ir piesaistījusi arī dabiskās valodas apstrādei, jomai, kuru vēlos izpētīt tālāk.