Vispārējais mākslīgais intelekts
Attīstošā ģeneratīvā AI ainava: ekspertu, multimodalitātes un AGI meklējumu apsekojums
Mākslīgā intelekta (AI) joma 2023. gadā ir piedzīvojusi milzīgu izaugsmi. Ģeneratīvā AI, kas koncentrējas uz reālistiska satura, piemēram, attēlu, audio, video un teksta, izveidi, ir bijis šo sasniegumu priekšgalā. Tādi modeļi kā DALL-E 3, Stable Diffusion un ChatGPT ir parādījuši jaunas radošas iespējas, taču arī radījuši bažas par ētiku, aizspriedumiem un ļaunprātīgu izmantošanu.
Tā kā ģeneratīvais AI turpina strauji attīstīties, šķiet, ka ekspertu (EM), multimodālās mācīšanās un centienu pēc mākslīgā vispārējā intelekta (AGI) kombinācija veidos nākamās pētniecības un lietojumu robežas. Šis raksts sniegs visaptverošu pārskatu par ģeneratīvā AI pašreizējo stāvokli un nākotnes trajektoriju, analizējot, kā tādas inovācijas kā Google Gemini un paredzamie projekti, piemēram, OpenAI Q*, pārveido ainavu. Tajā tiks pētītas reālās pasaules sekas veselības aprūpē, finansēs, izglītībā un citās jomās, vienlaikus risinot jaunas problēmas saistībā ar pētniecības kvalitāti un AI saskaņošanu ar cilvēka vērtībām.
ChatGPT izlaišana 2022. gada beigās īpaši izraisīja jaunu satraukumu un bažas saistībā ar AI, sākot no tā iespaidīgās dabiskās valodas prasmes līdz dezinformācijas izplatīšanas iespējām. Tikmēr Google jaunais Gemini modelis demonstrē ievērojami labākas sarunvalodas spējas salīdzinājumā ar tādiem priekšgājējiem kā LaMDA, izmantojot tādus sasniegumus kā uzmanība. Baumotie projekti, piemēram, OpenAI Q*, liecina par sarunvalodas AI apvienošanu ar mācīšanās pastiprināšanu.
Šīs inovācijas liecina par prioritātes maiņu uz multimodāliem, daudzpusīgiem ģeneratīvajiem modeļiem. Konkurences turpina saasināt arī tādu uzņēmumu kā Google, Meta, Anthropic un Cohere, kas sacenšas par robežu nobīdīšanu atbildīgā AI attīstībā.
AI pētniecības attīstība
Pieaugot iespējām, ir mainījušās arī pētniecības tendences un prioritātes, kas bieži vien atbilst tehnoloģiskajiem pavērsieniem. Dziļās mācīšanās pieaugums atkal izraisīja interesi par neironu tīkliem, savukārt dabiskās valodas apstrāde pieauga ar ChatGPT līmeņa modeļiem. Tikmēr uzmanība ētikai joprojām ir nemainīga prioritāte straujā progresa apstākļos.
Iepriekšējās drukas krātuvēs, piemēram, arXiv, ir bijis arī eksponenciāls mākslīgā intelekta iesniegumu pieaugums, nodrošinot ātrāku izplatīšanu, bet samazinot salīdzinošo pārskatīšanu un palielinot nepārbaudītu kļūdu vai novirzes risku. Mijiedarbība starp pētniecību un reālo ietekmi joprojām ir sarežģīta, tāpēc progresa virzīšanai ir nepieciešami koordinētāki centieni.
EM un multimodālās sistēmas — nākamais ģeneratīvā AI vilnis
Lai nodrošinātu daudzpusīgāku, izsmalcinātāku AI dažādās lietojumprogrammās, divas pieejas kļūst arvien populārākas: ekspertu (EM) un multimodālās mācīšanās kombinācijas.
EM arhitektūras apvieno vairākus specializētus neironu tīklu “ekspertus”, kas optimizēti dažādiem uzdevumiem vai datu tipiem. Google Gemini izmanto EM, lai apgūtu gan garas sarunu apmaiņas, gan kodolīgas atbildes uz jautājumiem. EM ļauj apstrādāt plašāku ievades diapazonu, nepalielinot modeļa izmēru.
Multimodālās sistēmas, piemēram, Google Gemini, nosaka jaunus etalonus, apstrādājot dažādas modalitātes, ne tikai tekstu. Tomēr, lai realizētu multimodālā AI potenciālu, ir jāpārvar galvenie tehniskie šķēršļi un ētiskas problēmas.
Dvīņi: Multimodalitātes kritēriju pārdefinēšana
Gemini ir multimodāls sarunvalodas AI, kas izveidots, lai izprastu sakarības starp tekstu, attēliem, audio un video. Tā dubultā kodētāja struktūra, vairāku veidu uzmanība un multimodālā dekodēšana nodrošina izsmalcinātu kontekstuālo izpratni. Tiek uzskatīts, ka Gemini pārspēj viena kodētāja sistēmas, saistot teksta jēdzienus ar vizuālajiem reģioniem. Integrējot strukturētas zināšanas un specializētu apmācību, Gemini pārspēj tādus priekšgājējus kā GPT-3 un GPT-4:
- Apstrādātas dažādas metodes, tostarp audio un video
- Veiktspēja pēc tādiem etaloniem kā liela daudzuzdevumu valodas izpratne
- Kodu ģenerēšana dažādās programmēšanas valodās
- Mērogojamība, izmantojot pielāgotas versijas, piemēram, Gemini Ultra un Nano
- Pārredzamība, izmantojot rezultātu pamatojumu
Tehniskie šķēršļi multimodālās sistēmās
Lai realizētu stabilu multimodālu AI, ir jāatrisina problēmas saistībā ar datu daudzveidību, mērogojamību, novērtēšanu un interpretējamību. Nesabalansētas datu kopas un anotāciju nekonsekvence rada neobjektivitāti. Vairāku datu straumju apstrāde noslogo skaitļošanas resursus un prasa optimizētu modeļu arhitektūru. Lai integrētu pretrunīgas multimodālas ievades, ir vajadzīgi sasniegumi uzmanības mehānismos un algoritmos. Mērogojamības problēmas joprojām pastāv lielo skaitļošanas izmaksu dēļ. Novērtēšanas metrikas precizēšana, izmantojot visaptverošus etalonus, ir ļoti svarīga. Lietotāju uzticības uzlabošana, izmantojot izskaidrojamu AI, arī joprojām ir ļoti svarīga. Šo tehnisko šķēršļu novēršana būs atslēga multimodālā AI iespēju atbloķēšanai.
Vispārējā mākslīgā intelekta celtniecības bloku montāža
AGI atspoguļo hipotētisku iespēju AI saskaņot vai pārsniegt cilvēka intelektu jebkurā jomā. Lai gan mūsdienu mākslīgais intelekts izceļas ar šauriem uzdevumiem, AGI joprojām ir tālu un strīdīgs, ņemot vērā tā iespējamos riskus.
Tomēr pakāpeniski sasniegumi tādās jomās kā pārnešanas mācīšanās, daudzuzdevumu apmācība, sarunvalodas spējas un abstrakcija tuvojas AGI augstajam redzējumam. OpenAI spekulatīvā Q* projekta mērķis ir integrēt pastiprināšanas mācības LLM kā vēl vienu soli uz priekšu.
Ētiskās robežas un AI modeļu manipulācijas riski
Jailbreaks ļauj uzbrucējiem apiet ētiskās robežas, kas noteiktas AI precizēšanas procesā. Tā rezultātā tiek ģenerēts kaitīgs saturs, piemēram, dezinformācija, naida runa, pikšķerēšanas e-pasta ziņojumi un ļaunprātīgs kods, radot risku personām, organizācijām un sabiedrībai kopumā. Piemēram, jailbreaked modelis varētu radīt saturu, kas veicina šķelšanos vai atbalsta kibernoziedzīgas darbības. (Uzziniet vairāk)
Lai gan vēl nav ziņots par kiberuzbrukumiem, izmantojot jailbreaking, vairāki koncepcijas pierādījuma jailbreaki ir viegli pieejami tiešsaistē un pārdošanai tumšajā tīmeklī. Šie rīki nodrošina uzvednes, kas izstrādātas, lai manipulētu ar AI modeļiem, piemēram, ChatGPT, kas, iespējams, ļauj hakeriem nopludināt sensitīvu informāciju, izmantojot uzņēmuma tērzēšanas robotus. Šo rīku izplatība tādās platformās kā kibernoziedzības forumi uzsver, ka ir steidzami jārisina šis apdraudējums. (Lasīt vairāk)
Jailbreak risku mazināšana
Lai novērstu šos draudus, ir nepieciešama daudzpusīga pieeja:
- Izturīga precizēšana: dažādu datu iekļaušana precizēšanas procesā uzlabo modeļa noturību pret manipulācijām.
- Sacensību apmācība: Apmācība ar pretrunīgiem piemēriem uzlabo modeļa spēju atpazīt manipulētas ievades un pretoties tām.
- Regulārais novērtējums: nepārtraukta rezultātu pārraudzība palīdz atklāt novirzes no ētikas vadlīnijām.
- Cilvēku uzraudzība: cilvēku pārskatītāju iesaistīšana nodrošina papildu drošības līmeni.
Ar AI darbināmi draudi: halucināciju izmantošana
AI halucinācijas, kurās modeļi ģenerē rezultātus, kas nav pamatoti ar viņu apmācības datiem, var tikt ierocis. Piemēram, uzbrucēji manipulēja ar ChatGPT, lai ieteiktu neesošas pakotnes, izraisot ļaunprātīgas programmatūras izplatīšanos. Tas uzsver nepieciešamību pēc pastāvīgas modrības un stingriem pretpasākumiem pret šādu izmantošanu. (Izpētiet tālāk)
Lai gan AGI īstenošanas ētika joprojām ir apgrūtinoša, tās centieni turpina ietekmēt ģeneratīvos AI pētniecības virzienus — neatkarīgi no tā, vai pašreizējie modeļi atgādina atspēriena punktus vai apkārtceļus ceļā uz cilvēka līmeņa AI.