Kunsmatige Algemene Intelligensie

Die ontwikkelende landskap van generatiewe KI: 'n opname van 'n mengsel van kundiges, multimodaliteit en die soeke na AGI

Gepubliseer

4 maande gelede

12 Januarie 2024

Die veld van kunsmatige intelligensie (KI) het geweldige groei beleef in 2023. Generatiewe KI, wat fokus op die skep van realistiese inhoud soos beelde, oudio, video en teks, was aan die voorpunt van hierdie vooruitgang. Modelle soos DALL-E 3, Stable Diffusion en ChatGPT het nuwe kreatiewe vermoëns getoon, maar het ook kommer oor etiek, vooroordele en misbruik geopper.

Terwyl generatiewe KI steeds teen 'n vinnige tempo ontwikkel, lyk dit asof mengsels van kundiges (MoE), multimodale leer en aspirasies na kunsmatige algemene intelligensie (AGI) die volgende grense van navorsing en toepassings sal vorm. Hierdie artikel sal 'n omvattende opname verskaf van die huidige stand en toekomstige trajek van generatiewe KI, en ontleed hoe innovasies soos Google se Gemini en verwagte projekte soos OpenAI se Q* die landskap transformeer. Dit sal die werklike implikasies oor gesondheidsorg, finansies, onderwys en ander domeine ondersoek, terwyl opkomende uitdagings rondom navorsingskwaliteit en KI-belyning met menslike waardes na vore kom.

Die vrystelling van ChatGPT aan die einde van 2022 het spesifiek hernieude opgewondenheid en kommer oor KI ontlok, van sy indrukwekkende natuurlike taalvaardigheid tot sy potensiaal om verkeerde inligting te versprei. Intussen demonstreer Google se nuwe Gemini-model aansienlik verbeterde gespreksvermoë bo voorgangers soos LaMDA deur vooruitgang soos spike-en-slab aandag. Gerugte projekte soos OpenAI se Q* wenk daarop om gesprekke-KI met versterkende leer te kombineer.

Hierdie innovasies dui op 'n verskuiwing van prioriteit na multimodale, veelsydige generatiewe modelle. Kompetisies word ook steeds warmer tussen maatskappye soos Google, Meta, Anthropic en Cohere wat meeding om grense te verskuif in verantwoordelike KI-ontwikkeling.

Die evolusie van KI-navorsing

Soos vermoëns gegroei het, het navorsingstendense en -prioriteite ook verskuif, wat dikwels ooreenstem met tegnologiese mylpale. Die opkoms van diep leer het weer belangstelling in neurale netwerke laat opvlam, terwyl natuurlike taalverwerking toegeneem het met ChatGPT-vlak modelle. Intussen bly aandag aan etiek as 'n konstante prioriteit te midde van vinnige vooruitgang.

Voordrukbewaarplekke soos arXiv het ook eksponensiële groei in KI-voorleggings gesien, wat vinniger verspreiding moontlik maak, maar ewekniebeoordeling verminder en die risiko van ongekontroleerde foute of vooroordele verhoog. Die wisselwerking tussen navorsing en werklike impak bly kompleks, wat meer gekoördineerde pogings noodsaak om vordering te stuur.

MoE en multimodale stelsels – Die volgende golf van generatiewe KI

Om meer veelsydige, gesofistikeerde KI oor uiteenlopende toepassings moontlik te maak, is twee benaderings wat bekendheid verwerf, mengsels van kundiges (MoE) en multimodale leer.

MoE-argitekture kombineer veelvuldige gespesialiseerde neurale netwerk-“kundiges” wat vir verskillende take of datatipes geoptimaliseer is. Google se Tweeling gebruik MoE om beide lang gespreksuitruilings en bondige vraagbeantwoording te bemeester. MoE maak dit moontlik om 'n groter reeks insette te hanteer sonder om die modelgrootte te ballon.

Multimodale stelsels soos Google se Gemini stel nuwe maatstawwe deur verskillende modaliteite te verwerk as net teks. Die verwesenliking van die potensiaal van multimodale KI vereis egter om belangrike tegniese hindernisse en etiese uitdagings te oorkom.

Tweeling: Herdefinieer maatstawwe in multimodaliteit

Gemini is 'n multimodale gespreks-KI, ontwerp om verbande tussen teks, beelde, oudio en video te verstaan. Die dubbele enkodeerderstruktuur, kruismodale aandag en multimodale dekodering maak gesofistikeerde kontekstuele begrip moontlik. Daar word geglo dat Tweeling enkelenkodeerderstelsels oortref deur tekskonsepte met visuele streke te assosieer. Deur gestruktureerde kennis en gespesialiseerde opleiding te integreer, oortref Gemini voorgangers soos GPT-3 en GPT-4 in:

Breedte van modaliteite wat hanteer word, insluitend oudio en video
Prestasie op maatstawwe soos massiewe multitaak-taalbegrip
Kodegenerering oor programmeertale
Skaalbaarheid via pasgemaakte weergawes soos Gemini Ultra en Nano
Deursigtigheid deur regverdigings vir uitsette

Tegniese struikelblokke in multimodale stelsels

Die verwesenliking van robuuste multimodale KI vereis die oplossing van kwessies in datadiversiteit, skaalbaarheid, evaluering en interpreteerbaarheid. Ongebalanseerde datastelle en annotasie-onkonsekwenthede lei tot vooroordeel. Die verwerking van veelvuldige datastrome strem rekenaarhulpbronne, wat geoptimaliseerde modelargitekture vereis. Vooruitgang in aandagmeganismes en algoritmes is nodig om teenstrydige multimodale insette te integreer. Skaalbaarheidskwessies duur voort as gevolg van uitgebreide berekeningsbokoste. Die verfyning van evalueringsstatistieke deur omvattende maatstawwe is van kardinale belang. Die verbetering van gebruikersvertroue via verklaarbare AI bly ook noodsaaklik. Die aanspreek van hierdie tegniese struikelblokke sal die sleutel wees om multimodale KI se vermoëns te ontsluit.

Gevorderde leertegnieke soos selftoesig leer, metaleer en fynafstelling is aan die voorpunt van KI-navorsing, wat die outonomie, doeltreffendheid en veelsydigheid van KI-modelle verbeter.

Self-toesig leer: outonomie in model opleiding

Self-toesig leer beklemtoon outonome model opleiding deur gebruik te maak van ongemerkte data, waardeur handmatige etikettering pogings en model vooroordele verminder. Dit inkorporeer generatiewe modelle soos outo-enkodeerders en GAN's vir dataverspreiding-leer en insetrekonstruksie, en gebruik kontrastiewe metodes soos SimCLR en MoCo om te onderskei tussen positiewe en negatiewe steekproefpare. Selfvoorspellingstrategieë, geïnspireer deur NLP en versterk deur onlangse Vision Transformers, speel 'n beduidende rol in self-toesig leer, wat die potensiaal daarvan ten toon stel om KI se outonome opleidingsvermoëns te bevorder.

Meta-leer

Metaleer, of 'leer om te leer', fokus daarop om KI-modelle toe te rus met die vermoë om vinnig by nuwe take aan te pas deur gebruik te maak van beperkte datamonsters. Hierdie tegniek is van kritieke belang in situasies met beperkte databeskikbaarheid, om te verseker dat modelle vinnig kan aanpas en oor uiteenlopende take kan verrig. Dit beklemtoon 'n paar skoot veralgemening, wat KI in staat stel om 'n wye reeks take met minimale data te hanteer, wat die belangrikheid daarvan onderstreep in die ontwikkeling van veelsydige en aanpasbare KI-stelsels.

Fyninstelling: Pas KI aan vir spesifieke behoeftes

Fynafstelling behels die aanpassing van voorafopgeleide modelle by spesifieke domeine of gebruikervoorkeure. Sy twee primêre benaderings sluit in end-tot-end fyn-instelling, wat alle gewigte van die enkodeerder en klassifiseerder aanpas, en kenmerk-onttrekking fyn-tuning, waar die enkodeerder gewigte gevries word vir stroomaf klassifikasie. Hierdie tegniek verseker dat generatiewe modelle effektief aangepas word by spesifieke gebruikerbehoeftes of domeinvereistes, wat hul toepaslikheid oor verskeie kontekste verbeter.

Menswaarde-belyning: harmonisering van KI met etiek

Menswaardebelyning konsentreer daarop om KI-modelle in lyn te bring met menslike etiek en waardes, om te verseker dat hul besluite maatskaplike norme en etiese standaarde weerspieël. Hierdie aspek is van kardinale belang in scenario's waar KI nou interaksie het met mense, soos in gesondheidsorg en persoonlike assistente, om te verseker dat KI-stelsels besluite neem wat eties en sosiaal verantwoordelik is.

AGI Ontwikkeling

AGI fokus op die ontwikkeling van KI met die vermoë vir holistiese begrip en komplekse redenasie, wat ooreenstem met menslike kognitiewe vermoëns. Hierdie langtermyn-aspirasie verskuif voortdurend die grense van KI-navorsing en -ontwikkeling. AGI-veiligheid en -beperking spreek die potensiële risiko's aan verbonde aan gevorderde KI-stelsels, en beklemtoon die behoefte aan streng veiligheidsprotokolle en etiese belyning met menslike waardes en samelewingsnorme.

Die innoverende MoE

Die mengsel van kundiges (MoE) modelargitektuur verteenwoordig 'n beduidende vooruitgang in transformator-gebaseerde taalmodelle, wat ongeëwenaarde skaalbaarheid en doeltreffendheid bied. MoE-modelle, soos die Switch Transformer en Mixtral, herdefinieer vinnig modelskaal en werkverrigting oor uiteenlopende taaltake.

Kernkonsep

MoE-modelle gebruik 'n yl-gedrewe argitektuur met veelvuldige kundige netwerke en 'n opleibare hekmeganisme, wat berekeningshulpbronne optimaliseer en by taakkompleksiteit aanpas. Hulle toon aansienlike voordele in voor-oefenspoed, maar staar uitdagings in die gesig met fyninstelling en vereis aansienlike geheue vir afleiding.

MoE-modelle is bekend vir hul uitstekende vooropleidingspoed, met innovasies soos DeepSpeed-MoE wat afleidings optimaliseer om beter latensie en kostedoeltreffendheid te bereik. Onlangse vooruitgang het die alles-tot-almal kommunikasie-bottelnek doeltreffend aangepak, wat opleiding en afleidingsdoeltreffendheid verbeter het.

Die samestelling van die boustene vir kunsmatige algemene intelligensie

AGI verteenwoordig die hipotetiese moontlikheid dat KI menslike intelligensie oor enige domein kan ooreenstem of oorskry. Terwyl moderne KI uitblink in noue take, bly AGI ver en omstrede gegewe sy potensiële risiko's.

Inkrementele vooruitgang op gebiede soos oordragleer, multitaak-opleiding, gespreksvermoë en abstraksie kom egter nader aan AGI se verhewe visie. OpenAI se spekulatiewe Q*-projek is daarop gemik om versterkingsleer in LLM's te integreer as nog 'n stap vorentoe.

Etiese grense en die risiko's van die manipulering van KI-modelle

Jailbreaks laat aanvallers toe om die etiese grense te omseil wat tydens die KI se fyn-instellingsproses gestel is. Dit lei tot die generering van skadelike inhoud soos verkeerde inligting, haatspraak, uitvissing-e-posse en kwaadwillige kode, wat risiko's vir individue, organisasies en die gemeenskap inhou. Byvoorbeeld, 'n tronkgebroke model kan inhoud produseer wat verdelende vertellings bevorder of kuberkriminele aktiwiteite ondersteun. (Leer meer)

Alhoewel daar nog geen gerapporteerde kuberaanvalle met behulp van jailbreaking was nie, is verskeie bewys-van-konsep-jailbreaks geredelik aanlyn beskikbaar en te koop op die donker web. Hierdie instrumente verskaf aansporings wat ontwerp is om KI-modelle soos ChatGPT te manipuleer, wat moontlik hackers in staat stel om sensitiewe inligting deur maatskappykletsbotte te lek. Die verspreiding van hierdie instrumente op platforms soos kubermisdaadforums beklemtoon die dringendheid om hierdie bedreiging aan te spreek. (Lees meer )

Versagting van Jailbreak-risiko's

Om hierdie bedreigings teë te werk, is 'n veelsydige benadering nodig:

Robuuste fyninstelling: Die insluiting van diverse data by die fyninstellingsproses verbeter die model se weerstand teen teenstrydige manipulasie.
Teenstandige opleiding: Opleiding met teenstrydige voorbeelde verhoog die model se vermoë om gemanipuleerde insette te herken en te weerstaan.
Gereelde Evaluering: Deurlopende monitering van uitsette help om afwykings van etiese riglyne op te spoor.
Menslike toesig: Deur menslike beoordelaars te betrek, voeg 'n bykomende laag veiligheid by.

KI-aangedrewe bedreigings: Die Hallusinasie-uitbuiting

KI-hallusinasie, waar modelle uitsette genereer wat nie in hul opleidingsdata gegrond is nie, kan gewapen word. Byvoorbeeld, aanvallers het ChatGPT gemanipuleer om nie-bestaande pakkette aan te beveel, wat gelei het tot die verspreiding van kwaadwillige sagteware. Dit beklemtoon die behoefte aan deurlopende waaksaamheid en robuuste teenmaatreëls teen sulke uitbuiting. (Verken verder)

Terwyl die etiek van die nastrewing van AGI steeds belaai is, beïnvloed die strewe steeds generatiewe KI-navorsingsrigtings – of huidige modelle soos trapklippe lyk of ompaaie op pad na menslike-vlak KI.

Verwante onderwerpe:AGI MvO multimodale leer

Wat is kunsmatige algemene intelligensie (AGI) en waarom dit nog nie hier is nie: 'n realiteitstoets vir KI-entoesiaste

Moenie mis nie

Groot taalmodelle met Scikit-leer: 'n Omvattende gids tot Scikit-LLM

Aayush Mittal

Ek het die afgelope vyf jaar my verdiep in die fassinerende wêreld van Masjienleer en Deep Learning. My passie en kundigheid het daartoe gelei dat ek bygedra het tot meer as 50 diverse sagteware-ingenieursprojekte, met 'n spesifieke fokus op KI/ML. My voortdurende nuuskierigheid het my ook na natuurlike taalverwerking gelok, 'n veld wat ek gretig is om verder te verken.

Verenig.AI

Die ontwikkelende landskap van generatiewe KI: 'n opname van 'n mengsel van kundiges, multimodaliteit en die soeke na AGI

Kunsmatige Algemene Intelligensie

Die ontwikkelende landskap van generatiewe KI: 'n opname van 'n mengsel van kundiges, multimodaliteit en die soeke na AGI

INHOUDSOPGAWE

Die evolusie van KI-navorsing

MoE en multimodale stelsels – Die volgende golf van generatiewe KI

Tweeling: Herdefinieer maatstawwe in multimodaliteit

Tegniese struikelblokke in multimodale stelsels