Inteligjenca artificiale

Mini-Binjakët: Minimi i potencialit të modeleve gjuhësore të vizionit me shumë modalitet

Publikuar

javë më parë 2

Prill 26, 2024

Mini-Binjakët: Minimi i potencialit të modeleve gjuhësore të vizionit me shumë modalitet

Përparimet në modele të mëdha gjuhësore kanë përshpejtuar ndjeshëm zhvillimin e përpunimi i gjuhës natyrore, ose NLP. Prezantimi i kornizës së transformatorit doli të ishte një moment historik, duke lehtësuar zhvillimin e një vale të re modelesh gjuhësore, duke përfshirë OPT dhe BERT, të cilat shfaqin kuptim të thellë gjuhësor. Për më tepër, fillimi i GPT, ose modelet e transformatorëve të trajnuar paraprakisht gjenerues, prezantoi një paradigmë të re me modelim autoregresiv dhe krijoi një metodë të fortë për parashikimin dhe gjenerimin e gjuhës. Ardhja e modeleve gjuhësore si GPT-4, ChatGPT, Mixtral, LLaMA dhe të tjera ka nxitur më tej evolucionin e shpejtë, me secilin model që demonstron performancë të përmirësuar në detyrat që përfshijnë përpunimin kompleks të gjuhës. Midis metodave ekzistuese, akordimi i udhëzimeve është shfaqur si një teknikë kyçe për përsosjen e rezultateve të modeleve të gjuhëve të mëdha të trajnuara paraprakisht dhe integrimi i këtyre modeleve me mjete specifike për detyra vizuale ka nxjerrë në pah përshtatshmërinë e tyre dhe ka hapur dyert për aplikimet e ardhshme. Këto shtrihen shumë përtej përpunimit tradicional të tekstit të LLM-ve për të përfshirë ndërveprimet multimodale.

Për më tepër, konvergjenca e përpunimit të gjuhës natyrore dhe modeleve të vizionit kompjuterik ka krijuar VLM-të, ose Modelet e Gjuhës së Vizionit, të cilat kombinojnë modelet gjuhësore dhe të vizionit për të arritur aftësitë e të kuptuarit dhe të arsyetimit ndër-modal. Integrimi dhe ardhja e modeleve vizuale dhe gjuhësore kanë luajtur një rol vendimtar në avancimin e detyrave që kërkojnë si përpunim gjuhësor ashtu edhe kuptim vizual. Shfaqja e modeleve revolucionare si CLIP ka kapërcyer më tej hendekun midis detyrave të vizionit dhe modeleve gjuhësore, duke demonstruar realizueshmërinë dhe prakticitetin e aplikacioneve ndër-modale. Kornizat më të fundit si LLaMA dhe BLIP përdorin të dhëna udhëzuese të përshtatura për të hartuar strategji efikase që demonstrojnë aftësitë e fuqishme të modelit. Për më tepër, kombinimi i modeleve të mëdha gjuhësore me daljet e imazhit është fokusi i kërkimit të fundit multimodal, me metodat e fundit që janë në gjendje të anashkalojnë gjenerimin e drejtpërdrejtë duke përdorur qasjen e rikthimit të imazhit për të prodhuar rezultate imazhi dhe tekste të ndërthurura.

Me këtë që u tha, dhe pavarësisht përparimeve të shpejta në modelet e gjuhës së vizionit që lehtësojnë arsyetimin bazë dhe dialogun vizual, ekziston ende një hendek i rëndësishëm i performancës midis modeleve të avancuara si GPT-4 dhe modeleve të gjuhës së vizionit. Mini-Gemini është një përpjekje për të ngushtuar hendekun që ekziston midis modeleve të gjuhës së vizionit dhe modeleve më të avancuara duke minuar potencialin e VLM-ve për performancë më të mirë nga tre aspekte: gjenerimi i drejtuar nga VLM, të dhënat me cilësi të lartë dhe shenjat vizuale me rezolucion të lartë. Për të përmirësuar shenjat vizuale, korniza Mini-Gemini propozon përdorimin e një koduesi shtesë vizual për përsosje me rezolucion të lartë pa rritur numrin e shenjave vizuale. Kuadri Mini-Gemini ndërton më tej një grup të dhënash me cilësi të lartë në një përpjekje për të promovuar të kuptuarit e saktë të imazheve dhe gjenerimin e bazuar në arsyetim. Në përgjithësi, korniza Mini-Gemini përpiqet të minojë potencialin e modeleve të gjuhës së vizionit dhe synon të fuqizojë kornizat ekzistuese me arsyetim imazhi, kuptim dhe aftësi gjeneruese njëkohësisht. Ky artikull synon të mbulojë në thellësi kornizën Mini-Gemini, dhe ne eksplorojmë mekanizmin, metodologjinë, arkitekturën e kornizës së bashku me krahasimin e tij me kornizat më moderne. Pra, le të fillojmë.

Mini-Binjakët: VLM-të përshpejtuese me shumë modalitete

Me kalimin e viteve, modelet e mëdha gjuhësore kanë evoluar, dhe ato tani mburren me aftësi të jashtëzakonshme multi-modale dhe po bëhen një pjesë thelbësore e modeleve aktuale të gjuhës së vizionit. Megjithatë, ekziston një hendek midis performancës multi-modale të modeleve të mëdha gjuhësore dhe modeleve të gjuhës së vizionit me kërkimet e fundit që kërkojnë mënyra për të kombinuar vizionin me modele të mëdha gjuhësore duke përdorur imazhe dhe video. Për vetë detyrat e vizionit, rezolucioni i imazhit është një element thelbësor për të në mënyrë të qartë pavarësisht nga mjedisi përreth me halucinacione minimale vizuale. Për të kapërcyer hendekun, studiuesit po zhvillojnë modele për të përmirësuar të kuptuarit vizual në rrymë modelet e gjuhës së vizionit, dhe dy nga qasjet më të zakonshme janë: rritja e rezolucionit dhe rritja e numrit të shenjave vizuale. Megjithëse rritja e numrit të shenjave vizuale me imazhe me rezolucion më të lartë rrit të kuptuarit vizual, rritja shoqërohet shpesh me kërkesa të rritura llogaritëse dhe kosto të lidhura, veçanërisht kur përpunohen imazhe të shumta. Për më tepër, aftësitë e modeleve ekzistuese, cilësia e të dhënave ekzistuese dhe zbatueshmëria mbeten të pamjaftueshme për një proces zhvillimi të përshpejtuar, duke i lënë studiuesit me pyetjen, "si të përshpejtohet zhvillimi i modeleve të gjuhës së vizionit me kosto të pranueshme"?

Kuadri Mini-Gemini është një përpjekje për t'iu përgjigjur pyetjes ndërsa përpiqet të eksplorojë potencialin e modeleve të gjuhës së vizionit nga tre aspekte: gjenerimi i drejtuar nga VLM ose aplikacionet e zgjeruara, të dhënat me cilësi të lartë dhe shenjat vizuale me rezolucion të lartë. Së pari, korniza Mini-Gemini zbaton një arkitekturë ConvNet për të gjeneruar kandidatë me rezolucion më të lartë në mënyrë efikase, duke përmirësuar detajet vizuale duke ruajtur numrin e shenjave vizuale për modelin e gjuhës së madhe. Kuadri Mini-Gemini bashkon grupe të dhënash me cilësi të lartë të disponueshme publikisht në një përpjekje për të përmirësuar cilësinë e të dhënave dhe i integron këto përmirësime me modelet më të fundit të gjuhës gjeneruese dhe të mëdha me një përpjekje për të përmirësuar performancën e VLM-ve dhe për të përmirësuar përvojën e përdoruesit. Strategjia e shumëanshme e zbatuar nga kuadri Mini-Gemini i mundëson atij të eksplorojë aftësitë e fshehura të modeleve të gjuhës së vizionit dhe të arrijë përparime të rëndësishme me kufizime të dukshme burimesh.

Në përgjithësi, korniza Mini-Gemini përdor një paradigmë të çdo lloji, pasi është në gjendje të trajtojë tekstin dhe imazhet si hyrje dhe dalje. Në veçanti, korniza Mini-Gemini prezanton një tubacion efikas për përmirësimin e shenjave vizuale për imazhet hyrëse dhe përmban një sistem kodues të dyfishtë i përbërë nga kodues të dyfishtë: koduesi i parë është për imazhe me rezolucion të lartë, ndërsa koduesi i dytë është për imazhe me rezolucion të lartë. ngulitje vizuale cilësore. Gjatë përfundimit, koduesit punojnë në një mekanizëm vëmendjeje, ku koduesi me rezolucion të ulët gjeneron pyetje vizuale, ndërsa koduesi me rezolucion të lartë ofron çelësin dhe vlerat për referencë. Për të rritur cilësinë e të dhënave, korniza Mini-Gemini mbledh dhe prodhon më shumë të dhëna bazuar në burimet publike, duke përfshirë udhëzimet e orientuara nga detyra, të dhënat e lidhura me gjenerimin dhe përgjigjet me rezolucion të lartë, me sasinë e rritur dhe cilësinë e përmirësuar që përmirëson performancën e përgjithshme dhe aftësitë e modelit. Për më tepër, korniza Mini-Gemini mbështet gjenerimin e njëkohshëm të tekstit dhe imazhit si rezultat i integrimit të modelit të gjuhës së vizionit me modelet e avancuara gjeneruese.

Mini-Gemini: Metodologjia dhe Arkitektura

Në thelbin e tij, korniza Mini-Gemini është konceptualisht e thjeshtë dhe përfshin tre komponentë.

Korniza përdor kodues të vizionit të dyfishtë për të ofruar ngulitje vizuale me rezolucion të ulët dhe kandidatë me rezolucion të lartë.
Kuadri propozon zbatimin e minierave të informacionit patch për të kryer minierat në nivel patch midis pyetjeve vizuale me rezolucion të ulët dhe rajoneve me rezolucion të lartë.
Kuadri Mini-Gemini përdor një model të madh gjuhësor për të bashkuar tekstin me imazhet si për gjenerim ashtu edhe për të kuptuar njëkohësisht.

Koduesit me vizion të dyfishtë

Korniza Mini-Gemini mund të përpunojë hyrjen e tekstit dhe të imazhit, me opsionin për t'i trajtuar ato individualisht ose në kombinim. Siç tregohet në imazhin e mëposhtëm, korniza Mini-Gemini e fillon procesin duke përdorur interpolim bilinear për të gjeneruar një imazh me rezolucion të ulët nga imazhi i tij përkatës me rezolucion të lartë.

Korniza më pas i përpunon këto imazhe dhe i kodon ato në një ngulitje vizuale me shumë rrjete në dy rrjedha paralele të imazhit. Më konkretisht, korniza Mini-Gemini ruan linjën tradicionale për rrjedhat me rezolucion të ulët dhe përdor një transformator vizual të paratrajnuar nga CLIP për të koduar ngulitje vizuale, duke lehtësuar modelin për të ruajtur lidhjen me rreze të gjatë midis arnimeve vizuale për ndërveprimet e mëvonshme në gjuhë të madhe. modele. Për rrjedhat me rezolucion të lartë, korniza Mini-Gemini miraton koduesin e bazuar në CNN ose Convolution Neural Networks për përpunim përshtatës dhe efikas të imazhit me rezolucion të lartë.

Patch Info Mining

Me koduesit e dyfishtë të vizionit që gjenerojnë ngulitje LR dhe veçori të HR, korniza Mini-Gemini propozon të zbatojë minierën e informacionit të patch-it me synimin për të zgjeruar potencialin e modeleve të gjuhës së vizionit me shenja vizuale të përmirësuara. Për të ruajtur numrin e shenjave vizuale për efikasitet në modelet e mëdha të gjuhëve, korniza Mini-Gemini merr si pyetje përfshirjet vizuale me rezolucion të ulët dhe synon të marrë shenjat vizuale përkatëse nga kandidatët e veçorive HR, me kornizën që merr Harta e veçorive të burimeve njerëzore si çelës dhe vlerë.

Siç tregohet në imazhin e mësipërm, formula përmbledh procesin e rafinimit dhe sintetizimit të shenjave vizuale, gjë që çon në gjenerimin e shenjave vizuale të avancuara për përpunimin e mëvonshëm të modelit të madh të gjuhës. Procesi siguron që korniza të jetë në gjendje të kufizojë minierën për çdo pyetje në nën-rajonin e tij përkatës në hartën e veçorive HR me numërimin e veçorive sipas pikselit, duke rezultuar në efikasitet të përmirësuar. Për shkak të këtij dizajni, korniza Mini-Gemini është në gjendje të nxjerrë detajet e veçorive HR pa rritur numrin e shenjave vizuale dhe ruan një ekuilibër midis fizibilitetit llogaritës dhe pasurisë së detajeve.

Gjenerimi i tekstit dhe imazhit

Korniza Mini-Gemini bashkon shenjat vizuale dhe shenjat hyrëse të tekstit si hyrje në modelet e mëdha të gjuhës për gjenerimin auto-regresiv. Ndryshe nga modelet tradicionale të gjuhës së vizionit, korniza Mini-Gemini mbështet vetëm tekstin, si dhe gjenerimin e imazhit të tekstit si hyrje dhe dalje, dmth. për çdo përfundim, dhe është rezultat i këtyre aftësive të jashtëzakonshme të të kuptuarit dhe arsyetimit të tekstit të imazhit, Mini-Gemini është në gjendje të gjenerojë imazhe me cilësi të lartë. Ndryshe nga punimet e fundit që fokusohen në hendekun e domenit midis ngulitjes së tekstit të modeleve të gjeneratës dhe modeleve të mëdha gjuhësore, korniza Mini-Gemini përpiqet të optimizojë hendekun në domenin e kërkesave gjuhësore duke përkthyer udhëzimet e përdoruesit në kërkesa me cilësi të lartë që prodhojnë imazhe përkatëse të kontekstit. në modelet e difuzionit latent. Për më tepër, për një kuptim më të mirë të rregullimit të udhëzimeve dhe shtrirjes së modalitetit të kryqëzuar, korniza Mini-Gemini mbledh mostra nga grupet e të dhënave me cilësi të lartë të disponueshme publikisht dhe përdor kornizën turbo GPT-4 për të ndërtuar më tej një udhëzim 13K në vijim të të dhënave për të mbështetur gjenerimin e imazheve.

Mini-Binjakët: Eksperimentet dhe rezultatet

Për të vlerësuar performancën e tij, kuadri Mini-Gemini është instancuar me kornizën e para-trajnuar ConvNext-L për koduesin e vizionit të HR dhe me një CLIP të para-trajnuar Transformatori i Vizionit për koduesin e vizionit LR. Për të siguruar efikasitetin e trajnimit, korniza Mini-Gemini i mban të fiksuar dy koduesit e vizionit dhe optimizon projektorët e minierës së informacionit patch në të gjitha fazat dhe optimizon modelin e madh të gjuhës gjatë vetë fazës së akordimit të udhëzimeve.

Tabela e mëposhtme krahason performancën e kornizës Mini-Gemini kundrejt modeleve më të fundit në mjedise të ndryshme, dhe gjithashtu merr në konsideratë modelet private. Siç mund të vërehet, Mini-Gemini i tejkalon kornizat ekzistuese në një gamë të gjerë të LLM-ve vazhdimisht me rezolucion normal dhe demonstron performancë superiore kur konfigurohet me Gemma-2B në kategorinë e modeleve efikase. Për më tepër, kur përdoren modele më të mëdha gjuhësore, shkallëzueshmëria e kornizës Mini-Gemini është e dukshme.

Për të vlerësuar performancën e tij në rezolucion të lartë dhe shenja vizuale të zgjeruara, eksperimentet kryhen me një madhësi hyrëse prej 672 për koduesin e shikimit LR dhe 1536 për koduesin vizual. Siç u përmend më herët, qëllimi kryesor i koduesit vizual të HR është të ofrojë informacione të kandidatëve me rezolucion të lartë. Siç mund të vërehet, korniza Mini-Gemini jep performancë superiore kur krahasohet me kornizat më moderne.

Për më tepër, për të vlerësuar aftësinë e të kuptuarit vizual të kornizës Mini-Gemini në mjediset e botës reale, zhvilluesit e aplikojnë modelin në një sërë detyrash arsyetimi dhe kuptimi siç tregohet në imazhin e mëposhtëm. Siç mund të vërehet, korniza Mini-Gemini është në gjendje të zgjidhë një gamë të gjerë detyrash komplekse falë zbatimit të minierave të informacionit patch dhe të dhënave me cilësi të lartë. Por ajo që është më mbresëlënëse është fakti se korniza Mini-Gemini demonstron një shtesë të mprehtë në detaje që shtrihet përtej aftësisë së thjeshtë të njohjes dhe përshkruan elementë të ndërlikuar në mënyrë të ndërlikuar.

Figura e mëposhtme ofron një vlerësim gjithëpërfshirës të aftësive gjeneruese të kornizës Mini-Gemini.

Kur krahasohet me modelet e fundit si ChatIllusion dhe AnyGPT, korniza Mini-Gemini demonstron aftësi më të forta të të kuptuarit multi-modal, duke e lejuar atë të gjenerojë tekst në imazh titrat që përputhen më mirë me udhëzimet e hyrjes dhe rezulton në përgjigje nga imazhi në tekst me ngjashmëri më të fortë konceptuale. Ajo që është më mbresëlënëse është fakti se korniza Mini-Gemini demonstron aftësi të jashtëzakonshme në gjenerimin e përmbajtjes me cilësi të lartë duke përdorur udhëzime njerëzore shumë-modele vetëm me të dhëna trajnimi teksti, një aftësi që ilustron interpretimin e fuqishëm semantik të Mini-Gemini dhe aftësitë e rreshtimit imazh-tekst.

Mendime përfundimtare

Në këtë artikull ne kemi folur për Mini-Gemini, një kornizë e fuqishme dhe e efektshme për modelet e gjuhës së vizionit me shumë modalitete. Qëllimi kryesor i kornizës Mini-Gemini është të shfrytëzojë aftësitë latente të modeleve të gjuhës së vizionit duke përdorur të dhëna me cilësi të lartë, dizajn strategjik të kornizës dhe një shtrirje të zgjeruar funksionale. Mini-Gemini është një përpjekje për të ngushtuar hendekun që ekziston midis modeleve të gjuhës së vizionit dhe modeleve më të avancuara duke minuar potencialin e VLM-ve për performancë më të mirë nga tre aspekte: gjenerimi i drejtuar nga VLM, të dhënat me cilësi të lartë dhe shenjat vizuale me rezolucion të lartë. Për të përmirësuar shenjat vizuale, korniza Mini-Gemini propozon përdorimin e një koduesi shtesë vizual për përsosje me rezolucion të lartë pa rritur numrin e shenjave vizuale. Kuadri Mini-Gemini ndërton më tej një grup të dhënash me cilësi të lartë në një përpjekje për të promovuar të kuptuarit e saktë të imazheve dhe gjenerimin e bazuar në arsyetim. Në përgjithësi, korniza Mini-Gemini përpiqet të minojë potencialin e modeleve të gjuhës së vizionit dhe synon të fuqizojë kornizat ekzistuese me arsyetim imazhi, kuptim dhe aftësi gjeneruese njëkohësisht.

Temat e ngjashme:ai gjenerues modeli i madh i gjuhës Modelet e Vizionit të Madh LVLM Mini-Binjakët Modeli multimodal i gjuhës së madhe përpunimi i gjuhës natyrore modeli i gjuhës së vizionit

E rradhes

Modele të mëdha gjuhësore të bazuara në dekoder: Një udhëzues i plotë

Mos e humbas

Snowflake Arctic: LLM-ja më e avancuar për AI të ndërmarrjeve

Kunal Kejriwal

“Me profesion inxhinier, me zemër shkrimtar”. Kunal është një shkrimtar teknik me një dashuri dhe kuptim të thellë të AI dhe ML, i përkushtuar ndaj thjeshtimit të koncepteve komplekse në këto fusha përmes dokumentacionit të tij tërheqës dhe informues.