Sun'iy intellekt
Yirik multimodal modellarning ochilishi: 2024-yilda til modellari landshaftini shakllantirish

Biz dunyoni boshdan kechirar ekanmiz, bizning hislarimiz (ko'rish, tovushlar, hidlar) turli xil ma'lumotlar to'plamini taqdim etadi va biz o'zimizni yuz ifodalari va imo-ishoralar kabi turli xil aloqa usullaridan foydalangan holda ifodalaymiz. Ushbu hislar va aloqa usullari birgalikda modalliklar deb ataladi, ular biz idrok qilish va muloqot qilishning turli usullarini ifodalaydi. Insonning bu qobiliyatidan ilhom olib, katta multimodal model (LMM), generativ va birikmasi multimodal AI, matn, tasvir va audio kabi turli xil turlaridan foydalangan holda tarkibni tushunish va yaratish uchun ishlab chiqilmoqda. Ushbu maqolada biz ushbu yangi paydo bo'lgan sohani o'rganamiz, LMM (katta multimodal modellar) nima ekanligini, ular qanday tuzilganligini, mavjud misollarni, ular duch keladigan qiyinchiliklarni va potentsial ilovalarni o'rganamiz.
2024-yilda generativ AI evolyutsiyasi: Katta tilli modellardan yirik multimodal modellarga
O'zining so'nggi hisobotida, McKinsey 2023 yilni belgilagan uchun tanaffus yili sifatida generativ AI, bu sohada ko'plab yutuqlarga olib keladi. Biz tarqalishining sezilarli o'sishiga guvoh bo'ldik katta til modellari (LLM) insoniy tilni tushunish va yaratishga mohir. Bundan tashqari, tasvir yaratish modellari sezilarli darajada rivojlanib, matnli takliflardan vizual tasvirlarni yaratish qobiliyatini namoyish etadi. Biroq, matn, tasvir yoki audio kabi individual usullarda sezilarli yutuqlarga qaramay, generativ AI bu usullarni yaratish jarayonida muammosiz birlashtirishda qiyinchiliklarga duch keldi. Dunyo tabiatan multimodal bo'lganligi sababli, sun'iy intellekt uchun multimodal ma'lumotlar bilan kurashish juda muhimdir. Bu odamlar bilan mazmunli aloqa qilish va real stsenariylarda muvaffaqiyatli ishlash uchun zarurdir.
Binobarin, ko‘plab AI tadqiqotchilari 2024-yilda sun’iy intellekt bo‘yicha tadqiqot va ishlanmalarning navbatdagi chegarasi sifatida LMMlarning o‘sishini taxmin qilmoqdalar. Bu rivojlanayotgan chegara generativ AIning matn, tasvir, audio, video va turli xil natijalarni qayta ishlash va ishlab chiqarish qobiliyatini oshirishga qaratilgan. boshqa usullar. Shuni ta'kidlash kerakki, barcha multimodal tizimlar LMM sifatida malakaga ega emas. kabi modellar O'rta sayohat va Barqaror diffuziya, multimodal bo'lishiga qaramay, LMM toifasiga kirmaydi, chunki ularda LMMlarning asosiy komponenti bo'lgan LLMlar mavjud emas. Boshqacha qilib aytganda, biz LMMlarni LLMlarning kengaytmasi sifatida tasvirlashimiz mumkin, bu ularga turli xil usullarni mohirona boshqarish qobiliyatini beradi.
LMM qanday ishlaydi?
Tadqiqotchilar o'rganishgan paytda turli yondashuvlar LMM qurish uchun ular odatda uchta muhim komponent va operatsiyalarni o'z ichiga oladi. Birinchidan, kodlovchilar har bir ma'lumot usuli uchun ushbu modallikka xos bo'lgan ma'lumotlar ko'rinishlarini (o'rnatish deb ataladi) yaratish uchun qo'llaniladi. Ikkinchidan, birlashtirilgan multimodal joylashtirish maydoniga turli xil usullardagi joylashtirishlarni moslashtirish uchun turli mexanizmlar qo'llaniladi. Uchinchidan, generativ modellar uchun matnli javoblarni yaratish uchun LLM qo'llaniladi. Kirishlar matn, tasvirlar, videolar va audiolardan iborat bo'lishi mumkinligi sababli, tadqiqotchilar til modellarini javob berishda turli usullarni hisobga olishning yangi usullari ustida ishlamoqda.
2023 yilda LMMni rivojlantirish
Quyida men 2023 yilda ishlab chiqilgan ba'zi muhim LMMlarni qisqacha bayon qildim.
- LLaVA Viskonsin-Madison universiteti, Microsoft Research va Kolumbiya universiteti tomonidan birgalikda ishlab chiqilgan ochiq manbali LMM. Model multimodalning ochiq manbali versiyasini taklif qilishni maqsad qilgan GPT4. Foydalanish Meta's Llama LLM, ni o'z ichiga oladi KLIP mustahkam vizual tushunish uchun vizual kodlovchi. LLaVa ning sog'liqni saqlashga yo'naltirilgan varianti deb ataladi LLaVA-Med, biomedikal tasvirlar bilan bog'liq so'rovlarga javob bera oladi.
- ImageBind Bu Meta tomonidan yaratilgan ochiq manbali model bo'lib, u inson idrokining multimodal ma'lumotlar bilan bog'lanish qobiliyatiga taqlid qiladi. Model oltita uslubni birlashtiradi - matn, tasvirlar/videolar, audio, 3D o'lchovlar, harorat ma'lumotlari va harakat ma'lumotlari - bu turli xil ma'lumotlar turlari bo'yicha yagona vakillikni o'rganadi. ImageBind tovush, 3D shakllar, harorat va harakat kabi atributlarga ega fotosuratlardagi ob'ektlarni ulashi mumkin. Model, masalan, matn yoki tovushlardan sahna yaratish uchun ishlatilishi mumkin.
- UzluksizM4T ko'p tilli jamoalar o'rtasida muloqotni rivojlantirish uchun Meta tomonidan ishlab chiqilgan multimodal modeldir. SeamlessM4T nutqdan nutqga, nutqdan matnga, matndan nutqqa va matndan matnga tarjimalarni qo'llab-quvvatlaydigan tarjima va transkripsiya vazifalarida ustundir. Model ushbu tarjimalarni bajarish uchun avtoregressiv bo'lmagan matndan birlikka dekoderdan foydalanadi. Kengaytirilgan versiya, SeamlessM4T v2, kabi modellar uchun asos yaratadi Uzluksiz Ekspressiv va Uzluksiz oqim, tillar bo'ylab ifodaning saqlanishini ta'kidlab, tarjimalarni minimal kechikish bilan yetkazib berish.
- GPT4OpenAI tomonidan ishga tushirilgan, bu o'zidan oldingi versiyasining ilg'or qismidir, GPT3.5. Batafsil arxitektura xususiyatlari to'liq oshkor etilmagan bo'lsa-da, GPT4 faqat matn, faqat ko'rish va faqat audio modellarning silliq integratsiyasi uchun yaxshi baholanadi. Model yozma va grafik kirishlardan matn yaratishi mumkin. U turli vazifalarni, jumladan, tasvirlardagi hazil tasvirini, skrinshotlardagi matnni umumlashtirishni va diagrammalar aks ettirilgan imtihon savollariga mohirona javob berishni yaxshi bajaradi. GPT4 shuningdek, kirish ma'lumotlari formatlarining keng doirasini samarali qayta ishlashda moslashuvchanligi bilan ham tan olingan.
- egizaklar, Google DeepMind tomonidan yaratilgan, oʻziga xos multimodalligi bilan ajralib turadi, bu bir modali komponentlarni bir-biriga yopishtirishga tayanmasdan, turli vazifalarda uzluksiz oʻzaro taʼsir oʻtkazish imkonini beradi. Ushbu model matn va turli xil audio-vizual kirishlarni osonlik bilan boshqaradi va matn va tasvir formatlarida chiqishlarni yaratish qobiliyatini namoyish etadi.
Katta multimodal modellarning qiyinchiliklari
- Qo'shimcha ma'lumotlar usullarini birlashtirish: Mavjud LMMlarning aksariyati matn va tasvirlar bilan ishlaydi. Biroq, LMMlar matn va tasvirlardan tashqari, videolar, musiqa va 3D kabi usullarga mos ravishda rivojlanishi kerak.
- Turli xil ma'lumotlar to'plamining mavjudligi: Multimodal generativ AI modellarini ishlab chiqish va o'qitishdagi asosiy muammolardan biri bu bir nechta modalliklarni o'z ichiga olgan katta va xilma-xil ma'lumotlar to'plamlariga bo'lgan ehtiyojdir. Misol uchun, matn va tasvirlarni birgalikda yaratish uchun modelni o'rgatish uchun ma'lumotlar to'plami bir-biriga bog'liq bo'lgan matn va rasm kiritishlarini o'z ichiga olishi kerak.
- Multimodal natijalarni yaratish: LMM multimodal kirishlarni boshqarishi mumkin bo'lsa-da, matnni grafik yoki animatsiya bilan birlashtirish kabi turli xil natijalarni yaratish qiyin bo'lib qolmoqda.
- Quyidagi ko'rsatmalar: LMMlar suhbatni o'zlashtirish va ko'rsatmalarga rioya qilish bo'yicha vazifalarni bajarish qiyinligi bilan duch kelishadi.
- Multimodal asoslash: Mavjud LMMlar bir modallikni boshqasiga aylantirishda ustun bo'lsa-da, eshitish ko'rsatmalari asosida yozma so'z muammolarini hal qilish kabi murakkab fikrlash vazifalari uchun multimodal ma'lumotlarning uzluksiz integratsiyasi qiyin ish bo'lib qolmoqda.
- LMMlarni siqish: LMMlarning resurs talab qiladigan tabiati sezilarli to'siq bo'lib, ularni cheklangan hisoblash resurslariga ega chekka qurilmalar uchun amaliy bo'lmaydi. Samaradorlikni oshirish va ularni resurslar cheklangan qurilmalarda joylashtirishga moslashtirish uchun LMM-larni siqish davom etayotgan tadqiqotlarning muhim sohasidir.
Potentsial foydalanish holatlari
- Ta'lim: LMMlar matn, tasvir va audioni birlashtirgan turli xil va qiziqarli oʻquv materiallarini yaratish orqali taʼlimni oʻzgartirish imkoniyatiga ega. LMMlar topshiriqlar bo'yicha har tomonlama fikr-mulohazalarni taqdim etadi, hamkorlikda o'rganish platformalarini targ'ib qiladi va interaktiv simulyatsiyalar va real dunyo misollari orqali ko'nikmalarni rivojlantirishni yaxshilaydi.
- Sog'liqni saqlash: Bitta modallikka yo'naltirilgan an'anaviy AI diagnostika tizimlaridan farqli o'laroq, LMMlar bir nechta usullarni birlashtirish orqali tibbiy diagnostikani yaxshilaydi. Shuningdek, ular tibbiy yordam ko'rsatuvchi provayderlar va bemorlar o'rtasida til to'siqlari bo'ylab muloqotni qo'llab-quvvatlaydi va shifoxonalarda turli AI ilovalari uchun markazlashtirilgan ombor vazifasini bajaradi.
- San'at va musiqa avlodi: LMMlar noyob va ifodali chiqishlar uchun turli uslublarni birlashtirib, san'at va musiqa yaratishda ustunlik qilishi mumkin edi. Masalan, badiiy LMM vizual va eshitish elementlarini birlashtirib, immersiv tajribani ta'minlaydi. Xuddi shunday, musiqa LMM instrumental va vokal elementlarni birlashtira oladi, natijada dinamik va ifodali kompozitsiyalar paydo bo'ladi.
- Shaxsiylashtirilgan tavsiyalar: LMMlar filmlar, musiqalar, maqolalar yoki mahsulotlar kabi kontentni iste'mol qilish bo'yicha moslashtirilgan tavsiyalarni taqdim etish uchun turli xil usullar bo'yicha foydalanuvchi imtiyozlarini tahlil qilishi mumkin.
- Ob-havo prognozi va atrof-muhit monitoringi: LMMlar ob-havo bashorati va atrof-muhit monitoringining aniqligini oshirish uchun sun'iy yo'ldosh tasvirlari, atmosfera sharoitlari va tarixiy naqshlar kabi ma'lumotlarning turli usullarini tahlil qilishi mumkin.
Bottom tuhfa
Katta multimodal modellarning (LMMs) landshafti turli sohalarda istiqbolli yutuqlarni va'da qiladigan generativ AIda sezilarli yutuqni ko'rsatadi. Ushbu modellar matn, tasvir va audio kabi turli uslublarni uzluksiz birlashtirganligi sababli, ularning rivojlanishi sog'liqni saqlash, ta'lim, san'at va moslashtirilgan tavsiyalarda transformativ ilovalar uchun eshiklarni ochadi. Biroq, qiyinchiliklar, jumladan, ko'proq ma'lumotlar usullarini joylashtirish va resurslarni ko'p talab qiladigan modellarni siqish, LMM salohiyatini to'liq ro'yobga chiqarish uchun zarur bo'lgan davom etayotgan tadqiqot sa'y-harakatlarini ta'kidlaydi.

