кочан Разкриване на големи мултимодални модели: оформяне на ландшафта на езиковите модели през 2024 г. – Unite.AI
Свържете се с нас

Изкуствен интелект

Разкриване на големи мултимодални модели: оформяне на ландшафта на езиковите модели през 2024 г.

mm
Обновено on

Докато преживяваме света, нашите сетива (зрение, звуци, миризми) предоставят разнообразна информация и ние изразяваме себе си, използвайки различни методи за комуникация, като изражение на лицето и жестове. Тези сетива и комуникационни методи се наричат ​​колективно модалности, представляващи различните начини, по които възприемаме и комуникираме. Черпейки вдъхновение от тази човешка способност, голям мултимодален модел (LMM), комбинация от генеративни и мултимодален AI, се разработват за разбиране и създаване на съдържание с помощта на различни типове като текст, изображения и аудио. В тази статия ние се задълбочаваме в тази нововъзникваща област, изследвайки какво представляват LMM (Големи мултимодални модели), как са конструирани, съществуващи примери, предизвикателствата, пред които са изправени, и потенциални приложения.

Еволюция на генериращия AI през 2024 г.: от големи езикови модели до големи мултимодални модели

В последния си доклад, McKinsey определи 2023 г като година на пробив за генеративен AI, което води до много напредък в областта. Свидетели сме на значително нарастване на разпространението на големи езикови модели (LLM) умел в разбирането и генерирането на човешки език. Освен това, модели за генериране на изображения са значително еволюирали, демонстрирайки способността си да създават визуализации от текстови подкани. Въпреки значителния напредък в отделните модалности като текст, изображения или аудио, генеративният AI се сблъска с предизвикателства при безпроблемното комбиниране на тези модалности в процеса на генериране. Тъй като светът е присъщо мултимодален по природа, за AI е от решаващо значение да се бори с мултимодална информация. Това е от съществено значение за смислено взаимодействие с хората и успешна работа в сценарии от реалния свят.

Следователно много изследователи на ИИ очакват възхода на LMM като следващата граница в изследванията и развитието на ИИ през 2024 г. Тази развиваща се граница се фокусира върху подобряването на капацитета на генеративния ИИ да обработва и произвежда различни резултати, обхващащи текст, изображения, аудио, видео и други модалности. Важно е да се подчертае, че не всички мултимодални системи се квалифицират като LMM. Модели като По средата на пътуването намлява Стабилна дифузия, въпреки че са мултимодални, не се вписват в категорията LMM главно защото им липсва присъствието на LLM, които са основен компонент на LMM. С други думи, можем да опишем LMM като разширение на LLM, предоставяйки им способността да боравят умело с различни модалности.

Как работят LMM?

Докато изследователите са изследвали различни подходи за конструиране на LMM, те обикновено включват три основни компонента и операции. Първо, енкодерите се използват за всяка модалност на данните, за да генерират представяния на данни (наричани вграждания), специфични за тази модалност. Второ, различни механизми се използват за подравняване на вграждания от различни модалности в единно мултимодално пространство за вграждане. Трето, за генеративните модели LLM се използва за генериране на текстови отговори. Тъй като входните данни могат да се състоят от текст, изображения, видео и аудио, изследователите работят върху нови начини да накарат езиковите модели да вземат предвид различни модалности, когато дават отговори.

Разработване на LMM през 2023 г

По-долу очертах накратко някои от забележителните LMM, разработени през 2023 г.

  • LLaVA е LMM с отворен код, разработен съвместно от Университета на Уисконсин-Медисън, Microsoft Research и Колумбийския университет. Моделът има за цел да предложи версия с отворен код на мултимодал GPT4. Ливъридж Лама LLM на Мета, то включва CLIP визуален енкодер за стабилно визуално разбиране. Фокусираният върху здравеопазването вариант на LLaVa, наречен като LLaVA-Med, може да отговори на запитвания, свързани с биомедицински изображения.
  • imagebind е модел с отворен код, създаден от Meta, емулира способността на човешкото възприятие да свързва мултимодални данни. Моделът интегрира шест модалности – текст, изображения/видео, аудио, 3D измервания, температурни данни и данни за движение – научавайки унифицирано представяне в тези разнообразни типове данни. ImageBind може да свързва обекти в снимки с атрибути като звук, 3D форми, температура и движение. Моделът може да се използва например за генериране на сцена от текст или звуци.
  • Безпроблемно M4T е мултимодален модел, проектиран от Meta за насърчаване на комуникацията между многоезичните общности. SeamlessM4T превъзхожда задачите за превод и транскрипция, като поддържа преводи реч към реч, реч към текст, текст към реч и текст към текст. Моделът използва неавторегресивен декодер текст към единица за извършване на тези преводи. Подобрената версия, SeamlessM4T v2, формира основата за модели като SeamlessExpressive намлява Безпроблемно поточно предаване, наблягайки на запазването на израза на различните езици и предоставяйки преводи с минимално забавяне.
  • GPT4, стартиран от OpenAI, е напредък на своя предшественик, GPT3.5. Въпреки че подробните архитектурни специфики не са напълно разкрити, GPT4 е добре оценен за своята плавна интеграция на модели само за текст, само за визуализация и само за аудио. Моделът може да генерира текст както от писмени, така и от графични входове. Той се справя отлично с различни задачи, включително описание на хумор в изображения, обобщаване на текст от екранни снимки и отговаря умело на изпитни въпроси, включващи диаграми. GPT4 също е признат за своята адаптивност при ефективна обработка на широка гама от формати на входни данни.
  • Близнаци, създаден от Google DeepMind, се отличава с това, че е присъщо мултимодален, позволявайки безпроблемно взаимодействие между различни задачи, без да се разчита на съединяване на компоненти с една модалност. Този модел без усилие управлява както текст, така и различни аудио-визуални входове, демонстрирайки способността си да генерира изходи както в текстови, така и в графични формати.

Предизвикателства на големите мултимодални модели

  • Включване на повече модалности на данните: Повечето от съществуващите LMM работят с текст и изображения. Въпреки това, LMM трябва да се развият отвъд текста и изображенията, приспособявайки модалности като видеоклипове, музика и 3D.
  • Наличност на различни набори от данни: Едно от ключовите предизвикателства при разработването и обучението на мултимодални генеративни AI модели е необходимостта от големи и разнообразни набори от данни, които включват множество модалности. Например, за да обучите модел да генерира текст и изображения заедно, наборът от данни трябва да включва входове на текст и изображения, които са свързани помежду си.
  • Генериране на мултимодални резултати: Въпреки че LMM могат да обработват мултимодални входове, генерирането на разнообразни изходи, като комбиниране на текст с графики или анимации, остава предизвикателство.
  • Следните инструкции: LMM са изправени пред предизвикателството да овладеят диалога и задачите за следване на инструкции, преминавайки отвъд простото завършване.
  • Мултимодално разсъждение: Докато настоящите LMM се отличават с преобразуването на една модалност в друга, безпроблемното интегриране на мултимодални данни за сложни задачи за разсъждение, като решаване на писмени текстови проблеми въз основа на слухови инструкции, остава предизвикателно начинание.
  • Компресиране на LMM: Ресурсоемкият характер на LMM представлява значителна пречка, което ги прави непрактични за крайни устройства с ограничени изчислителни ресурси. Компресирането на LMM, за да се подобри ефективността и да се направят подходящи за внедряване на устройства с ограничени ресурси, е ключова област на текущи изследвания.

Потенциални случаи на употреба

  • Образование: LMM имат потенциала да трансформират образованието чрез генериране на разнообразни и ангажиращи учебни материали, които комбинират текст, изображения и аудио. LMM осигуряват цялостна обратна връзка за заданията, насърчават платформи за съвместно обучение и подобряват развитието на умения чрез интерактивни симулации и примери от реалния свят.
  • Здравеопазване: За разлика от традиционните диагностични системи с изкуствен интелект, които са насочени към една модалност, LMM подобряват медицинската диагностика чрез интегриране на множество модалности. Те също така поддържат комуникация през езиковите бариери между доставчиците на здравни услуги и пациентите, действайки като централизирано хранилище за различни AI приложения в болниците.
  • Изкуство и музикално поколение: LMM биха могли да се отличат в създаването на изкуство и музика чрез комбиниране на различни модалности за уникални и изразителни резултати. Например арт LMM може да съчетава визуални и звукови елементи, осигурявайки завладяващо изживяване. По същия начин музикалният LMM може да интегрира инструментални и вокални елементи, което води до динамични и експресивни композиции.
  • Персонализирани препоръки: LMM могат да анализират потребителските предпочитания в различни модалности, за да предоставят персонализирани препоръки за потребление на съдържание, като филми, музика, статии или продукти.
  • Прогноза за времето и мониторинг на околната среда: LMM могат да анализират различни модалности на данни, като сателитни изображения, атмосферни условия и исторически модели, за да подобрят точността на прогнозата за времето и мониторинга на околната среда.

Долната линия

Пейзажът на големите мултимодални модели (LMM) бележи значителен пробив в генеративния AI, обещаващ напредък в различни области. Тъй като тези модели безпроблемно интегрират различни модалности, като текст, изображения и аудио, тяхното развитие отваря врати за трансформиращи приложения в здравеопазването, образованието, изкуството и персонализирани препоръки. Предизвикателствата обаче, включително приспособяването на повече модалности на данните и компресирането на модели с интензивно използване на ресурси, подчертават текущите изследователски усилия, необходими за пълното реализиране на потенциала на LMM.

Д-р Tehseen Zia е редовен доцент в университета COMSATS в Исламабад, притежаващ докторска степен по изкуствен интелект от Виенския технологичен университет, Австрия. Специализирайки в областта на изкуствения интелект, машинното обучение, науката за данните и компютърното зрение, той има значителен принос с публикации в реномирани научни списания. Д-р Tehseen също е ръководил различни индустриални проекти като главен изследовател и е служил като консултант по изкуствен интелект.