стуб Мултимодална вештачка интелигенција еволуира како ЦхатГПТ добија на уму са ГПТ-4В(исион) - Уните.АИ
Повежите се са нама

Вештачка интелигенција

Мултимодална вештачка интелигенција еволуира како ЦхатГПТ добија на уму са ГПТ-4В(исион)

mm
Ажурирано on
цхатгпт висион

У сталним напорима да се АИ учини што сличнијим људима, ОпенАИ ГПТ модели непрестано померају границе. ГПТ-4 сада може да прихвати упите и текста и слика.

Мултимодалност у генеративној вештачкој интелигенцији означава способност модела да производи различите излазе попут текста, слика или звука на основу улаза. Ови модели, обучени на одређеним подацима, уче основне обрасце за генерисање сличних нових података, обогаћујући АИ апликације.

Недавни кораци у мултимодалној вештачкој интелигенцији

Недавни значајан искорак у овој области уочен је интеграцијом ДАЛЛ-Е 3 у ЦхатГПТ, значајном надоградњом ОпенАИ технологије текста у слику. Ова мешавина омогућава глаткију интеракцију где ЦхатГПТ помаже у креирању прецизних упита за ДАЛЛ-Е 3, претварајући корисничке идеје у живописну уметност генерисану вештачком интелигенцијом. Дакле, док корисници могу директно да комуницирају са ДАЛЛ-Е 3, ЦхатГПТ у комбинацији чини процес креирања АИ уметности много лакшим за корисника.

Погледајте више о ДАЛЛ-Е 3 и његовој интеграцији са ЦхатГПТ ovde. Ова сарадња не само да показује напредак у мултимодалној вештачкој интелигенцији, већ и чини стварање АИ уметности лаким за кориснике.

С друге стране, представљено је Гоогле-ово здравље Мед-ПаЛМ М јуна ове године. То је мултимодални генеративни модел вешт у кодирању и тумачењу различитих биомедицинских података. Ово је постигнуто финим подешавањем ПаЛМ-Е, језичког модела, како би се задовољиле медицинске домене користећи бенцхмарк отвореног кода, МултиМедБенцх. Ово мерило се састоји од преко 1 милион узорака у 7 типова биомедицинских података и 14 задатака као што су одговарање на медицинска питања и генерисање радиолошких извештаја.

Различите индустрије усвајају иновативне мултимодалне АИ алате како би подстакле ширење пословања, поједноставиле операције и повећале ангажовање купаца. Напредак у гласовним, видео и текстуалним могућностима вештачке интелигенције покреће раст мултимодалне вештачке интелигенције.

Предузећа траже мултимодалне АИ апликације способне да преиспитају пословне моделе и процесе, отварајући путеве раста у генеративном АИ екосистему, од алата за податке до нових АИ апликација.

Након лансирања ГПТ-4 у марту, неки корисници су приметили пад квалитета његовог одговора током времена, што је забринутост коју су изразили значајни програмери и на форумима ОпенАИ. Првобитно одбачен од стране ОпенАИ-а, касније студирати потврдио питање. Открио је пад тачности ГПТ-4 са 97.6% на 2.4% између марта и јуна, што указује на пад квалитета одговора са накнадним ажурирањима модела.

цхатгпт-аи

ЦхатГПТ (плава) и вештачка интелигенција (црвена) Тренд Гоогле претраге

Хипе около Отворите АИ ЦхатГПТ се сада вратио. Сада долази са функцијом визије ГПТ-4В, омогућавајући корисницима да ГПТ-4 анализира слике које су дали. Ово је најновија функција која је отворена за кориснике.

Додавање анализе слике великим језичким моделима (ЛЛМ) као што је ГПТ-4 неки виде као велики корак напред у истраживању и развоју вештачке интелигенције. Ова врста мултимодалног ЛЛМ отвара нове могућности, узимајући језичке моделе изван текста да би понудио нове интерфејсе и решио нове врсте задатака, стварајући нова искуства за кориснике.

Обука ГПТ-4В је завршена 2022. године, а рани приступ је покренут у марту 2023. Визуелну функцију у ГПТ-4В покреће ГПТ-4 технологија. Процес обуке је остао исти. У почетку, модел је био обучен да предвиди следећу реч у тексту користећи масивни скуп података и текста и слика из различитих извора, укључујући интернет.

Касније је фино подешен са више података, користећи методу названу учење појачања из повратних информација од људи (РЛХФ), да би се генерисали резултати које су људи преферирали.

ГПТ-4 Висион Мецханицс

Изванредне језичке способности ГПТ-4, иако импресивне, имају основне методе које остају на површини.

Да бисмо истражили ову хипотезу, нови модел језика визије, МиниГПТ-4 је уведен, користећи напредни ЛЛМ под називом Вицуна. Овај модел користи енкодер за вид са унапред обученим компонентама за визуелну перцепцију, усклађујући кодиране визуелне карактеристике са Вицуна језичким моделом кроз један слој пројекције. Архитектура МиниГПТ-4 је једноставна, али ефикасна, са фокусом на усклађивање визуелних и језичких карактеристика ради побољшања визуелних могућности разговора.

МиниГПТ-4

Архитектура МиниГПТ-4 укључује енкодер са унапред обученим ВиТ и К-Формер, један слој линеарне пројекције и напредни Вицуна модел великог језика.

Тренд ауторегресивних језичких модела у задацима визијског језика је такође порастао, капитализирајући међумодални трансфер ради размјене знања између језика и мултимодалних домена.

МиниГПТ-4 повезује визуелне и језичке домене усклађивањем визуелних информација из унапред обученог енкодера за вид са напредним ЛЛМ. Модел користи Вицуна као декодер језика и прати двостепени приступ тренингу. У почетку је обучен на великом скупу података парова слика-текст да би схватио знање о језику и виду, након чега следи фино подешавање на мањем скупу података високог квалитета како би се побољшала поузданост и употребљивост генерисања.

Да би побољшали природност и употребљивост генерисаног језика у МиниГПТ-4, истраживачи су развили процес поравнања у две фазе, бавећи се недостатком адекватних скупова података о поравнању вида и језика. За ову сврху су припремили специјализовани скуп података.

У почетку, модел је генерисао детаљне описе улазних слика, побољшавајући детаље коришћењем разговора за разговор усклађен са форматом модела језика Вицуна. Ова фаза је имала за циљ генерисање свеобухватнијих описа слика.

Упит за почетни опис слике:

###Људски: Опишите ову слику детаљно. Дајте што више детаља. Реци све што видиш. ###Асистент:

За накнадну обраду података, све недоследности или грешке у генерисаним описима су исправљене помоћу ЦхатГПТ-а, након чега је уследила ручна провера да би се обезбедио висок квалитет.

Упит за фино подешавање друге фазе:

###Људски: ###Асистент:

Ово истраживање отвара прозор у разумевање механике мултимодалне генеративне АИ као што је ГПТ-4, бацајући светло на то како се визија и модалитети језика могу ефикасно интегрисати да би се генерисали кохерентни и контекстуално богати резултати.

Истраживање ГПТ-4 Висион

Утврђивање порекла слике помоћу ЦхатГПТ-а

ГПТ-4 Висион побољшава ЦхатГПТ-ову способност да анализира слике и прецизно одреди њихово географско порекло. Ова функција преноси корисничке интеракције са само текста на мешавину текста и визуелних приказа, постајући згодан алат за оне који су знатижељни о различитим местима путем сликовних података.

Цхатгпт-висион-ГПТ-4

Питам ЦхатГПТ где је снимљена слика обележја

Сложени математички концепти

ГПТ-4 Висион се истиче у удубљивању у сложене математичке идеје анализом графичких или руком писаних израза. Ова функција делује као користан алат за појединце који желе да реше замршене математичке проблеме, означавајући ГПТ-4 Висион као значајну помоћ у образовним и академским областима.

Цхатгпт-висион-ГПТ-4

Тражите од ЦхатГПТ-а да разуме комплексан математички концепт

Претварање ручно писаног уноса у ЛаТеКс кодове

Једна од изузетних способности ГПТ-4В је његова способност да преведе руком писане уносе у ЛаТеКс кодове. Ова функција је благодат за истраживаче, академике и студенте који често морају да конвертују руком писане математичке изразе или друге техничке информације у дигитални формат. Трансформација са руком писаног на ЛаТеКс проширује хоризонт дигитализације докумената и поједностављује процес техничког писања.

Способност ГПТ-4В да конвертује ручно писани унос у ЛаТеКс кодове

Способност ГПТ-4В да конвертује ручно писани унос у ЛаТеКс кодове

Екстраховање детаља табеле

ГПТ-4В показује вештину у издвајању детаља из табела и адресирању повезаних упита, што је витална предност у анализи података. Корисници могу да користе ГПТ-4В да прегледају табеле, прикупљају кључне увиде и решавају питања заснована на подацима, што га чини робусним алатом за аналитичаре података и друге професионалце.

ГПТ-4В дешифрује детаље табеле и одговара на сродне упите

ГПТ-4В дешифрује детаље табеле и одговара на сродне упите

Разумевање визуелног показивања

Јединствена способност ГПТ-4В да схвати визуелно показивање додаје нову димензију интеракцији корисника. Разумевањем визуелних знакова, ГПТ-4В може да одговори на упите са вишим контекстуалним разумевањем.

ГПТ-4В-демонстрира-јединствену-способност-разумевања-визуелно-указивање

ГПТ-4В показује изразиту способност разумевања визуелног показивања

Прављење једноставних моцк-уп веб локација помоћу цртежа

Мотивисан овим цвркут, покушао сам да направим макету за веб локацију уните.аи.

Иако резултат није сасвим одговарао мојој почетној визији, ево резултата који сам постигао.

Излазни ХТМЛ фронтенд заснован на ЦхатГПТ Висион

Излазни ХТМЛ фронтенд заснован на ЦхатГПТ Висион

Ограничења и недостаци ГПТ-4В(исион)

Да би анализирао ГПТ-4В, Опен АИ тим је извршио квалитативне и квантитативне процене. Квалитативни су укључивали интерне тестове и екстерне експертске прегледе, док су квантитативни мерили одбијања модела и тачност у различитим сценаријима као што су идентификација штетног садржаја, демографско препознавање, забринутост за приватност, геолокација, сајбер безбедност и мултимодални бекство из затвора.

Ипак, модел није савршен.

папир наглашава ограничења ГПТ-4В, као што су нетачни закључци и недостајући текст или знакови на сликама. Може халуцинирати или измишљати чињенице. Посебно, није погодан за идентификацију опасних супстанци на сликама, често их погрешно идентификујући.

У медицинском снимању, ГПТ-4В може да пружи недоследне одговоре и недостатак свести о стандардним праксама, што доводи до потенцијалних погрешних дијагноза.

Непоуздане перформансе у медицинске сврхе.

Непоуздане перформансе у медицинске сврхе (извор)

Такође не успева да схвати нијансе одређених симбола мржње и може да генерише неприкладан садржај на основу визуелних инпута. ОпенАИ саветује да не користите ГПТ-4В за критичка тумачења, посебно у медицинском или осетљивом контексту.

Завршавајући

Креиран коришћењем Фаст Стабле Диффусион КСЛ

Креиран коришћењем Фаст Стабле Диффусион КСЛ https://huggingface.co/spaces/google/sdxl

Долазак ГПТ-4 Висион (ГПТ-4В) доноси гомилу сјајних могућности и нових препрека за прескакање. Пре него што је представљен, уложено је много труда да се ризици, посебно када су у питању слике људи, добро проуче и смање. Импресивно је видети како је ГПТ-4В напредовао, показујући много обећања у лукавим областима попут медицине и науке.

Сада, на столу су нека велика питања. На пример, да ли би ови модели требало да могу да идентификују познате људе са фотографија? Да ли на слици треба да погоде пол, расу или осећања особе? И да ли треба да постоје посебна подешавања за помоћ особама са оштећеним видом? Ова питања отварају канту црва о приватности, правичности и томе како би вештачка интелигенција требало да се уклопи у наше животе, о чему би свако требало да има реч.

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.