Вештачка интелигенција

Мултимодалната вештачка интелигенција се развива додека ChatGPT добива вид со GPT-4V (ision)

Ажурирани on Октомври 9, 2023

Во тековните напори да се направи вештачката интелигенција повеќе како луѓето, GPT моделите на OpenAI постојано ги поместуваат границите. GPT-4 сега може да прифаќа барања и за текст и за слики.

Мултимодалноста во генеративната вештачка интелигенција ја означува способноста на моделот да произведува различни излези како текст, слики или аудио врз основа на влезот. Овие модели, обучени за специфични податоци, ги учат основните шеми за да генерираат слични нови податоци, збогатувајќи ги апликациите за вештачка интелигенција.

Последни чекори во мултимодалната вештачка интелигенција

Неодамнешниот забележителен скок на ова поле е забележан со интеграцијата на DALL-E 3 во ChatGPT, значајна надградба во технологијата текст-на-слика на OpenAI. Овој спој овозможува помазна интеракција каде што ChatGPT помага во изработката на прецизни потсетници за DALL-E 3, претворајќи ги корисничките идеи во живописна уметност генерирана од вештачка интелигенција. Така, додека корисниците можат директно да комуницираат со DALL-E 3, имањето ChatGPT во комбинација го прави процесот на создавање уметност со вештачка интелигенција многу попријатен за корисниците.

Проверете повеќе за DALL-E 3 и неговата интеграција со ChatGPT овде. Оваа соработка не само што го прикажува напредокот во мултимодалната вештачка интелигенција, туку и го прави создавањето уметност со вештачка интелигенција лесно за корисниците.

https://openai.com/dall-e-3

Здравјето на Google од друга страна воведе Мед-ПалМ М во јуни оваа година. Тоа е мултимодален генеративен модел вешт во кодирање и толкување на различни биомедицински податоци. Ова беше постигнато со дотерување на PaLM-E, јазичен модел, за да се грижи за медицинските домени користејќи репер со отворен код, MultiMedBench. Овој репер се состои од над 1 милион примероци од 7 типови биомедицински податоци и 14 задачи како што се одговарање на медицински прашања и генерирање извештаи од радиологија.

Различни индустрии усвојуваат иновативни мултимодални алатки за вештачка интелигенција за да поттикнат проширување на бизнисот, да ги насочат операциите и да го подигнат ангажманот на клиентите. Напредокот во способностите за гласовна, видео и текстуална вештачка интелигенција го поттикнува растот на мултимодалната вештачка интелигенција.

Претпријатијата бараат мултимодални апликации за вештачка интелигенција способни за ревизија на деловните модели и процеси, отворајќи ги патиштата за раст низ генеративниот екосистем за вештачка интелигенција, од алатки за податоци до новите апликации за вештачка интелигенција.

По лансирањето на GPT-4 во март, некои корисници забележаа пад на квалитетот на неговиот одговор со текот на времето, загриженост што ја повторија значајните програмери и форумите на OpenAI. Првично отфрлен од OpenAI, подоцна студија го потврди проблемот. Откри пад на точноста на GPT-4 од 97.6% на 2.4% помеѓу март и јуни, што укажува на пад на квалитетот на одговорите со последователните ажурирања на моделот.

ChatGPT (сина) и вештачка интелигенција (црвена) Тренд на пребарување на Google

Возбуда околу Отворете AI ChatGPT се врати сега. Сега доаѓа со функција за вид GPT-4V, овозможувајќи им на корисниците GPT-4 да ги анализираат сликите дадени од нив. Ова е најновата функција што е отворена за корисниците.

Додавањето анализа на слики на големи јазични модели (LLM) како што е GPT-4, некои го гледаат како голем чекор напред во истражувањето и развојот на вештачката интелигенција. Овој вид мултимодален LLM отвора нови можности, земајќи ги јазичните модели надвор од текстот за да понуди нови интерфејси и да решава нови видови задачи, создавајќи свежи искуства за корисниците.

Обуката на GPT-4V беше завршена во 2022 година, со ран пристап воведен во март 2023 година. Визуелната карактеристика во GPT-4V се напојува со технологијата GPT-4. Процесот на обука остана ист. Првично, моделот беше обучен да го предвидува следниот збор во текст користејќи масовна база на податоци од текст и слики од различни извори, вклучително и Интернет.

Подоцна, тој беше фино подесен со повеќе податоци, користејќи метод наречен засилување учење од човечки повратни информации (RLHF), за да се генерираат излези што луѓето ги претпочитаат.

GPT-4 Визија Механика

Извонредните јазични способности на GPT-4, иако импресивни, имаат основни методи кои остануваат на површината.

За да се истражи оваа хипотеза, нов модел на визија-јазик, miniGPT-4 беше воведен, користејќи напреден LLM именуван Викуна. Овој модел користи кодер за вид со претходно обучени компоненти за визуелна перцепција, усогласувајќи ги кодираните визуелни карактеристики со моделот на јазикот Vicuna преку еден проекциски слој. Архитектурата на MiniGPT-4 е едноставна, но ефикасна, со фокус на усогласување на визуелните и јазичните карактеристики за подобрување на способностите за визуелен разговор.

Архитектурата на MiniGPT-4 вклучува енкодер за вид со претходно обучени ViT и Q-Former, единечен линеарен проекциски слој и напреден Vicuna модел со голем јазик.

Трендот на авторегресивни јазични модели во задачите на јазикот на видот исто така порасна, капитализирајќи го вкрстено-модалниот трансфер за споделување на знаењето помеѓу јазикот и мултимодалните домени.

MiniGPT-4 ги премостува визуелните и јазичните домени со усогласување на визуелните информации од претходно обучен кодер за вид со напреден LLM. Моделот користи Vicuna како јазичен декодер и следи пристап за обука во две фази. Првично, тој е обучен на голема база на податоци од парови слика-текст за да го сфати знаењето за јазикот на видот, проследено со дотерување на помала, висококвалитетна база на податоци за да се подобри веродостојноста и употребливоста на генерирањето.

За да се подобри природноста и употребливоста на генерираниот јазик во MiniGPT-4, истражувачите развија процес на усогласување во две фази, а се справува со недостатокот на соодветни збирки на податоци за усогласување визија-јазик. Тие курираа специјализирана база на податоци за оваа намена.

Првично, моделот генерираше детални описи на влезните слики, подобрувајќи ги деталите со користење на разговорно известување усогласено со форматот на моделот на јазикот Vicuna. Оваа фаза имаше за цел да генерира посеопфатни описи на слики.

Почетна порака за опис на сликата:

###Човечки: Опишете ја оваа слика детално. Наведете што е можно повеќе детали. Кажете сè што гледате. ###Помошник:

За пост-обработка на податоците, сите недоследности или грешки во генерираните описи беа поправени со помош на ChatGPT, проследено со рачна проверка за да се обезбеди висок квалитет.

Известување за фино подесување во втора фаза:

###Човечки: ###Помошник:

Ова истражување отвора прозорец за разбирање на механиката на мултимодалната генеративна вештачка интелигенција како што е GPT-4, фрлајќи светлина врз тоа како модалитетите на видот и јазикот можат ефективно да се интегрираат за да се генерираат кохерентни и контекстуално богати резултати.

Истражување на GPT-4 Vision

Одредување на потеклото на сликата со ChatGPT

GPT-4 Vision ја подобрува способноста на ChatGPT да анализира слики и точно да го означува нивното географско потекло. Оваа функција ги префрла корисничките интеракции од само текст во мешавина на текст и визуелни слики, станувајќи корисна алатка за оние кои се љубопитни за различни места преку податоци за слики.

Прашање ChatGPT каде е направена слика за обележје

Комплексни математички концепти

GPT-4 Vision се истакнува во навлегувањето во сложени математички идеи преку анализа на графички или рачно напишани изрази. Оваа функција делува како корисна алатка за поединци кои сакаат да решат сложени математички проблеми, означувајќи го GPT-4 Vision како забележителна помош во образовните и академските области.

Барање ChatGPT да разбере сложен математички концепт

Конвертирање на рачно напишано внесување во LaTeX кодови

Една од извонредните способности на GPT-4V е неговата способност да преведува рачно напишани влезови во LaTeX кодови. Оваа функција е благодет за истражувачите, академиците и студентите кои често треба да ги претворат рачно напишаните математички изрази или други технички информации во дигитален формат. Трансформацијата од рачно напишано во LaTeX го проширува хоризонтот на дигитализација на документите и го поедноставува процесот на техничко пишување.

$Способноста на GPT-4V да го конвертира рачно напишаниот влез во LaTeX кодови$

Способноста на GPT-4V да го конвертира рачно напишаниот влез во LaTeX кодови

Извлекување на детали за табела

GPT-4V ја покажува вештината за извлекување детали од табелите и адресирање поврзани прашања, витална предност во анализата на податоците. Корисниците можат да го користат GPT-4V за да просејуваат табели, да соберат клучни сознанија и да решаваат прашања засновани на податоци, што го прави силна алатка за аналитичарите на податоци и други професионалци.

GPT-4V дешифрира детали од табелата и одговара на поврзани прашања

Разбирање на визуелно посочување

Уникатната способност на GPT-4V да го разбере визуелното покажување додава нова димензија на интеракцијата со корисникот. Со разбирање на визуелните знаци, GPT-4V може да одговори на прашања со повисоко контекстуално разбирање.

GPT-4V-покажува-уникатната-способност-на-разбирање-визуелно-посочување

GPT-4V ја покажува посебната способност за разбирање на визуелното покажување

Изградба на едноставни макетни веб-страници со помош на цртеж

Мотивирани од ова чуруликам, се обидов да создадам макет за веб-страницата unite.ai.

Иако исходот не се совпаѓа со мојата првична визија, еве го резултатот што го постигнав.

Излез на HTML преден дел базиран на ChatGPT Vision

Ограничувања и недостатоци на GPT-4V(ision)

За да го анализира GPT-4V, тимот на Open AI изврши квалитативни и квантитативни проценки. Квалитативните вклучуваа внатрешни тестови и надворешни експертски прегледи, додека квантитативните ги мереа одбивањата на моделите и точноста во различни сценарија како што се идентификување штетна содржина, демографско препознавање, загриженост за приватноста, геолокација, сајбер безбедност и мултимодални џеилбрејкови.

Сепак, моделот не е совршен.

на хартија ги нагласува ограничувањата на GPT-4V, како што се неточни заклучоци и недостасува текст или знаци во сликите. Може да халуцинира или да измислува факти. Особено, тој не е погоден за идентификување на опасните супстанции на сликите, честопати погрешно ги идентификува.

Во медицинската слика, GPT-4V може да обезбеди неконзистентни одговори и нема свест за стандардните практики, што доведува до потенцијални погрешни дијагнози.

несигурни перформанси за медицински цели (извор)

Исто така, не ги разбира нијансите на одредени симболи на омраза и може да генерира несоодветна содржина врз основа на визуелните влезови. OpenAI советува да не се користи GPT-4V за критични толкувања, особено во медицински или чувствителни контексти.

Завршувајќи

Создаден со помош на Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

Доаѓањето на GPT-4 Vision (GPT-4V) носи еден куп интересни можности и нови пречки за прескокнување. Пред да го објавиме, вложени се многу напор за да се осигураме дека ризиците, особено кога станува збор за слики од луѓе, се добро разгледани и намалени. Импресивно е да се види како GPT-4V се засили, покажувајќи многу ветувања во незгодните области како медицината и науката.

Сега, има некои големи прашања на маса. На пример, дали овие модели треба да можат да ги идентификуваат познатите луѓе од фотографиите? Дали треба да го погодат полот, расата или чувствата на личноста од слика? И, дали треба да има посебни измени за да им се помогне на лицата со оштетен вид? Овие прашања отвораат многу црви за приватноста, правичноста и како вештачката интелигенција треба да се вклопи во нашите животи, што е нешто за кое секој треба да има свое мислење.

Поврзани теми:разговор gpt ДАЛ-Е3 Мултимодална вештачка интелигенција ПРОМПТ ИНЖЕНЕРСТВО

Следно

Midjourney vs Stable Diffusion: The Battle of AI Image Generators

Не ја пропуштајте

Од Интернет на нештата до Интернет на сè: Конвергенција на AI и 6G за поврзана интелигенција

Ајуш Митал

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.

Обединете се.AI

Мултимодалната вештачка интелигенција се развива додека ChatGPT добива вид со GPT-4V (ision)

Вештачка интелигенција

Мултимодалната вештачка интелигенција се развива додека ChatGPT добива вид со GPT-4V (ision)

Содржина