Artificial Intelligence

Bidh AI Multimodal a ’tighinn air adhart mar a bhios ChatGPT a’ faighinn sealladh le GPT-4V (ision)

Ùraichte on Dàmhair 9, 2023

Anns an oidhirp leantainneach gus AI a dhèanamh nas coltaiche ri daoine, tha modalan GPT OpenAI air na crìochan a phutadh gu cunbhalach. Tha GPT-4 a-nis comasach air gabhail ri molaidhean teacsa agus ìomhaighean.

Tha ioma-mhodh ann an AI ginealach a’ comharrachadh comas modail toraidhean eadar-dhealaichte a thoirt gu buil leithid teacsa, ìomhaighean, no claisneachd stèidhichte air an cuir a-steach. Bidh na modailean sin, air an trèanadh air dàta sònraichte, ag ionnsachadh pàtrain bunaiteach gus dàta ùr coltach ris a ghineadh, a’ beairteachadh thagraidhean AI.

Ceumannan o chionn ghoirid ann an AI Multimodal

Tha leum mòr o chionn ghoirid san raon seo ri fhaicinn le amalachadh DALL-E 3 a-steach do ChatGPT, ùrachadh mòr ann an teicneòlas teacsa-gu-ìomhaigh OpenAI. Tha an cothlamadh seo a’ ceadachadh eadar-obrachadh nas socair far am bi ChatGPT a’ cuideachadh le bhith a’ cruthachadh mholaidhean mionaideach airson DALL-E 3, a’ tionndadh bheachdan luchd-cleachdaidh gu ealain beòthail air a ghineadh le AI. Mar sin, ged as urrainn do luchd-cleachdaidh eadar-obrachadh gu dìreach le DALL-E 3, le bhith a’ faighinn ChatGPT sa mheasgachadh bidh am pròiseas airson ealain AI a chruthachadh tòrr nas fhasa a chleachdadh.

Thoir sùil air barrachd air DALL-E 3 agus mar a tha e ceangailte ri ChatGPT an seo. Tha an co-obrachadh seo chan ann a-mhàin a’ taisbeanadh adhartas ann an AI ioma-mhodhail ach tha e cuideachd a’ toirt air cruthachadh ealain AI na ghaoith dha luchd-cleachdaidh.

https://openai.com/dall-e-3

Air an làimh eile thug slàinte Google a-steach Med-PaLM M san Ògmhios am-bliadhna. Tha e na mhodail ginealach ioma-mhodhail a tha comasach air còdachadh agus eadar-mhìneachadh dàta bith-mheidigeach eadar-mheasgte. Chaidh seo a choileanadh le bhith a’ gleusadh PaLM-E, modail cànain, gus frithealadh air raointean meidigeach a’ cleachdadh slat-tomhais stòr fosgailte, MultiMedBench. Tha an slat-tomhais seo, a’ toirt a-steach còrr air 1 millean sampall thairis air 7 seòrsaichean dàta bith-mheidigeach agus 14 gnìomhan leithid freagairt cheistean meidigeach agus gineadh aithisgean rèidio-eòlas.

Tha diofar ghnìomhachasan a’ gabhail ri innealan AI ioma-mhodhail ùr-ghnàthach gus leudachadh gnìomhachais a bhrosnachadh, gnìomhachd a sgioblachadh, agus conaltradh teachdaiche àrdachadh. Tha adhartas ann an comasan guth, bhidio, agus teacsa AI a’ brosnachadh fàs ioma-mhodhail AI.

Bidh iomairtean a’ sireadh thagraidhean AI ioma-mhodhail a tha comasach air modalan agus pròiseasan gnìomhachais ath-sgrùdadh, a’ fosgladh slighean fàis thairis air an eag-shiostam AI ginealach, bho innealan dàta gu tagraidhean AI a tha a’ tighinn am bàrr.

Às deidh foillseachadh GPT-4 sa Mhàrt, bha cuid de luchd-cleachdaidh a’ faicinn crìonadh ann an càileachd freagairt thar ùine, dragh a thog luchd-leasachaidh ainmeil agus air fòraman OpenAI. Chaidh a dhiùltadh an toiseach le OpenAI, nas fhaide air adhart sgrùdadh dhaingnich a’ chùis. Nochd e tuiteam ann an cruinneas GPT-4 bho 97.6% gu 2.4% eadar Màrt agus Ògmhios, a’ nochdadh crìonadh ann an càileachd freagairt le ùrachaidhean modail às deidh sin.

ChatGPT (gorm) & inntleachd fuadain (dearg) Google Search Trend

An hype timcheall Fosgail AI Tha ChatGPT air ais a-nis. Tha e a-nis a’ tighinn le feart lèirsinn GPT-4V, a 'toirt cothrom do luchd-cleachdaidh GPT-4 a bhith a' sgrùdadh ìomhaighean a thug iad seachad. Is e seo am feart as ùire a chaidh fhosgladh do luchd-cleachdaidh.

Tha cuid a’ faicinn mion-sgrùdadh ìomhaigh ri modalan cànain mòra (LLMn) mar GPT-4 mar cheum mòr air adhart ann an rannsachadh agus leasachadh AI. Bidh an seòrsa LLM ioma-mhodhail seo a’ fosgladh chothroman ùra, a’ toirt mhodalan cànain seachad air teacsa gus eadar-aghaidh ùr a thabhann agus seòrsan ùra de ghnìomhan fhuasgladh, a’ cruthachadh eòlasan ùra do luchd-cleachdaidh.

Chaidh trèanadh GPT-4V a chrìochnachadh ann an 2022, le ruigsinneachd tràth air a sgaoileadh a-mach sa Mhàrt 2023. Tha am feart lèirsinneach ann an GPT-4V air a stiùireadh le teicneòlas GPT-4. Dh'fhuirich am pròiseas trèanaidh mar a bha e. An toiseach, chaidh am modail a thrèanadh gus an ath fhacal ann an teacsa a ro-innse a’ cleachdadh stòr-dàta mòr de theacsa agus ìomhaighean bho dhiofar thùsan a’ gabhail a-steach an eadar-lìn.

Nas fhaide air adhart, chaidh a ghleusadh le barrachd dàta, a’ cleachdadh dòigh leis an ainm ionnsachadh ath-neartachaidh bho fhios air ais daonna (RLHF), gus toraidhean a ghineadh a b’ fheàrr le daoine.

GPT-4 Vision Mechanics

Tha comasan cànain lèirsinn iongantach GPT-4, ged a tha iad drùidhteach, le dòighean bunaiteach a tha fhathast air an uachdar.

Gus sgrùdadh a dhèanamh air a’ bheachd-bharail seo, modail cànan lèirsinn ùr, miniGPT-4 a thoirt a-steach, a’ cleachdadh LLM adhartach ainmichte Bhiocùna. Bidh am modail seo a’ cleachdadh encoder lèirsinn le co-phàirtean ro-thrèanadh airson tuigse lèirsinneach, a’ co-thaobhadh feartan lèirsinneach còdaichte le modal cànain Vicuna tro aon ìre ro-mheasaidh. Tha ailtireachd MiniGPT-4 sìmplidh ach èifeachdach, le fòcas air a bhith a’ co-thaobhadh feartan lèirsinneach is cànain gus comasan còmhraidh lèirsinneach a leasachadh.

Tha ailtireachd MiniGPT-4 a’ toirt a-steach encoder lèirsinn le ViT agus Q-Former ro-thrèanadh, aon sreath ro-mheasadh sreathach, agus modal cànain mòr adhartach Vicuna.

Tha an gluasad de mhodalan cànain fèin-ghluasadach ann an gnìomhan cànan lèirsinn air a dhol am meud cuideachd, a’ gabhail brath air gluasad thar-mhodal gus eòlas a cho-roinn eadar cànan agus raointean ioma-mhodhail.

Bidh MiniGPT-4 a’ drochaid nan raointean lèirsinneach is cànain le bhith a’ co-thaobhadh fiosrachadh lèirsinneach bho encoder lèirsinn ro-thrèanadh le LLM adhartach. Bidh am modail a’ cleachdadh Vicuna mar an decoder cànain agus a’ leantainn dòigh-obrach trèanaidh dà-ìre. An toiseach, tha e air a thrèanadh air seata dàta mòr de chàraidean ìomhaigh-teacsa gus eòlas fhaighinn air cànan lèirsinn, air a leantainn le mion-gleusadh air stòr-dàta nas lugha de chàileachd àrd gus earbsachd is cleachdadh ginealach àrdachadh.

Gus nàdarrachd agus comasachd cànan gineadh ann am MiniGPT-4 a leasachadh, leasaich luchd-rannsachaidh pròiseas co-thaobhadh dà-ìre, a’ dèiligeadh ri gainnead stòran-dàta co-thaobhadh cànain lèirsinn. Chruthaich iad stòr-dàta sònraichte airson an adhbhair seo.

An toiseach, chruthaich am modail tuairisgeulan mionaideach air ìomhaighean cuir a-steach, ag àrdachadh mion-fhiosrachadh le bhith a’ cleachdadh sgiobalta còmhraidh a tha co-chosmhail ri cruth modail cànain Vicuna. Bha an ìre seo ag amas air tuairisgeulan ìomhaigh nas coileanta a chruthachadh.

Mìneachadh air a’ chiad dealbh Gu sgiobalta:

###Duine: Thoir cunntas mionaideach air an ìomhaigh seo. Thoir seachad nas urrainn dhut de mhion-fhiosrachadh. Abair a h-uile dad a chì thu. ### Neach-cuideachaidh:

Airson post-giullachd dàta, chaidh neo-chunbhalachd no mearachdan sam bith anns na tuairisgeulan a chaidh a chruthachadh a cheartachadh a’ cleachdadh ChatGPT, agus an uairsin dearbhadh làimhe gus dèanamh cinnteach à càileachd àrd.

Moladh gleusadh an dàrna ìre:

###Duine: ### Neach-cuideachaidh:

Tha an sgrùdadh seo a’ fosgladh uinneag gu bhith a’ tuigsinn meacanaig AI ginealachd ioma-mhodhail mar GPT-4, a’ tilgeil solas air mar as urrainnear lèirsinn agus modhan cànain a thoirt a-steach gu h-èifeachdach gus toraidhean ciallach agus beairteach a chruthachadh.

A’ sgrùdadh GPT-4 Vision

A’ dearbhadh tùsan ìomhaigh le ChatGPT

Tha GPT-4 Vision ag àrdachadh comas ChatGPT gus ìomhaighean a mhion-sgrùdadh agus an tùs cruinn-eòlasach a chomharrachadh. Bidh am feart seo ag atharrachadh eadar-obrachaidhean luchd-cleachdaidh bho dìreach teacsa gu measgachadh de theacsa agus ìomhaighean, gu bhith na inneal feumail dhaibhsan a tha feòrachail mu dhiofar àiteachan tro dhàta ìomhaigh.

A’ faighneachd do ChatGPT càite an tèid Ìomhaigh Landmark a thogail

Bun-bheachdan Math iom-fhillte

Tha GPT-4 Vision air leth math ann a bhith a’ sgrùdadh bheachdan matamataigeach iom-fhillte le bhith a’ dèanamh anailis air abairtean grafaigeach no làmh-sgrìobhte. Tha am feart seo ag obair mar inneal feumail do dhaoine fa leth a tha ag iarraidh fuasgladh fhaighinn air duilgheadasan matamataigeach toinnte, a’ comharrachadh GPT-4 Vision mar thaic shònraichte ann an raointean foghlaim is acadaimigeach.

Ag iarraidh air ChatGPT bun-bheachd matamataigeach iom-fhillte a thuigsinn

Ag atharrachadh cuir a-steach làmh-sgrìobhte gu còdan LaTeX

Is e aon de na comasan iongantach aig GPT-4V an comas aige cuir a-steach làmh-sgrìobhte eadar-theangachadh gu còdan LaTeX. Tha am feart seo na ghoireas dha luchd-rannsachaidh, acadaimigich, agus oileanaich a dh’ fheumas gu tric abairtean matamataigeach làmh-sgrìobhte no fiosrachadh teicnigeach eile a thionndadh gu cruth didseatach. Tha an cruth-atharrachadh bho làmh-sgrìobhte gu LaTeX a’ leudachadh fàire digiteachadh sgrìobhainnean agus a’ sìmpleachadh a’ phròiseas sgrìobhaidh teignigeach.

Comas GPT-4V air cuir a-steach làmh-sgrìobhte a thionndadh gu còdan LaTeX

A’ toirt a-mach mion-fhiosrachadh Clàr

Tha GPT-4V a’ nochdadh sgil ann a bhith a’ tarraing mion-fhiosrachadh bho chlàran agus a’ dèiligeadh ri ceistean co-cheangailte, maoin deatamach ann am mion-sgrùdadh dàta. Faodaidh luchd-cleachdaidh GPT-4V a chleachdadh gus sgrìobadh tro chlàran, prìomh sheallaidhean a chruinneachadh, agus ceistean stèidhichte air dàta fhuasgladh, ga dhèanamh na inneal làidir airson sgrùdairean dàta agus proifeiseantaich eile.

GPT-4V a’ mìneachadh mion-fhiosrachadh clàr agus a’ freagairt cheistean co-cheangailte

A’ tuigsinn puingeachadh lèirsinneach

Tha comas sònraichte GPT-4V airson puingean lèirsinneach a thuigsinn a’ cur meud ùr ri eadar-obrachadh luchd-cleachdaidh. Le bhith a’ tuigsinn cuisean lèirsinneach, faodaidh GPT-4V ceistean a fhreagairt le tuigse cho-theacsail nas àirde.

GPT-4V-a’ nochdadh-comas-sònraichte-comas-tuigse-sealladh lèirsinneach

Tha GPT-4V a’ taisbeanadh a’ chomas shònraichte a bhith a’ tuigsinn puingean lèirsinneach

A’ togail làraich-lìn shìmplidh a’ cleachdadh dealbh

Air a bhrosnachadh le seo tweet, dh’ fheuch mi ri magadh a chruthachadh airson làrach-lìn unite.ai.

Ged nach robh a’ bhuil buileach a’ freagairt air a’ chiad sealladh a bh’ agam, seo an toradh a choilean mi.

Toradh HTML Frontend stèidhichte air ChatGPT Vision

Cuingeachaidhean & lochdan GPT-4V (ision)

Gus mion-sgrùdadh a dhèanamh air GPT-4V, rinn sgioba Open AI measaidhean càileachdail is cainneachdail. Am measg an fheadhainn càileachdail bha deuchainnean taobh a-staigh agus lèirmheasan eòlaichean bhon taobh a-muigh, fhad ‘s a bha feadhainn cainneachdail a’ tomhas diùltadh modail agus mionaideachd ann an grunn shuidheachaidhean leithid comharrachadh susbaint cronail, aithneachadh deamografach, draghan prìobhaideachd, geolocation, cybersecurity, agus jailbreaks ioma-mhodal.

Chan eil am modail fhathast foirfe.

Tha pàipear a’ soilleireachadh crìochan GPT-4V, leithid co-dhùnaidhean ceàrr agus teacsa no caractaran a tha a dhìth ann an ìomhaighean. Faodaidh e fìrinnean a mhealladh no a chruthachadh. Gu sònraichte, chan eil e freagarrach airson stuthan cunnartach a chomharrachadh ann an ìomhaighean, gu tric gan comharrachadh.

Ann an ìomhaighean meidigeach, faodaidh GPT-4V freagairtean neo-chunbhalach a thoirt seachad agus dìth mothachaidh air cleachdaidhean àbhaisteach, a’ leantainn gu mì-dhearbhaidhean a dh’ fhaodadh a bhith ann.

Coileanadh neo-earbsach airson adhbharan meidigeach (Stòr)

Bidh e cuideachd a’ fàiligeadh tuigse fhaighinn air nuances cuid de shamhlaidhean gràin agus dh’ fhaodadh e susbaint neo-iomchaidh a ghineadh stèidhichte air na chuir a-steach lèirsinneach. Tha OpenAI a’ comhairleachadh gun a bhith a’ cleachdadh GPT-4V airson mìneachaidhean breithneachail, gu sònraichte ann an co-theacsan meidigeach no mothachail.

A 'còmhdach suas

Air a chruthachadh a’ cleachdadh Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

Le teachd GPT-4 Vision (GPT-4V) bheir e grunn chothroman fionnar agus cnapan-starra ùra airson leum thairis. Mus tèid a chuir a-steach, chaidh tòrr oidhirp a dhèanamh gus dèanamh cinnteach gu bheilear a’ coimhead agus a’ lughdachadh cunnartan, gu sònraichte nuair a thig e gu dealbhan de dhaoine. Tha e drùidhteach fhaicinn mar a tha GPT-4V air a dhol suas, a’ nochdadh mòran gealltanas ann an raointean duilich leithid leigheas agus saidheans.

A-nis, tha ceistean mòra air a’ bhòrd. Mar eisimpleir, am bu chòir na modailean sin a bhith comasach air daoine ainmeil aithneachadh bho dhealbhan? Am bu chòir dhaibh tomhas a dhèanamh air gnè, cinneadh no faireachdainnean neach bho dhealbh? Agus, am bu chòir tweaks sònraichte a bhith ann gus daoine le fradharc fann a chuideachadh? Bidh na ceistean sin a’ fosgladh grunn chnuimhean mu phrìobhaideachd, cothromachd, agus mar a bu chòir AI a bhith a’ freagairt air ar beatha, rud a bu chòir a bhith aig a h-uile duine.

Cuspairean co-cheangailte:cabadaich gpt DALL-E3 AI ioma-mhodhail INNEALRA GHAIDHEALACH

Sgaoileadh

Midjourney vs Stable Diffusion: Blàr Gineadairean Ìomhaighean AI

Na bi a 'Bh-Uas

Bho eadar-lìn de rudan gu eadar-lìn de gach nì: Co-fhilleadh AI & 6G airson Eòlas Ceangailte

Aayush Mittal

Tha mi air na còig bliadhna a dh’ fhalbh a’ bogadh fhèin ann an saoghal inntinneach Ionnsachadh Inneal agus Ionnsachadh domhainn. Tha an dìoghras agus an t-eòlas agam air toirt orm cur ri còrr air 50 pròiseact innleadaireachd bathar-bog eadar-mheasgte, le fòcas sònraichte air AI/ML. Tha mo fheòrachas leantainneach cuideachd air mo tharraing a dh’ ionnsaigh Natural Language Processing, raon air a bheil mi airson tuilleadh sgrùdaidh a dhèanamh.

Aonaich.AI

Bidh AI Multimodal a ’tighinn air adhart mar a bhios ChatGPT a’ faighinn sealladh le GPT-4V (ision)

Artificial Intelligence

Bidh AI Multimodal a ’tighinn air adhart mar a bhios ChatGPT a’ faighinn sealladh le GPT-4V (ision)

Clàr-innse