stuacach Feidhmíocht Foghlama Meaisín Níos Fearr Trí Athrú ar Íomhá atá bunaithe ar CNN - Unite.AI
Ceangail le linn

Faisnéise Saorga

Feidhmíocht Foghlama Meaisín Níos Fearr Trí Athrú Méid Íomhá atá bunaithe ar CNN

mm
Nuashonraithe on

Tá modh nua molta ag Google Research chun éifeachtúlacht agus cruinneas sreafaí oibre oiliúna fís ríomhaire atá bunaithe ar íomhá a fheabhsú trí fheabhas a chur ar an gcaoi a ndéantar íomhánna i dtacar sonraí a chrapadh ag an gcéim réamhphróiseála.

sa páipéar Foghlaim conas Íomhánna a Athraigh do Thascanna Físe Ríomhaireachta, úsáideann taighdeoirí Hossein Talebi agus Peyman Milanfar CNN chun ailtireacht athmhéadaithe íomhá hibrideach nua a chruthú a tháirgeann feabhas suntasach ar thorthaí aitheantais a fuarthas thar cheithre thacar sonraí fís ríomhaire a bhfuil tóir orthu.

An comhchreat atá beartaithe le haghaidh aitheantais agus méid a athrú. Foinse: https://arxiv.org/pdf/2103.09950.pdf

An comhchreat atá beartaithe le haghaidh aitheantais agus méid a athrú. Foinse: https://arxiv.org/pdf/2103.09950.pdf

Tugtar faoi deara sa pháipéar go bhfuil na modhanna athscála/athmhéadaithe a úsáidtear faoi láthair i bpíblínte meaisínfhoghlama le blianta fada as dáta, agus go minic ní úsáideann siad ach bunúsacha déthaobhacha, déchiúbacha agus an chomharsa is gaire. méid a athrú – modhanna a dhéileálann le gach picteilín go neamh-idirdhealaitheach.

I gcodarsnacht leis sin, cuireann an modh atá beartaithe leis na sonraí íomhá trí CNN agus ionchorpraíonn sé an t-ionchur sin sna híomhánna athmhéide a rachaidh trí ailtireacht na samhla ar deireadh thiar.

Srianta Íomhá in Oiliúint AI

Chun múnla a dhéileálann le híomhánna a oiliúint, áireofar i gcreat meaisínfhoghlama céim réamhphróiseála, ina ndéantar éagsúlacht dhifriúil d’íomhánna de mhéideanna éagsúla, de spásanna datha agus de réitigh éagsúla (a chuirfidh leis an tacar sonraí oiliúna) a bhearradh go córasach agus athrú go toisí comhsheasmhacha agus formáid chobhsaí amháin.

Go ginearálta beidh roinnt comhréitigh i gceist leis seo bunaithe ar an bhformáid PNG, áit a ndéanfar comhbhabhtáil idir am/acmhainní próiseála, méid comhaid agus cáilíocht íomhá.

I bhformhór na gcásanna, tá toisí deiridh an íomhá próiseáilte an-bheag. Anseo thíos feicimid sampla den íomhá taifeach 80×80 ag a bhfuil cuid de na tacair sonraí deepfakes is luaithe gineadh:

Is é seo an taifeach 80 × 80 ag ar gineadh roinnt de na tacair sonraí deepfakes is luaithe.

Ós rud é gur annamh a luíonn aghaidheanna (agus ábhair fhéideartha eile) leis an gcóimheas cearnach riachtanach, d’fhéadfadh go mbeadh gá le barraí dubha a chur leis (nó spás a chur amú) chun na híomhánna a aonchineálú, ag gearradh síos tuilleadh sonraí na híomhá inúsáidte:

Anseo baineadh an aghaidh as limistéar íomhá níos mó go dtí go bhfuil sé bearrtha chomh heacnamaíoch agus is féidir chun an limistéar aghaidh iomlán a áireamh. Mar sin féin, mar atá le feiceáil ar an taobh clé, ní úsáidfear cuid mhór den limistéar atá fágtha le linn na hoiliúna, rud a chuireann meáchan níos mó ar an tábhacht a bhaineann le cáilíocht íomhá na sonraí athmhéide.

Anseo baineadh an aghaidh as limistéar íomhá níos mó go dtí go bhfuil sé bearrtha chomh heacnamaíoch agus is féidir chun an limistéar aghaidh iomlán a áireamh. Mar a fheictear ar dheis, áfach, ní bhainfear úsáid as cuid mhór den limistéar atá fágtha le linn na hoiliúna, rud a chuirfeadh níos mó béime ar an tábhacht a bhaineann le cáilíocht íomhá na sonraí athmhéadaithe.

De réir mar a tháinig feabhas ar chumais GPU le blianta beaga anuas, tá an ghlúin nua de chártaí NVIDIA outfitted le méideanna ag méadú d'fhís-RAM (VRAM), tá meánmhéideanna na n-íomhánna ranníocacha ag dul i méid, cé go bhfuil 224×224 picteilín fós caighdeánach go leor (mar shampla, is é méid an ResNet-50 tacar sonraí).

Íomhá 224x244 pixel saor in aisce,.

Íomhá 224×244 picteilín gan athrú.

Baisceanna a Fheistiú i VRAM

Is é an fáth go gcaithfidh na híomhánna go léir a bheith ar an méid céanna ná sin shliocht grádán, an modh trína bhfeabhsaítear an tsamhail le himeacht ama, tá gá le sonraí oiliúna aonfhoirmeacha.

Is é an fáth go gcaithfidh na híomhánna a bheith chomh beag ná go gcaithfear iad a luchtú (go hiomlán dí-chomhbhrúite) isteach i VRAM le linn oiliúna i mbaisceanna beaga, de ghnáth idir 6-24 íomhá in aghaidh an bhaisc. Ró-bheagán íomhánna in aghaidh an bhaisc, agus níl go leor ábhar grúpa ann chun ginearálú maith a dhéanamh, chomh maith leis an am oiliúna a leathnú; an iomarca, agus d’fhéadfadh go dteipfidh ar an tsamhail na tréithe agus na sonraí riachtanacha a fháil (féach thíos).

Tugtar an rannán 'lódála beo' seo den ailtireacht oiliúna ar an spás folaigh. Seo nuair a bhaintear gnéithe arís agus arís eile as na sonraí céanna (.i. na híomhánna céanna) go dtí go mbeidh an tsamhail coinbhéirsithe go staid ina bhfuil an t-eolas ginearálaithe go léir a theastaíonn uaidh chun claochluithe a dhéanamh ar shonraí den chineál céanna nach bhfacthas riamh roimhe.

Go ginearálta glacann an próiseas seo laethanta, cé go dtógann sé fiú mí nó níos mó de cogitation ardtoirte leanúnach agus gan toradh 24/7 chun ginearálú úsáideach a bhaint amach. Ní cuidíonn méaduithe ar mhéid VRAM ach suas go pointe, toisc go bhféadfadh éifeacht ord méadaíochta a bheith ag fiú mion-incrimintí i dtaifeach íomhá ar acmhainn próiseála, agus éifeachtaí gaolmhara ar chruinneas nach féidir a bheith fabhrach i gcónaí.

Beannacht mheasctha freisin é cumas VRAM níos mó a úsáid chun freastal ar mhéideanna baisc níos airde, toisc go bhfuil na luasanna traenála níos airde a fhaigheann sé seo. dócha a fhritháireamh ag torthaí nach bhfuil chomh beacht.

Mar sin, ós rud é go bhfuil an oiread sin srianta ar ailtireacht na hoiliúna, is éacht suntasach é aon ní a d’fhéadfadh feabhsú a dhéanamh laistigh de theorainneacha reatha na píblíne.

Conas a Chuidíonn Laghdú Níos Fearr

Tá sé cruthaithe go mbeidh éifeacht feabhsaithe ag cáilíocht deiridh íomhá a chuimseofar i tacar sonraí oiliúna ar thoradh na hoiliúna, go háirithe i dtascanna aitheantais réad. In 2018 taighdeoirí ó Institiúid Max Planck do Chórais Chliste áitithe go mbíonn tionchar suntasach ag rogha an mhodha athshamplála ar fheidhmíocht agus ar thorthaí oiliúna.

Ina theannta sin, fuarthas amach ó réamhobair ó Google (comhscríofa ag údair an pháipéir nua) gur féidir cruinneas aicmithe a fheabhsú trí smacht a choinneáil ró-chomhbhrú déantáin in íomhánna tacar sonraí.

Mhol ailtireacht CNN don algartam íosshamplála Google Research .

Mhol ailtireacht CNN don algartam íosshamplála Google Research .

Comhcheanglaíonn an tsamhail CNN atá san athshamplóir nua méid an athraithe dé-mhéadaigh le gné 'nasc scipeála' a fhéadfaidh aschur ón líonra oilte a ionchorprú san íomhá athmhéadaithe.

Murab ionann agus gnáth-ailtireacht ionchódóra/díchódóra, is féidir leis an togra nua feidhmiú ní amháin mar scrogall réamhbhabhtaí, ach freisin mar scrogall inbhéartach le haghaidh ardúscála go dtí aon chóimheas sprice méid agus/nó gné. Ina theannta sin, is féidir an modh athshamplála 'caighdeánach' a mhalartú le haghaidh aon mhodha traidisiúnta oiriúnach eile, mar shampla seolann.

Sonraí Minicíocht Ard

Táirgeann an modh nua íomhánna a bhfuil an chuma orthu i ndáiríre go ndéanann siad príomhghnéithe a ‘bhácáil’ (a aithneoidh an próiseas oiliúna ar deireadh) go díreach isteach san íomhá foinse. I dtéarmaí aeistéitiúla, tá na torthaí neamhchoitianta:

Cuireadh an modh nua i bhfeidhm thar cheithre líonra – Tionscnamh V2; DenseNet-121; ResNet-50; agus MobileNet-V2. Táirgeann torthaí mhodh íosshamplála/méadaithe íomhá Google Research íomhánna le comhiomlánú soiléir picteilín, ag súil leis na príomhghnéithe a léireofar le linn an phróisis oiliúna.

Cuireadh an modh nua i bhfeidhm thar cheithre líonra – Tionscnamh V2; DenseNet-121; ResNet-50; agus MobileNet-V2. Táirgeann torthaí mhodh íosshamplála/méadaithe íomhá Google Research íomhánna le comhiomlánú soiléir picteilín, ag súil leis na príomhghnéithe a léireofar le linn an phróisis oiliúna.

Tugann na taighdeoirí faoi deara go bhfuil na turgnaimh tosaigh seo optamaithe go heisiach le haghaidh tascanna aitheantais íomhá, agus i dtástálacha go raibh a n- 'athchóiritheoir foghlamtha' faoi thiomáint CNN in ann rátaí earráide feabhsaithe a bhaint amach i dtascanna den sórt sin. Tá sé beartaithe ag na taighdeoirí sa todhchaí an modh a chur i bhfeidhm ar chineálacha eile feidhmchlár fís ríomhaire atá bunaithe ar íomhá.