Faisnéise Saorga
Feidhmíocht Foghlama Meaisín Níos Fearr Trí Athrú Méid Íomhá atá bunaithe ar CNN
Tá modh nua molta ag Google Research chun éifeachtúlacht agus cruinneas sreafaí oibre oiliúna fís ríomhaire atá bunaithe ar íomhá a fheabhsú trí fheabhas a chur ar an gcaoi a ndéantar íomhánna i dtacar sonraí a chrapadh ag an gcéim réamhphróiseála.
sa páipéar Foghlaim conas Íomhánna a Athraigh do Thascanna Físe Ríomhaireachta, úsáideann taighdeoirí Hossein Talebi agus Peyman Milanfar CNN chun ailtireacht athmhéadaithe íomhá hibrideach nua a chruthú a tháirgeann feabhas suntasach ar thorthaí aitheantais a fuarthas thar cheithre thacar sonraí fís ríomhaire a bhfuil tóir orthu.
Tugtar faoi deara sa pháipéar go bhfuil na modhanna athscála/athmhéadaithe a úsáidtear faoi láthair i bpíblínte meaisínfhoghlama le blianta fada as dáta, agus go minic ní úsáideann siad ach bunúsacha déthaobhacha, déchiúbacha agus an chomharsa is gaire. méid a athrú – modhanna a dhéileálann le gach picteilín go neamh-idirdhealaitheach.
I gcodarsnacht leis sin, cuireann an modh atá beartaithe leis na sonraí íomhá trí CNN agus ionchorpraíonn sé an t-ionchur sin sna híomhánna athmhéide a rachaidh trí ailtireacht na samhla ar deireadh thiar.
Srianta Íomhá in Oiliúint AI
Chun múnla a dhéileálann le híomhánna a oiliúint, áireofar i gcreat meaisínfhoghlama céim réamhphróiseála, ina ndéantar éagsúlacht dhifriúil d’íomhánna de mhéideanna éagsúla, de spásanna datha agus de réitigh éagsúla (a chuirfidh leis an tacar sonraí oiliúna) a bhearradh go córasach agus athrú go toisí comhsheasmhacha agus formáid chobhsaí amháin.
Go ginearálta beidh roinnt comhréitigh i gceist leis seo bunaithe ar an bhformáid PNG, áit a ndéanfar comhbhabhtáil idir am/acmhainní próiseála, méid comhaid agus cáilíocht íomhá.
I bhformhór na gcásanna, tá toisí deiridh an íomhá próiseáilte an-bheag. Anseo thíos feicimid sampla den íomhá taifeach 80×80 ag a bhfuil cuid de na tacair sonraí deepfakes is luaithe gineadh:
Ós rud é gur annamh a luíonn aghaidheanna (agus ábhair fhéideartha eile) leis an gcóimheas cearnach riachtanach, d’fhéadfadh go mbeadh gá le barraí dubha a chur leis (nó spás a chur amú) chun na híomhánna a aonchineálú, ag gearradh síos tuilleadh sonraí na híomhá inúsáidte:
De réir mar a tháinig feabhas ar chumais GPU le blianta beaga anuas, tá an ghlúin nua de chártaí NVIDIA outfitted le méideanna ag méadú d'fhís-RAM (VRAM), tá meánmhéideanna na n-íomhánna ranníocacha ag dul i méid, cé go bhfuil 224×224 picteilín fós caighdeánach go leor (mar shampla, is é méid an ResNet-50 tacar sonraí).
Baisceanna a Fheistiú i VRAM
Is é an fáth go gcaithfidh na híomhánna go léir a bheith ar an méid céanna ná sin shliocht grádán, an modh trína bhfeabhsaítear an tsamhail le himeacht ama, tá gá le sonraí oiliúna aonfhoirmeacha.
Is é an fáth go gcaithfidh na híomhánna a bheith chomh beag ná go gcaithfear iad a luchtú (go hiomlán dí-chomhbhrúite) isteach i VRAM le linn oiliúna i mbaisceanna beaga, de ghnáth idir 6-24 íomhá in aghaidh an bhaisc. Ró-bheagán íomhánna in aghaidh an bhaisc, agus níl go leor ábhar grúpa ann chun ginearálú maith a dhéanamh, chomh maith leis an am oiliúna a leathnú; an iomarca, agus d’fhéadfadh go dteipfidh ar an tsamhail na tréithe agus na sonraí riachtanacha a fháil (féach thíos).
Tugtar an rannán 'lódála beo' seo den ailtireacht oiliúna ar an spás folaigh. Seo nuair a bhaintear gnéithe arís agus arís eile as na sonraí céanna (.i. na híomhánna céanna) go dtí go mbeidh an tsamhail coinbhéirsithe go staid ina bhfuil an t-eolas ginearálaithe go léir a theastaíonn uaidh chun claochluithe a dhéanamh ar shonraí den chineál céanna nach bhfacthas riamh roimhe.
Go ginearálta glacann an próiseas seo laethanta, cé go dtógann sé fiú mí nó níos mó de cogitation ardtoirte leanúnach agus gan toradh 24/7 chun ginearálú úsáideach a bhaint amach. Ní cuidíonn méaduithe ar mhéid VRAM ach suas go pointe, toisc go bhféadfadh éifeacht ord méadaíochta a bheith ag fiú mion-incrimintí i dtaifeach íomhá ar acmhainn próiseála, agus éifeachtaí gaolmhara ar chruinneas nach féidir a bheith fabhrach i gcónaí.
Beannacht mheasctha freisin é cumas VRAM níos mó a úsáid chun freastal ar mhéideanna baisc níos airde, toisc go bhfuil na luasanna traenála níos airde a fhaigheann sé seo. dócha a fhritháireamh ag torthaí nach bhfuil chomh beacht.
Mar sin, ós rud é go bhfuil an oiread sin srianta ar ailtireacht na hoiliúna, is éacht suntasach é aon ní a d’fhéadfadh feabhsú a dhéanamh laistigh de theorainneacha reatha na píblíne.
Conas a Chuidíonn Laghdú Níos Fearr
Tá sé cruthaithe go mbeidh éifeacht feabhsaithe ag cáilíocht deiridh íomhá a chuimseofar i tacar sonraí oiliúna ar thoradh na hoiliúna, go háirithe i dtascanna aitheantais réad. In 2018 taighdeoirí ó Institiúid Max Planck do Chórais Chliste áitithe go mbíonn tionchar suntasach ag rogha an mhodha athshamplála ar fheidhmíocht agus ar thorthaí oiliúna.
Ina theannta sin, fuarthas amach ó réamhobair ó Google (comhscríofa ag údair an pháipéir nua) gur féidir cruinneas aicmithe a fheabhsú trí smacht a choinneáil ró-chomhbhrú déantáin in íomhánna tacar sonraí.
Comhcheanglaíonn an tsamhail CNN atá san athshamplóir nua méid an athraithe dé-mhéadaigh le gné 'nasc scipeála' a fhéadfaidh aschur ón líonra oilte a ionchorprú san íomhá athmhéadaithe.
Murab ionann agus gnáth-ailtireacht ionchódóra/díchódóra, is féidir leis an togra nua feidhmiú ní amháin mar scrogall réamhbhabhtaí, ach freisin mar scrogall inbhéartach le haghaidh ardúscála go dtí aon chóimheas sprice méid agus/nó gné. Ina theannta sin, is féidir an modh athshamplála 'caighdeánach' a mhalartú le haghaidh aon mhodha traidisiúnta oiriúnach eile, mar shampla seolann.
Sonraí Minicíocht Ard
Táirgeann an modh nua íomhánna a bhfuil an chuma orthu i ndáiríre go ndéanann siad príomhghnéithe a ‘bhácáil’ (a aithneoidh an próiseas oiliúna ar deireadh) go díreach isteach san íomhá foinse. I dtéarmaí aeistéitiúla, tá na torthaí neamhchoitianta:
Tugann na taighdeoirí faoi deara go bhfuil na turgnaimh tosaigh seo optamaithe go heisiach le haghaidh tascanna aitheantais íomhá, agus i dtástálacha go raibh a n- 'athchóiritheoir foghlamtha' faoi thiomáint CNN in ann rátaí earráide feabhsaithe a bhaint amach i dtascanna den sórt sin. Tá sé beartaithe ag na taighdeoirí sa todhchaí an modh a chur i bhfeidhm ar chineálacha eile feidhmchlár fís ríomhaire atá bunaithe ar íomhá.