stub Taħriġ Mudelli tal-Viżjoni tal-Kompjuter fuq Ħsejjes Każwali Minflok Stampi Reali - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Taħriġ Mudelli tal-Viżjoni tal-Kompjuter fuq Storbju Random Minflok Stampi Reali

mm
Aġġornata on

Riċerkaturi mill-MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) esperimentaw bl-użu ta’ stampi tal-istorbju każwali f’settijiet ta’ data tal-viżjoni bil-kompjuter biex iħarrġu mudelli ta’ viżjoni bil-kompjuter, u sabu li minflok ma jipproduċi żibel, il-metodu huwa sorprendentement effettiv:

Mudelli ġenerattivi mill-esperiment, magħżula skond il-prestazzjoni. Sors: https://openreview.net/pdf?id=RQUl8gZnN7O

Mudelli ġenerattivi mill-esperiment, magħżula skond il-prestazzjoni. Sors: https://openreview.net/pdf?id=RQUl8gZnN7O

It-tmigħ ta' 'żibel viżwali' apparenti f'arkitetturi tal-viżjoni tal-kompjuter popolari m'għandux jirriżulta f'dan it-tip ta' prestazzjoni. Fuq il-lemin estrem tal-immaġni ta’ hawn fuq, il-kolonni suwed jirrappreżentaw punteġġi ta’ preċiżjoni (fuq Imagenet-100) għal erba' settijiet ta' data "reali". Filwaqt li s-settijiet tad-dejta tal-'ħoss każwali' li jippreċeduha (stampa f'diversi kuluri, ara l-indiċi fuq ix-xellug) ma jistgħux jaqblu ma' dan, huma kważi kollha f'limiti ta' fuq u t'isfel rispettabbli (linji ħomor imsejjes) għall-eżattezza.

F'dan is-sens 'eżattezza' ma tfissirx li riżultat bilfors jidher qisu a wiċċ, li knisja, li pizza, jew kwalunkwe dominju partikolari ieħor li għalih tista' tkun interessat li toħloq sinteżi tal-immaġini sistema, bħal Generative Adversarial Network, jew qafas ta’ encoder/decoder.

Pjuttost, dan ifisser li l-mudelli CSAIL idderivaw 'veritajiet' ċentrali applikabbli b'mod wiesa' minn dejta tal-immaġni tant apparentement mhux strutturata li m'għandhiex tkun kapaċi tipprovdiha.

Diversità Vs. Naturaliżmu

Lanqas ma jistgħu jiġu attribwiti lil dawn ir-riżultati armar żejjed: a vivaċi diskussjoni bejn l-awturi u r-reviżuri f'Open Review jiżvela li t-taħlit ta' kontenut differenti minn settijiet ta' dejta viżwalment differenti (bħal 'weraq mejta', 'fractals' u 'storbju proċedurali' – ara l-immaġni hawn taħt) f'sett ta' dejta ta' taħriġ. fil-fatt itejjeb preċiżjoni f’dawn l-esperimenti.

Dan jissuġġerixxi (u huwa daqsxejn ta’ kunċett rivoluzzjonarju) tip ġdid ta’ ‘under-fitting’, fejn ‘diversità’ tirbaħ fuq ‘naturaliżmu’.

Il-paġna tal-proġett għall-inizjattiva tħallik tara b'mod interattiv it-tipi differenti ta' settijiet ta' dejta bl-istampi bl-addoċċ użati fl-esperiment. Sors: https://mbaradad.github.io/learning_with_noise/

il paġna tal-proġett għall-inizjattiva tħallik tara b'mod interattiv it-tipi differenti ta 'settijiet ta' dejta bl-istampi bl-addoċċ użati fl-esperiment. Sors: https://mbaradad.github.io/learning_with_noise/

Ir-riżultati miksuba mir-riċerkaturi jqiegħdu fid-dubju r-relazzjoni fundamentali bejn in-netwerks newrali bbażati fuq l-immaġini u l-immaġini tad-'dinja reali' li jintefgħu lejhom b'mod allarmanti. volumi akbar kull sena, u jimplikaw li l-ħtieġa li tikseb, curate u mod ieħor wrangle settijiet tad-dejta tal-immaġini fuq skala kbira jistgħu eventwalment isiru żejda. L-awturi jgħidu:

'Is-sistemi ta' viżjoni attwali huma mħarrġa fuq settijiet ta' dejta enormi, u dawn is-settijiet ta' dejta jiġu bi spejjeż: il-kura hija għalja, jirtu preġudizzji umani, u hemm tħassib dwar il-privatezza u d-drittijiet tal-użu. Biex jiġu miġġielda dawn l-ispejjeż, żdied l-interess fit-tagħlim minn sorsi ta’ data orħos, bħal immaġini mingħajr tikketta.

'F'dan id-dokument, immorru pass 'il quddiem u nistaqsu jekk nistgħux inneħħu s-settijiet tad-dejta tal-immaġni reali għal kollox, billi nitgħallmu minn proċessi ta' storbju proċedurali.'

Ir-riċerkaturi jissuġġerixxu li l-ħsad attwali tal-arkitetturi tat-tagħlim tal-magni jista 'jkun qed jiddeduċi xi ħaġa ferm aktar fundamentali (jew, għall-inqas, mhux mistennija) minn immaġini milli kien maħsub qabel, u li immaġini 'nonsense' jistgħu potenzjalment jagħtu ħafna minn dan l-għarfien ħafna aktar. bl-irħis, anke bl-użu possibbli ta' data sintetika ad hoc, permezz ta' arkitetturi ta' ġenerazzjoni ta' dataset li jiġġeneraw immaġini każwali waqt it-taħriġ:

"Aħna nidentifikaw żewġ proprjetajiet ewlenin li jagħmlu dejta sintetika tajba għat-taħriġ tas-sistemi tal-viżjoni: 1)naturaliżmu, 2) diversità. Interessanti, l-aktar data naturalistika mhix dejjem l-aħjar, peress li n-naturaliżmu jista 'jiġi għall-ispiża tad-diversità.

'Il-fatt li d-dejta naturalistika tgħin jista' ma jkunx sorprendenti, u jissuġġerixxi li tabilħaqq, id-dejta reali fuq skala kbira għandha valur. Madankollu, insibu li dak li hu kruċjali mhuwiex li d-data tkun reali imma li jkun naturalistiku, jiġifieri trid taqbad ċerti proprjetajiet strutturali ta' data reali.

'Ħafna minn dawn il-proprjetajiet jistgħu jinqabdu f'mudelli ta' storbju sempliċi.'

Viżwalizzazzjonijiet tal-karatteristiċi li jirriżultaw minn encoder derivat minn AlexNet fuq uħud mis-settijiet ta' data varji ta' 'immaġni każwali' użati mill-awturi, li jkopru t-3 u l-5 saff (finali) konvoluzzjonali. Il-metodoloġija użata hawnhekk issegwi dik stabbilita fir-riċerka tal-Google AI mill-2017.

Viżwalizzazzjonijiet tal-karatteristiċi li jirriżultaw minn encoder derivat minn AlexNet fuq uħud mis-settijiet ta' data varji ta' 'immaġni każwali' użati mill-awturi, li jkopru t-3 u l-5 saff (finali) konvoluzzjonali. Il-metodoloġija użata hawnhekk issegwi dik stabbilita fl Riċerka Google AI mill-2017.

il karta, ippreżentata fil-35 Konferenza dwar Sistemi ta' Ipproċessar ta' Informazzjoni Newrali (NeurIPS 2021) f'Sydney, hija intitolata Titgħallem Ara billi Ħares lejn l-Istorbju, u ġej minn sitt riċerkaturi fis-CSAIL, b'kontribut ugwali.

Ix-xogħol kien rakkomandat b'kunsens għal għażla ta' attenzjoni f'NeurIPS 2021, b'kummentaturi bejn il-pari jikkaratterizzaw id-dokument bħala 'avvanz xjentifiku' li jiftaħ 'qasam ta' studju kbir', anki jekk iqajjem mistoqsijiet daqs kemm iwieġeb.

Fid-dokument, l-awturi jikkonkludu:

'Aħna wrejna li, meta ddisinjati bl-użu ta' riżultati minn riċerka tal-passat dwar l-istatistika tal-immaġni naturali, dawn is-settijiet tad-dejta jistgħu jħarrġu b'suċċess rappreżentazzjonijiet viżwali. Nittamaw li dan id-dokument jimmotiva l-istudju ta 'mudelli ġenerattivi ġodda li kapaċi jipproduċu storbju strutturat li jikseb prestazzjoni saħansitra ogħla meta jintuża f'sett divers ta' kompiti viżwali.

'Ikun possibbli li tqabbel il-prestazzjoni miksuba bit-taħriġ minn qabel ta' ImageNet? Forsi fin-nuqqas ta' sett kbir ta' taħriġ speċifiku għal biċċa xogħol partikolari, l-aħjar taħriġ minn qabel jista' ma jkunx bl-użu ta' dataset reali standard bħal ImageNet.'