Stumm Training Computer Visioun Modeller op zoufälleg Kaméidi amplaz Real Biller - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

Training Computer Visioun Modeller op zoufälleg Kaméidi amplaz Real Biller

mm
aktualiséiert on

Fuerscher vum MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) hunn experimentéiert mat zoufälleg Geräischer Biller an Computer Visioun Datesätz ze benotzen fir Computer Visioun Modeller ze trainéieren, an hunn erausfonnt datt amplaz Müll ze produzéieren, ass d'Methode iwwerraschend effektiv:

Generativ Modeller aus dem Experiment, no Leeschtung zortéiert. Source: https://openreview.net/pdf?id=RQUl8gZnN7O

Generativ Modeller aus dem Experiment, no Leeschtung zortéiert. Source: https://openreview.net/pdf?id=RQUl8gZnN7O

Anscheinend "visuell Dreck" an populär Computervisiounsarchitekturen ze fidderen sollt net zu dëser Aart vu Leeschtung resultéieren. Op der rietser Säit vum Bild hei uewen representéieren déi schwaarz Sailen d'Genauegkeetsscore (op Imagenet-100) fir véier 'richteg' Datesätz. Wärend déi "zoufälleg Geräischer" Datesätz virdru (Foto a verschiddene Faarwen, kuckt Index uewe-lénks) net mat deem entspriechen, si si bal all bannent respektablen Uewer- an Ënnergrenzen (rout gestreckt Linnen) fir Genauegkeet.

An dësem Sënn heescht 'Genauegkeet' net datt e Resultat onbedéngt ausgesäit wéi eng Gesiicht, eng Kierch, eng Pizza, oder all aner speziell Domain fir déi Dir interesséiert sidd fir en Bild Synthese System, wéi e Generative Adversarial Network, oder en Encoder / Decoder Kader.

Et heescht éischter datt d'CSAIL Modeller breet applicabel zentral 'Wourechten' aus Bilddaten ofgeleet hunn, sou anscheinend onstrukturéiert datt se net fäeg sinn et ze liwweren.

Diversitéit vs. Naturalismus

Och kënnen dës Resultater net zougeschriwwe ginn iwwerdribblen: eng lieweg Diskussioun tëscht den Autoren an de Rezensoren bei Open Review weist datt d'Vermëschung vun verschiddenen Inhalter vu visuell divers Datesätz (wéi "dout Blieder", "Fractals" a "prozedural Kaméidi" - kuckt Bild hei ënnen) an eng Trainingsdates tatsächlech verbessert Genauegkeet an dësen Experimenter.

Dëst suggeréiert (an et ass e bësse vun enger revolutionärer Notioun) eng nei Zort vun "Ënnerpassend", wou "Diversitéit" den "Naturalismus" iwwerdréit.

D'Projetsäit fir d'Initiativ léisst Iech interaktiv déi verschidden Aarte vu zoufälleg Bilddatesätz kucken, déi am Experiment benotzt ginn. Quell: https://mbaradad.github.io/learning_with_noise/

d' Projet Säit fir d'Initiativ léisst Dir interaktiv gesinn déi verschidden Zorte vu zoufälleg Bild Datesätz am Experiment benotzt. Quell: https://mbaradad.github.io/learning_with_noise/

D'Resultater, déi d'Fuerscher kritt hunn, stellen d'fundamental Relatioun tëscht Bildbaséierten neuralen Netzwierker an de "real Welt" Biller a Fro gestallt, déi alarméierend op si geworf ginn. méi grouss Bänn all Joer, an implizéiert datt de Besoin ze kréien, curate an soss wrangle hyperscale Bilddatesets kann schlussendlech iwwerflësseg ginn. D'Auteuren soen:

'Aktuell Visiounssystemer ginn op enormen Datesätz trainéiert, an dës Datesätz kommen mat Käschten: Curatioun ass deier, si ierwen mënschlech Biases, an et gi Bedenken iwwer Privatsphär a Benotzungsrechter. Fir dës Käschten entgéintzewierken, ass den Interessi eropgaang fir aus méi bëllegen Datequellen ze léieren, wéi zB onlabeléiert Biller.

"An dësem Pabeier gi mir e Schrëtt méi wäit a froen ob mir d'real Bilddatessätz komplett ewechhuelen kënnen, andeems mir vu prozedurale Geräischerprozesser léieren."

D'Fuerscher suggeréieren datt déi aktuell Ernte vu Maschinnléierarchitekturen eppes vill méi fundamental (oder, op d'mannst, onerwaart) vu Biller ofschléissen wéi virdru geduecht gouf, an datt 'Nonsens' Biller potenziell vill vun dësem Wëssen vill méi kënne vermëttelen bëlleg, och mat der méiglecher Notzung vun ad hoc syntheteschen Donnéeën, iwwer Datesaz-Generatiounsarchitekturen déi zoufälleg Biller bei Trainingszäit generéieren:

"Mir identifizéieren zwee Schlësseleigenschaften, déi gutt synthetesch Daten fir Trainingsvisiounssystemer maachen: 1) Naturalismus, 2) Diversitéit. Interessanterweis sinn déi meescht naturalistesch Donnéeën net ëmmer déi bescht, well den Naturalismus kann op d'Käschte vun der Diversitéit kommen.

"D'Tatsaach datt naturalistesch Daten hëllefen kann net iwwerraschend sinn, an et suggeréiert datt wierklech grouss real Daten Wäert hunn. Wéi och ëmmer, mir fanne datt wat entscheedend ass net datt d'Donnéeën sinn real mee dat ass naturalistesch, dh et muss bestëmmte strukturell Eegeschafte vun real Daten erfaassen.

"Vill vun dësen Eegeschafte kënnen an einfache Kaméidi Modeller erfaasst ginn."

Feature Visualiséierunge resultéierend aus engem AlexNet-ofgeleet Encoder op e puer vun de verschiddene 'zoufälleg Bild' Datesätz, déi vun den Autoren benotzt ginn, déi 3. a 5. D'Methodologie, déi hei benotzt gëtt, follegt déi an der Google AI Fuerschung aus 2017.

Feature Visualiséierunge resultéierend aus engem AlexNet-ofgeleet Encoder op e puer vun de verschiddene 'zoufälleg Bild' Datesätz, déi vun den Autoren benotzt ginn, déi 3. a 5. D'Methodologie déi hei benotzt gëtt follegt déi an Google AI Fuerschung vun 2017.

d' Pabeier, presentéiert op der 35th Conference on Neural Information Processing Systems (NeurIPS 2021) zu Sydney, ass den Titel Léiert ze gesinn andeems Dir op Kaméidi kuckt, a kënnt vu sechs Fuerscher um CSAIL, mat gläiche Bäitrag.

D'Aarbecht war recommandéiert duerch Konsens fir eng Spotlight Selektioun bei NeurIPS 2021, mat Peer-Kommentatoren, déi de Pabeier als 'e wëssenschaftlechen Duerchbroch' charakteriséieren, deen e 'grousse Studieberäich' opmaacht, och wann et sou vill Froen opwerft wéi et äntwert.

Am Pabeier schléissen d'Auteuren:

"Mir hu gewisen datt, wann entworf mat Resultater aus fréierer Fuerschung iwwer natierlech Bildstatistiken, dës Datesätz visuell Representatioune mat Erfolleg trainéiere kënnen. Mir hoffen, datt dëst Pabeier d'Studie vun neie generativen Modeller motivéiert, déi fäeg sinn strukturéiert Geräischer ze produzéieren, déi nach méi héich Leeschtung erreechen wann se an enger diverser Set vu visuellen Aufgaben benotzt ginn.

'Wär et méiglech d'Performance mat ImageNet Pretraining ze passen? Vläicht an der Verontreiung vun engem groussen Trainingsset spezifesch fir eng bestëmmten Aufgab, ass de beschte Pre-Training vläicht net e Standard reelle Dataset wéi ImageNet benotzt.'