Kunsmatige Intelligensie

Opleiding van rekenaarvisiemodelle op ewekansige geraas in plaas van regte beelde

Opgedateer on Desember 9, 2022

Navorsers van MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) het geëksperimenteer met die gebruik van ewekansige geraasbeelde in rekenaarvisie-datastelle om rekenaarvisie-modelle op te lei, en het gevind dat in plaas daarvan om vullis te produseer, die metode verbasend effektief is:

Generatiewe modelle van die eksperiment, gesorteer volgens prestasie. Bron: https://openreview.net/pdf?id=RQUl8gZnN7O

Om oënskynlike 'visuele asblik' in gewilde rekenaarvisie-argitekture in te voer, behoort nie hierdie soort prestasie tot gevolg te hê nie. Heel regs van die prent hierbo verteenwoordig die swart kolomme akkuraatheidtellings (aan Imagenet-100) vir vier 'regte' datastelle. Alhoewel die 'willekeurige geraas'-datastelle wat dit voorafgaan (in verskeie kleure uitgebeeld, sien indeks bo-links) nie daarmee kan ooreenstem nie, is hulle byna almal binne respekvolle boonste en onderste grense (rooi stippellyne) vir akkuraatheid.

In hierdie sin beteken 'akkuraatheid' nie dat 'n resultaat noodwendig soos 'n lyk nie gesig, 'n kerk, 'n pizza, of enige ander spesifieke domein waarvoor jy dalk belangstel om 'n beeldsintese stelsel, soos 'n Generative Adversarial Network, of 'n enkodeerder/dekodeerderraamwerk.

Dit beteken eerder dat die CSAIL-modelle breed toepaslike sentrale 'waarhede' afgelei het uit beelddata wat so klaarblyklik ongestruktureerd is dat dit nie in staat behoort te wees om dit te verskaf nie.

Diversiteit vs. Naturalisme

Hierdie resultate kan ook nie toegeskryf word nie oorpas: 'n lewendige bespreking tussen die skrywers en beoordelaars by Open Review onthul dat die vermenging van verskillende inhoud van visueel diverse datastelle (soos 'dooie blare', 'fractals' en 'prosedurele geraas' – sien prent hieronder) in 'n opleidingdatastel eintlik verbeter akkuraatheid in hierdie eksperimente.

Dit suggereer (en dit is 'n bietjie van 'n revolusionêre idee) 'n nuwe tipe 'onderpassing', waar 'diversiteit' 'naturalisme' troef.

Die projekbladsy vir die inisiatief laat jou interaktief kyk na die verskillende tipes ewekansige beelddatastelle wat in die eksperiment gebruik word. Bron: https://mbaradad.github.io/learning_with_noise/

Die Projek bladsy vir die inisiatief kan jy interaktief die verskillende tipes ewekansige beelddatastelle wat in die eksperiment gebruik word, bekyk. Bron: https://mbaradad.github.io/learning_with_noise/

Die resultate wat deur die navorsers verkry is, bevraagteken die fundamentele verband tussen beeldgebaseerde neurale netwerke en die 'regte wêreld' beelde wat onrusbarend na hulle gegooi word groter volumes elke jaar, en impliseer dat die behoefte om te verkry, saam te stel en andersins te twis hiperskaal beelddatastelle kan uiteindelik oorbodig word. Die skrywers sê:

'Huidige visiestelsels word op groot datastelle opgelei, en hierdie datastelle kom met koste: samestelling is duur, hulle erf menslike vooroordele, en daar is kommer oor privaatheid en gebruiksregte. Om hierdie koste teen te werk, het die belangstelling toegeneem om van goedkoper databronne, soos ongemerkte beelde, te leer.

'In hierdie vraestel gaan ons 'n stap verder en vra of ons heeltemal met werklike beelddatastelle kan wegdoen, deur uit prosedurele geraasprosesse te leer.'

Die navorsers stel voor dat die huidige oes van masjienleer-argitekture iets veel meer fundamenteel (of, ten minste, onverwags) van beelde aflei as wat voorheen gedink is, en dat 'nonsens' beelde moontlik baie van hierdie kennis baie meer kan oordra. goedkoop, selfs met die moontlike gebruik van ad hoc sintetiese data, via datastelgenerasie-argitekture wat ewekansige beelde tydens opleidingstyd genereer:

"Ons identifiseer twee sleuteleienskappe wat goeie sintetiese data maak vir die opleiding van visiestelsels: 1) naturalisme, 2) diversiteit. Interessant genoeg is die mees naturalistiese data nie altyd die beste nie, aangesien naturalisme ten koste van diversiteit kan kom.

'Die feit dat naturalistiese data help, is dalk nie verbasend nie, en dit dui daarop dat grootskaalse werklike data inderdaad waarde het. Ons vind egter dat wat deurslaggewend is nie is dat die data is nie werklike maar dit is so naturalisties, dit wil sê dit moet sekere strukturele eienskappe van werklike data vaslê.

'Baie van hierdie eienskappe kan in eenvoudige geraasmodelle vasgevang word.'

Kenmerkvisualiserings voortspruitend uit 'n AlexNet-afgeleide enkodeerder op sommige van die verskillende 'ewekansige beeld'-datastelle wat deur die skrywers gebruik word, wat die 3de en 5de (finale) konvolusielaag dek. Die metodologie wat hier gebruik word, volg wat in Google KI-navorsing van 2017 uiteengesit is.

Kenmerkvisualiserings wat voortspruit uit 'n AlexNet-afgeleide enkodeerder op sommige van die verskillende 'ewekansige beeld'-datastelle wat deur die skrywers gebruik word, wat die 3de en 5de (finale) konvolusionele laag dek. Die metodologie wat hier gebruik word, volg wat in Google KI-navorsing vanaf 2017.

Die papier, aangebied by die 35ste konferensie oor neurale inligtingverwerkingstelsels (NeurIPS 2021) in Sydney, is getiteld Leer om te sien deur na geraas te kyk, en kom van ses navorsers by CSAIL, met gelyke bydrae.

Die werk was aanbeveel deur konsensus vir 'n kollig-seleksie by NeurIPS 2021, met eweknie-kommenteerders wat die referaat as ''n wetenskaplike deurbraak' karakteriseer wat 'n 'groot studiegebied' oopmaak, selfs al laat dit soveel vrae ontstaan as wat dit beantwoord.

In die koerant kom die skrywers tot die gevolgtrekking:

'Ons het getoon dat, wanneer dit ontwerp is met behulp van resultate van vorige navorsing oor natuurlike beeldstatistieke, hierdie datastelle visuele voorstellings suksesvol kan oplei. Ons hoop dat hierdie vraestel die studie van nuwe generatiewe modelle sal motiveer wat in staat is om gestruktureerde geraas te produseer wat selfs hoër werkverrigting behaal wanneer dit in 'n diverse stel visuele take gebruik word.

'Sal dit moontlik wees om die prestasie wat met ImageNet-vooropleiding behaal is, te pas? Miskien in die afwesigheid van 'n groot opleidingstel spesifiek vir 'n spesifieke taak, is die beste vooropleiding dalk nie die gebruik van 'n standaard werklike datastel soos ImageNet nie.'