Artificial Intelligence

Nieuwe tool kan onderzoekers laten zien wat GAN's uit een afbeelding laten

Bijgewerkt on 9 december 2022

Onlangs heeft een team van onderzoekers van het MIT-IBM Watson AI Lab een methode ontwikkeld om weer te geven wat een Generative Adversarial Network uit een afbeelding weglaat wanneer hem wordt gevraagd om afbeeldingen te genereren. De studie werd nagesynchroniseerd Zien wat een GAN niet kan genereren, en het werd onlangs gepresenteerd op de Internationale Conferentie over Computer Vision.

Generatieve tegengestelde netwerken zijn de afgelopen jaren robuuster, geavanceerder en veel gebruikt geworden. Ze zijn behoorlijk goed geworden in het weergeven van afbeeldingen vol details, zolang die afbeelding maar beperkt is tot een relatief klein gebied. Wanneer GAN's echter worden gebruikt om afbeeldingen van grotere scènes en omgevingen te genereren, presteren ze meestal niet zo goed. In scenario's waarin GAN's wordt gevraagd scènes met veel objecten en items weer te geven, zoals een drukke straat, laten GAN's vaak veel belangrijke aspecten van het beeld weg.

Dat meldt MIT News, werd het onderzoek gedeeltelijk ontwikkeld door David Bau, een afgestudeerde student aan de afdeling Elektrotechniek en Computerwetenschappen van het MIT. Bau legde uit dat onderzoekers zich meestal concentreren op het verfijnen van waar machine learning-systemen aandacht aan besteden en hoe bepaalde inputs kunnen worden toegewezen aan bepaalde outputs. Bau legde echter ook uit dat het begrijpen van welke gegevens door machine learning-modellen worden genegeerd vaak net zo belangrijk is, en dat het onderzoeksteam hoopt dat hun tools onderzoekers zullen inspireren om aandacht te besteden aan de genegeerde gegevens.

Bau's interesse in GAN's werd aangewakkerd door het feit dat ze konden worden gebruikt om de black-box-aard van neurale netwerken te onderzoeken en een intuïtie te krijgen van hoe de netwerken zouden kunnen redeneren. Bau werkte eerder aan een tool die specifieke clusters van kunstmatige neuronen kon identificeren, en ze bestempelde als verantwoordelijk voor de representatie van objecten uit de echte wereld, zoals boeken, wolken en bomen. Bau had ook ervaring met een tool genaamd GANPaint, waarmee kunstenaars specifieke kenmerken van foto's kunnen verwijderen en toevoegen door GAN's te gebruiken. Volgens Bau bracht de GANPaint-applicatie een mogelijk probleem met de GAN's aan het licht, een probleem dat aan het licht kwam toen Bau de afbeeldingen analyseerde. Zoals Bau aan MIT News vertelde:

“Mijn adviseur heeft ons altijd aangemoedigd om verder te kijken dan de cijfers en de daadwerkelijke beelden onder de loep te nemen. Toen we keken, sprong het fenomeen er meteen uit: mensen werden selectief afgehaakt.”

Hoewel machine learning-systemen zijn ontworpen om patronen uit afbeeldingen te extraheren, kunnen ze uiteindelijk ook relevante patronen negeren. Bau en andere onderzoekers experimenteerden met het trainen van GAN's op verschillende binnen- en buitenscènes, maar in alle verschillende soorten scènes lieten de GAN's belangrijke details in de scènes weg, zoals auto's, verkeersborden, mensen, fietsen, enz. Dit gold zelfs toen de weggelaten objecten waren belangrijk voor de scène in kwestie.

Het onderzoeksteam veronderstelde dat wanneer de GAN op afbeeldingen wordt getraind, de GAN het gemakkelijker kan vinden om de patronen van de afbeelding vast te leggen die gemakkelijker te representeren zijn, zoals grote stationaire objecten zoals landschappen en gebouwen. Het leert deze patronen over andere, moeilijker te interpreteren patronen, zoals auto's en mensen. Het is algemeen bekend dat GAN's vaak belangrijke, betekenisvolle details weglaten bij het genereren van afbeeldingen, maar de studie van het MIT-team is mogelijk de eerste keer dat is aangetoond dat GAN's hele objectklassen binnen een afbeelding weglaten.

Het onderzoeksteam merkt op dat het voor GAN's mogelijk is om hun numerieke doelen te bereiken, zelfs als ze objecten weglaten waar mensen om geven bij het bekijken van afbeeldingen. Als door GANS gegenereerde beelden gebruikt gaan worden om complexe systemen te trainen zoals autonome voertuigen, moeten de afbeeldingsgegevens nauwkeurig worden onderzocht, omdat er een reële zorg bestaat dat kritieke objecten zoals borden, mensen en andere auto's buiten de afbeeldingen kunnen worden weggelaten. Bau legde uit dat hun onderzoek aantoont waarom de prestaties van een model niet alleen gebaseerd moeten zijn op nauwkeurigheid:

"We moeten begrijpen wat de netwerken wel en niet doen om er zeker van te zijn dat ze de keuzes maken die wij willen dat ze maken."

Gerelateerde onderwerpen:diepgaand leren GAN Generatieve tegengestelde netwerken

Enkele essentiële boeken over AI zijn gratis online beschikbaar

Mis het niet

AI leert zichzelf natuurkundige wetten

Daniël Nelson

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.