Artificial Intelligence

Neues Tool kann Forschern zeigen, was GANs in einem Bild auslassen

Aktualisiert on 9. Dezember 2022

Kürzlich hat ein Forscherteam des MIT-IBM Watson AI Lab eine Methode entwickelt, um anzuzeigen, was ein Generative Adversarial Network aus einem Bild herauslässt, wenn es aufgefordert wird, Bilder zu generieren. Die Studie wurde synchronisiert Sehen, was ein GAN nicht erzeugen kann, und es wurde kürzlich auf der International Conference on Computer Vision vorgestellt.

Generative Adversarial Networks sind in den letzten Jahren robuster, ausgefeilter und weit verbreiteter geworden. Sie sind ziemlich gut darin, Bilder voller Details wiederzugeben, solange das Bild auf einen relativ kleinen Bereich beschränkt ist. Wenn GANs jedoch zum Generieren von Bildern größerer Szenen und Umgebungen verwendet werden, weisen sie tendenziell eine schlechtere Leistung auf. In Szenarien, in denen GANs Szenen mit vielen Objekten und Elementen rendern sollen, beispielsweise eine belebte Straße, lassen GANs oft viele wichtige Aspekte des Bildes weg.

Laut MIT NewsDie Forschung wurde teilweise von David Bau entwickelt, einem Doktoranden an der Fakultät für Elektrotechnik und Informatik am MIT. Bau erklärte, dass sich Forscher normalerweise darauf konzentrieren, zu verfeinern, worauf maschinelle Lernsysteme achten, und herauszufinden, wie bestimmte Eingaben bestimmten Ausgaben zugeordnet werden können. Bau erklärte jedoch auch, dass es oft genauso wichtig sei, zu verstehen, welche Daten von Modellen des maschinellen Lernens ignoriert werden, und dass das Forschungsteam hofft, dass seine Tools Forscher dazu inspirieren werden, den ignorierten Daten Aufmerksamkeit zu schenken.

Baus Interesse an GANs wurde durch die Tatsache geweckt, dass sie dazu verwendet werden könnten, die Black-Box-Natur neuronaler Netze zu untersuchen und eine Vorstellung davon zu gewinnen, wie die Netze schlussfolgern könnten. Bau arbeitete zuvor an einem Tool, das bestimmte Cluster künstlicher Neuronen identifizieren und sie als für die Darstellung realer Objekte wie Bücher, Wolken und Bäume verantwortlich kennzeichnen konnte. Bau hatte auch Erfahrung mit einem Tool namens GANPaint, das es Künstlern ermöglicht, mithilfe von GANs bestimmte Funktionen aus Fotos zu entfernen und hinzuzufügen. Laut Bau offenbarte die GANPaint-Anwendung ein potenzielles Problem mit den GANs, ein Problem, das deutlich wurde, als Bau die Bilder analysierte. Wie Bau MIT News sagte:

„Mein Berater hat uns immer ermutigt, über die Zahlen hinauszuschauen und die tatsächlichen Bilder zu hinterfragen. Als wir nachsahen, fiel uns sofort das Phänomen auf: Menschen wurden selektiv abgesetzt.“

Während maschinelle Lernsysteme darauf ausgelegt sind, Muster aus Bildern zu extrahieren, können sie am Ende auch relevante Muster ignorieren. Bau und andere Forscher experimentierten mit dem Training von GANs für verschiedene Innen- und Außenszenen, aber in allen verschiedenen Arten von Szenen ließen die GANs wichtige Details in den Szenen wie Autos, Verkehrsschilder, Menschen, Fahrräder usw. aus. Dies traf auch damals zu Die weggelassenen Objekte waren für die jeweilige Szene wichtig.

Das Forschungsteam stellte die Hypothese auf, dass es dem GAN leichter fallen könnte, die Muster des Bildes zu erfassen, die einfacher darzustellen sind, beispielsweise große stationäre Objekte wie Landschaften und Gebäude, wenn das GAN auf Bildern trainiert wird. Es lernt diese Muster gegenüber anderen, schwieriger zu interpretierenden Mustern wie Autos und Menschen. Es ist allgemein bekannt, dass GANs bei der Generierung von Bildern häufig wichtige und aussagekräftige Details weglassen, aber die Studie des MIT-Teams ist möglicherweise das erste Mal, dass GANs gezeigt wurden, dass ganze Objektklassen innerhalb eines Bildes weggelassen werden.

Das Forschungsteam stellt fest, dass GANs ihre numerischen Ziele auch dann erreichen können, wenn sie Objekte weglassen, die Menschen beim Betrachten von Bildern interessieren. Wenn von GANS generierte Bilder zum Trainieren komplexer Systeme verwendet werden sollen wie autonome Fahrzeuge, sollten die Bilddaten genau unter die Lupe genommen werden, da ernsthafte Bedenken bestehen, dass kritische Objekte wie Schilder, Personen und andere Autos in den Bildern fehlen könnten. Bau erklärte, dass ihre Forschung zeigt, warum die Leistung eines Modells nicht nur auf Genauigkeit basieren sollte:

„Wir müssen verstehen, was die Netzwerke tun und was nicht, um sicherzustellen, dass sie die Entscheidungen treffen, die wir von ihnen erwarten.“

Als nächstes

Einige wichtige Bücher über KI sind kostenlos online verfügbar

Verpassen Sie nicht

KI bringt sich selbst die Gesetze der Physik bei

Daniel Nelson

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.