Connect with us

Kunstmatige intelligentie

Bewerken van een GAN’s latentie ruimte met ‘Blobs’

mm

Nieuw onderzoek van UC Berkeley en Adobe biedt een manier om direct te bewerken het hyperrealistische content dat kan worden gemaakt door een Generative Adversarial Network (GAN), maar dat normaal gesproken niet kan worden gecontroleerd, geanimeerd of vrij gemanipuleerd op een manier die al lang bekend is bij Photoshop-gebruikers en CGI-praktijnen.

Genoemd BlobGAN, de methode houdt in het creëren van een grid van ‘blobs’ – wiskundige constructies die direct in kaart brengen naar content binnen de latentie ruimte van de GAN.

Door de blobs te verplaatsen, kunt u de ‘objecten’ in een scène-weergave verplaatsen, op een intuïtieve manier die dichter bij CGI- en CAD-methoden ligt dan veel van de huidige pogingen om de latentie ruimte van de GAN in kaart te brengen en te controleren:

Scène-manipulatie met BlobGAN: als de 'blobs' door de gebruiker worden verplaatst, worden de latentie objecten en stijlen in de GAN dienovereenkomstig gewijzigd. Voor meer voorbeelden, zie de bijbehorende video, ingesloten aan het einde van dit artikel, of op https://www.youtube.com/watch?v=KpUv82VsU5k

Scène-manipulatie met BlobGAN: als de ‘blobs’ door de gebruiker worden verplaatst, worden de latentie objecten en stijlen in de GAN dienovereenkomstig gewijzigd. Voor meer voorbeelden, zie de bijbehorende video, ingesloten aan het einde van dit artikel, of op https://www.youtube.com/watch?v=KpUv82VsU5k

Aangezien blobs overeenkomen met ‘objecten’ in de scène die in kaart wordt gebracht in de latentie ruimte van de GAN, zijn alle objecten a priori ontkoppeld, waardoor het mogelijk is om ze individueel te wijzigen:

Objecten kunnen worden vergroot, verkleind, gekloond en verwijderd, onder andere operaties.

Objecten kunnen worden vergroot, verkleind, gekloond en verwijderd, onder andere operaties.

Net als elk object in foto-bewerkingssoftware (of zelfs tekst-bewerkingssoftware), kan een blob worden gedupliceerd en vervolgens gemanipuleerd:

Blobs kunnen worden gedupliceerd in de interface, en hun overeenkomstige latentie-weergaven zullen ook worden 'gekopiëerd en geplakt'. Bron: https://dave.ml/blobgan/#results

Blobs kunnen worden gedupliceerd in de interface, en hun overeenkomstige latentie-weergaven zullen ook worden ‘gekopiëerd en geplakt’. Bron: https://dave.ml/blobgan/#results

BlobGAN kan ook nieuwe, door de gebruiker geselecteerde afbeeldingen parseren naar zijn latentie ruimte:

Met BlobGAN hoeft u geen afbeeldingen die u wilt manipuleren rechtstreeks in de trainingsgegevens op te nemen en vervolgens hun latentie codes te zoeken, maar kunt u selecte afbeeldingen op elk moment invoeren en manipuleren. De foto's die hier worden gewijzigd, zijn post-facto gebruikersinvoer. Bron: https://dave.ml/blobgan/#results

Met BlobGAN hoeft u geen afbeeldingen die u wilt manipuleren rechtstreeks in de trainingsgegevens op te nemen en vervolgens hun latentie codes te zoeken, maar kunt u selecte afbeeldingen op elk moment invoeren en manipuleren. De foto’s die hier worden gewijzigd, zijn post-facto gebruikersinvoer. Bron: https://dave.ml/blobgan/#results

Meer resultaten kunnen worden gezien hier, en in de bijbehorende YouTube-video (ingesloten aan het einde van dit artikel). Er is ook een interactieve Colab demo*, en een GitHub repo**.

Deze soort instrumentatie en reikwijdte kan naïef lijken in de post-Photoshop-tijdperk, en parametrische softwarepakketten zoals Cinema4D en Blender hebben gebruikers al decennialang in staat gesteld om 3D-werelden te creëren en aan te passen; maar het vertegenwoordigt een veelbelovende aanpak voor het temmen van de eigenaardigheden en de arcane aard van de latentie ruimte in een Generative Adversarial Network, door het gebruik van proxy-entiteiten die in kaart worden gebracht naar latentie codes.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.