Interviews
Ernest Piatrovich, Product Manager bij ARTA – Interviewreeks

Ernest Piatrovich is een Product Manager bij AIBY Group, waar hij een van de top-apps van het bedrijf leidt, ARTA – AI-afbeeldingengenerator voor iPhone en Android. Zijn strategische visie en creatief denken hebben ertoe geleid dat de app de #2-positie in de Amerikaanse App Store-toplijsten bereikte kort na de release, de mijlpaal van 15 miljoen downloads wereldwijd overschreed en de beste presterende AI-avatars op basis van een unieke in-house-pijplijn bood, onder andere successen.
U bent verantwoordelijk geweest voor het beheer van ARTA – AI-kunstgenerator vanaf de ideatiefase tot nu. Kunt u enkele inzichten delen over deze vroege dagen?
Natuurlijk! Dat waren dynamische tijden. We slaagden erin om een goed gemaakte applicatie uit te brengen binnen slechts een week, waardoor we een van de eerste consumentenapp-ontwikkelaars waren die tekst-naar-afbeeldingfunctie op mobiel aanboden. Ons doel was om een massamarktproduct te bouwen dat mensen een “kunstenaar” in hun zak kon geven. Dus, vanaf de conceptuele en vroege ontwikkelingsfase, hebben we ons gefocust op gebruiksvriendelijkheid en schaalbaarheid. Maar ondanks dat we op tijd de markt betraden, was het nog steeds een uitdaging om onze installatievolumes te laten groeien tot een adequate omvang, zelfs met een briljant media inkoopteam als het onze. Een aanzienlijke boost vond plaats drie maanden na de release van de app, toen onze Avatar-functie in de mode raakte. Het volume werd snel matig hoog voor onze niche, en sindsdien is onze taak om het te behouden en te verhogen.
Wat was de oorspronkelijke technische stack waarop u lanceerde en wat waren enkele van de uitdagingen met kunstgeneratie tijdens deze periode?
We lanceerden op basis van Stable Diffusion 1.3 met behulp van de officiële API van Stability.ai. Ik moet zeggen dat de situatie met de kwaliteit van generaties toen en nu als dag en nacht is. Toen we voor het eerst begonnen, meldden onze QA-managers vaak problemen met betrekking tot de esthetische waarde van afbeeldingen of onnauwkeurigheden in het weergeven van specifieke concepten en kenmerken. Maar dat was standaard voor Stable Diffusion op dat moment. Nu is de generatie-uitvoer veel beter op alle gebieden, waaronder stylistische reproductie, compositie-coherentie, visuele geloofwaardigheid, detailniveau en meer.
Kort na de release van de app begonnen we servers te huren bij Amazon, en het ondersteunen ervan bleek nogal een uitdaging te zijn. Zelfs met voldoende middelen kan er geen gratis A100 beschikbaar zijn wanneer u het nodig heeft, en u moet een paar dagen wachten. Daarom moesten we zonder autoscale leven en al het overtollige verkeer omleiden naar de API’s van onze partners.
Het onderhoud ervan blijft nog steeds behoorlijk tricky, met kleine problemen die elke maand of zo optreden. Bijvoorbeeld, we komen soms tijdelijke problemen met de kwaliteit van generaties tegen wanneer de provider de server bijwerkt, gewichten test of andere wijzigingen aanbrengt die de generatie-uitvoer beïnvloeden. Dergelijke fouten kunnen van een uur tot een halve dag duren en zijn onvoorspelbaar en moeilijk te traceren. Meestal, tegen de tijd dat onze ondersteuningsafdeling een gebruikersrapport over wazige afbeeldingen of een ander optredend probleem ontvangt, heeft de API-provider het probleem al opgelost. Maar het is een ernstige zorg voor onze gebruikers. Daarom zijn we nu een systeem aan het bouwen dat meerdere providers en onze eigen servers combineert voor speciale generaties, waardoor we meer controle aan onze kant hebben.
Als productmanager, welke strategische beslissingen zijn doorslaggevend geweest bij het leiden van ARTA naar zijn topklassering kort na de release?
ARTA’s (toen Aiby genoemd) vroege opkomst was het resultaat van de tijdige beslissing om de virale Avatar-functie te implementeren toen deze net begon rond te gaan op sociale media. We erkenden snel de groeiende interesse in deze functionaliteit. Ons hele team, inclusief product, marketing en ontwikkeling, was op dezelfde golflengte en had een visie op zijn succes. We erkenden ook dat een korte tijd tot markt cruciaal was. Dus, vanaf de eerste dag, hebben we al onze middelen toegewijd aan het realiseren van deze functie, waarbij we het prioriteiten boven andere taken.
Aangezien onze deadline ASAP was, zodat we het moment niet zouden missen waarop AI-avatars hun hypepiek bereiken, kozen we ervoor om een oplossing van een derde partij te gebruiken en deze aan te passen voor onze app. Terwijl avatars begonnen aan populariteit te winnen op mobiel, was de technologie al enige tijd beschikbaar op het web, zelfs met een API. Dankzij de geconcentreerde inspanningen van het team, was onze eerste werkende versie binnen vijf dagen in de App Store, met een zeer concurrerende avatar-uitvoer. Het hielp ons de #2-positie in de Amerikaanse toplijsten te bereiken en de tweede meest gedownloade app in de VS te blijven voor een week.
Uw team heeft onlangs een upgrade uitgebracht voor ARTA’s AI-avatargeneratiefunctie. Kunt u enkele details delen over dit?
De AI-modellen hebben de neiging om generieke gezichtskenmerken toe te voegen tijdens de training, waardoor avatars er anders uitzien dan de bronafbeeldingen, en hoe unieker iemands trekken zijn, hoe minder de AI-interpretatie kan lijken. Om dit probleem aan te pakken, besloten we onze eigen avatardienst te creëren. We hadden al een tijdje een API van een derde partij gebruikt, maar zagen geen significante verbeteringen. Met de servershift konden we een meer optimale trainings technologie instellen om de gelijkenis van de gebruikers echte gezicht in de avatar-uitvoer beter te behouden. Hoewel ik onze unieke pijplijn niet in detail kan onthullen, werd het mogelijk gemaakt door een specifieke combinatie van SDXL-instellingen, LORAs en gezichtsversterkers, en we hebben nog geen betere resultaten elders gezien.
Met de nieuwe server zijn we weggegaan van een vaste kosten voor elke avatarset en kunnen we nu avatars aanbieden via een wekelijkse abonnement in plaats van separate in-app-aankopen te vereisen. Het creëert een meer vervullende ervaring en is veel goedkoper voor onze gebruikers als ze bijvoorbeeld vijf avatarsets binnen een week willen genereren of de foto-input willen wijzigen terwijl ze gaan. Gezien al het bovenstaande, heeft ons avatar-aanbod momenteel de beste prijs-prestatieverhouding op de markt. Terwijl er apps zijn die hoge kwaliteit realistische avatars kunnen maken, onderscheidt ARTA zich door een diverse reeks van heldere en kleurrijke uitvoervariaties naast realistische stijlen, allemaal met hetzelfde precieze niveau van gezichtsherkenning.
Op welke andere manieren heeft het team de mogelijkheden van de app verbeterd?
We concludeerden dat het gebruik van API’s van derden efficiënter is voor algemene use cases zoals tekst-naar-afbeeldingengeneratie, afbeeldingconversie en inpainting. Deze aanpak elimineert de noodzaak om tijd te besteden aan het uitzoeken hoe deze functionaliteiten in onze serverinfrastructuur te integreren. Bovendien vermindert het de kosten in situaties waarin een nieuwe functie niet zo goed aanslaat als verwacht en we besluiten om het te verwijderen. De AI-afbeeldingengeneratie-industrie evolueert snel, met tal van toegewijde diensten beschikbaar, dus we verkennen en nemen geleidelijk aan die welke aansluiten bij onze doelstellingen.
Tegelijkertijd zijn ARTA’s behoeften vaak nogal uniek, waardoor in-house-vindingen nodig zijn. In gevallen waarin aangepaste API’s niet bestaan of geen bevredigende uitvoerkwaliteit bieden, specialiseren en passen we onze interne diensten aan en ontwikkelen we onze eigen oplossingen om de resultaten te bereiken die we willen. Bijvoorbeeld, naast het upgraden van AI-avatars, hebben onze ML- en prompt-engineers een nieuwe pijplijn voor de AI-filters (selfies) van de app bedacht. We hebben ook een unieke algoritme ontwikkeld voor onze aanstaande AI-baby-functie – een generatiefunctie die twee mensen in staat stelt om hun foto’s te combineren en te zien hoe hun kind eruit zou kunnen zien. Op basis van mijn perceptie van de wereld als productmanager, twijfelde ik aanvankelijk aan zijn succes, maar ad-creaties met dit concept zijn erg populair. Dus, het controleren van marketinginzichten is vooral nuttig in inhoudsgerelateerde gevallen.
Kunnen gebruikers de artistieke proces in ARTA beïnvloeden? Zo ja, welke tools en opties zijn beschikbaar voor gebruikers om de AI-gegenereerde kunst aan te passen?
We behandelen alle complexe aspecten die verband houden met generatie, met als doel onze gebruikers een eenvoudige artistieke ervaring te bieden zonder onnodige technische overbelasting. Dus, de primaire manier waarop gebruikers de uitvoer beïnvloeden, is via prompts. We houden dit proces transparant door de exacte woopaanvraag te laten zien die naar het model voor generatie wordt gestuurd en alleen hulp te bieden bij het samenstellen van effectieve prompts als dat nodig is.
We selecteren de beste standaardinstellingen voor elk geïntegreerd model, zodat gebruikers zich niet druk hoeven te maken over dat. Meestal is er geen behoefte om ze aan te passen om de resultaten te maximaliseren, aangezien ze al een optimale generatie-uitvoer produceren. Toch, als de gebruiker wil experimenteren, is de geavanceerde modus slechts één tik verwijderd, en sommige diepere parameters zijn in de instellingensectie.
Snel zullen we een Seed-parameter toevoegen, waardoor gebruikers volledige controle hebben over generatie wanneer ze een identieke afbeelding van scratch willen reproduceren. Bovendien zijn we van plan om de lijst met aspectverhoudingen uit te breiden. We denken ook aan het toevoegen van enkele controlnets aan reguliere generaties. Ze worden al ondersteund aan de serverside, aangezien we ze gebruiken om AI-filters en schetsen te genereren, maar ze zijn nog niet beschikbaar voor eindgebruikers.
Hoe percipieert u de impact van AI zoals ARTA op de traditionele kunstmarkt? Ziet u AI-kunstgeneratie als een disruptie of een verbetering van de kunstindustrie?
Ik zie het als een verbetering. Generatieve AI heeft nieuwe en waardevolle kansen geïntroduceerd om het artistieke proces te verbeteren, terwijl het de omlooptijd aanzienlijk vermindert. Het ondersteunt digitale kunstenaars, ontwerpers, illustrators en andere visuele content creators met een verscheidenheid aan taken, van het onderzoeken van ideeën en het ontwikkelen van concepten tot het genereren van schetsen en kant-en-klare afbeeldingen. Uiteindelijk is onze mogelijkheid om hun vooruitgang te benutten alleen beperkt door onze verbeelding.
Bijvoorbeeld, ik heb een hobby van het creëren van PC-games, en onlangs gebruikte ik ARTA om een set icons voor vaardigheden en items te genereren. Ik had ze zelf kunnen ontwerpen met Adobe Illustrator, maar met een afbeeldingengenerator kreeg ik wat ik nodig had bijna meteen. Mijn vrouw, daarentegen, is een retoucheur-fotograaf. Dankzij Photoshop’s Generative Fill werkt ze veel sneller en heeft ze meer vrije tijd (of meer inkomsten als ze besluit om meer retouche-opdrachten aan te nemen).
Wanneer goed gedaan, kunnen AI-gegenereerde afbeeldingen ononderscheidbaar zijn van professioneel kunstwerk. Echter, naar mijn mening, zal AI nooit een echte professional vervangen. Hoe vaardig neurale netwerken ook worden, ze zijn nog steeds getraind op door mensen gemaakte gegevens, wat betekent dat alles wat ze genereren al ergens bestaat. Zoals toen en nu, kunnen echt innovatieve ideeën alleen door mensen worden geproduceerd. Terwijl de traditionele betekenis van kunst nog steeds geassocieerd wordt met door mensen gemaakte stukken, is AI-kunst als een verwachte spin-off, die iedereen, ongeacht artistieke achtergrond, uitnodigt om een spannende nieuwe ervaring te proberen.
Kijkend naar de toekomst, waar ziet u de toekomst van AI-afbeeldingengeneratie heen gaan?
Naast de afbeeldingskwaliteit zal de snelheid van generaties toenemen, wat automatisch leidt tot meer kosteneffectieve uitvoer.
Ik denk dat het niet lang zal duren voordat er een eenvoudige manier is om dezelfde personages in verschillende omgevingen en posities te genereren, zodat we de opkomst van AI in strips, kinderboeken, game-graphics en meer zullen zien. Interieurontwerp en ad-creatiesproductie zijn al actief gebruikmakend van generatieve AI, maar er is meer aan de horizon terwijl de technologie blijft evolueren.
Aangezien alle generaties sterke GPUs vereisen, zullen deze technologieën zich ontwikkelen samen met AI voor nog een tijdje. We zijn nog maar aan het begin van de reis. Misschien zal de nieuwe Apple van onze tijd Nvidia zijn, met iedereen, of tenminste die in de IT-industrie, die nieuwe videokaartreleases verwacht, net zoals we allemaal deden met iPhones.
AI-afbeeldingengeneratoren zullen blijven fungeren en aantrekkelijke ervaringen bieden, of het nu gaat om het introduceren van nieuwe concepten die uit popcultuur voortkomen of het opnieuw opleven van oude ideeën met betere technologie. Bijvoorbeeld, de interesse in AI-babygeneraties groeit momenteel. Een recente technologie op basis van Stable Diffusion heeft indrukwekkende uitvoer getoond van het combineren van de kenmerken van twee individuen om het potentieel uiterlijk van hun biologisch kind te onthullen. De resultaten overtreffen ver wat er een paar jaar geleden op horoscoopsites beschikbaar was, en mensen zijn enthousiast om het nog een keer te proberen.
Wat zijn uw voorspellingen voor wat we de komende tijd kunnen verwachten van Generatieve AI?
De golf van populariteit voor videogeneratie is in zicht. Met de vooruitgang in technologie die een voldoende niveau bereikt, zullen er ongetwijfeld pogingen zijn om neurale netwerken te trainen met behulp van mensen’s gezichtsuitdrukkingen en gebaren om video-avatars te creëren, mogelijk zelfs met unieke gebruikersstemmen.
AI-Audio is een andere significante doorbraak die een nieuwe era inluidt voor de muziekproductie-industrie. Deze technologie heeft al verbazingwekkende kansen geboden voor het componeren van nummers op basis van alleen tekstinput, waardoor het een uitstekend instrument is voor het maken van aangepaste niet-stocksoundtracks voor verschillende soorten video-inhoud. Over het algemeen is het echt leuk om naar iets te luisteren dat zo saai is als Gebruiksvoorwaarden gerapt of gezongen met romantische intonatie.
Dank u voor het geweldige interview, lezers die meer willen leren of afbeeldingen willen genereren, moeten ARTA bezoeken.












