Interviews
Ernest Piatrovich, Product Manager hos ARTA – Interview Serie

Ernest Piatrovich er en Product Manager hos AIBY Group, der leder en af virksomhedens top-tier AI-drevne apps, ARTA – AI Billede Generator til iPhone og Android. Hans strategiske vision og kreative tænkning resulterede i, at appen opnåede #2 positionen i US App Store top charts kort efter dens udgivelse, overskred milepælen på 15 millioner downloads verden over og tilbød de bedst fungerende AI Avatars baseret på en unik internt pipeline, blandt andre succeser.
Du har været ansvarlig for at styre ARTA – AI Kunstgenerator fra ideationsfasen til nu. Kan du dele nogle indsighter om disse tidlige dage?
Selvfølgelig! Det var dynamiske tider. Vi lykkedes at udgive en fint lavet applikation inden for blot en uge og blev en af de første forbrugerapp-skabere til at tilbyde tekst-til-billede-genereringsfunktion på mobile enheder. Vores mål var at bygge et massemarkedprodukt, der giver mennesker en “kunstner” i deres lomme. Så, fra begyndelsen og de tidlige udviklingsfaser, har vi fokuseret på brugervenlighed og skalerbarhed. Men på trods af, at vi kom ind på markedet meget tidligt, var det ret udfordrende at øge vores installationsvolumen til en passende omfang, selv med en briliant mediekøbsgruppe som vores. En betydelig boost opstod tre måneder efter appens udgivelse, da vores Avatar-funktion blev hypet. Volumen blev hurtigt moderat højt for vores niche, og siden da har vores opgave været at vedligeholde og øge det.
Hvad var den oprindelige tekniske platform, du lancerede på, og hvad var nogle af udfordringerne med kunstgenerering under denne periode?
Vi lancerede på basis af Stable Diffusion 1.3 ved hjælp af den officielle API fra Stability.ai. Jeg skal sige, at situationen med kvaliteten af generationer dengang og nu er som nat og dag. Da vi først startede, rapporterede vores QA-chefer ofte problemer relateret til æstetisk værdi af billeder eller uregelmæssigheder i repræsentation af bestemte koncepter og funktioner. Men det var standard for Stable Diffusion på det tidspunkt. Nu er generationsoutput meget bedre på alle områder, herunder stilistisk reproduktion, kompositionssammenhæng, visuel troværdighed, detaljeniveau og mere.
Kort efter appens udgivelse begyndte vi at leje servere på Amazon, og det viste sig at være ret udfordrende at understøtte dem. Selv med tilstrækkelige midler kan der ikke være nogen ledige A100 til rådighed, når du har brug for det, og du vil være nødt til at vente i et par dage. Derfor var vi nødt til at leve uden autoskalering og omdirigere al overskydende trafik til vores partnere’s API’er.
At vedligeholde alt dette er stadig ret udfordrende til denne dag, med mindre problemer, der opstår på den ene eller den anden måde hver måned eller så. For eksempel oplever vi lejlighedsvis midlertidige problemer med kvaliteten af generationer, når leverandøren opdaterer serveren, tester vægte eller implementerer andre ændringer, der påvirker generationsoutput. Sådanne fejl kan vare fra en time til en halv dag og er uforudsigelige og svære at spore. Som regel, når vores supportafdeling modtager en bruger rapport om uklare billeder eller andre forekommende problemer, har API-leverandøren allerede løst problemet. Men det er en alvorlig bekymring for vores brugere. Derfor bygger vi nu et system, der kombinerer multiple leverandører og vores egne servere til specialgenerationer, hvilket giver os mere kontrol på vores side af tingene.
Som produktchef, hvilke strategiske beslutninger har været afgørende for at guide ARTA til dens top-position kort efter dens udgivelse?
ARTA’s (på det tidspunkt kaldet Aiby) tidlige opstigning skyldtes den rettidige beslutning om at implementere den virale Avatar-funktion, da den lige var begyndt at sprede sig på sociale medier. Vi erkendte hurtigt den voksende interesse for denne funktion. Hele vores team, herunder produkt, marketing og udvikling, var på samme bølgelængde og visionær omkring dens succes. Vi erkendte også, at en kort tid til markedet var afgørende. Så fra dag én dedikerede vi alle vores ressourcer til at realisere denne funktion, prioriterede den over andre opgaver.
Da vores deadline var ASAP, så vi ikke missede øjeblikket, hvor AI-Avatars når deres hype-top, valgte vi at bruge en tredjeparts-løsning og tilpasse den til vores app. Da avatars begyndte at vinde popularitet på mobile enheder, havde teknologien allerede været tilgængelig på webben i en længere periode, selv med en API. Takket være teamets koncentrerede indsats var vores første arbejdende version i App Store blot fem dage efter, og den tilbød højkonkurrerende avatar-output. Det hjalp os med at opnå #2 positionen i den amerikanske top-charts og forblive den anden mest downloadede app i USA i en uge.
Dit team har nyligt udgivet en opgradering til ARTA’s AI-avatargenereringsfunktion. Kan du dele nogle detaljer omkring dette?
AI-modellerne har tendens til at tilføje generiske ansigtstræk under træning, hvilket får avatars til at se forskellige ud fra de oprindelige fotos, og jo mere unikke en persons træk er, desto mere ulig kan AI-tolkningen være. For at løse dette problem besluttede vi at oprette vores egen avatar-tjeneste. Vi havde brugt en tredjeparts-API i lang tid, men det gav ikke betydelige forbedringer. Med server-skiftet kunne vi opstille mere optimal træningsteknologi til bedre at vedligeholde ligheden af brugerens rigtige ansigt i avatar-output. Selv om jeg ikke kan afsløre vores unikke pipeline i detaljer, blev det muligt takket være en specifik kombination af SDXL-indstillinger, LORAs og ansigtforbedringsværktøjer, og vi har endnu ikke set bedre resultater andre steder.
Med den nye server flyttede vi os væk fra en fast omkostning for hver avatar-pakke til en månedlig server-gebyr og kan nu tilbyde avatars gennem en ugentlig abonnement i stedet for at kræve separate in-app-køb. Det skaber en mere tilfredsstillende oplevelse og er langt billigere for vores brugere, hvis de ønsker at generere, for eksempel, fem avatar-pakker inden for en uge eller ændre foto-input, mens de går. Under betragtning af alt ovenfor har vores avatar-tilbud nu det bedste pris-ydelsesforhold på markedet. Selv om der er apps, der kan generere højkvalitets-realistic avatars, adskiller ARTA sig ved at tilbyde en divers palette af farverige og farverige output-varianter ud over realistiske stilarter, alle med samme præcise niveau af ansigtsgenkendelse.
På hvilke andre måder har teamet forbedret appens funktioner?
Vi konkluderede, at brugen af tredjeparts-API’er er mere effektiv for almindelige brugssager som tekst-til-billede-generering, billedeomdannelse og inpainting. Denne tilgang eliminerer behovet for at bruge tid på at figurere ud, hvordan man integrerer disse funktioner i vores server-infrastruktur. Desuden reducerer det omkostninger i situationer, hvor en ny funktion ikke tager af, som forventet, og vi beslutter at fjerne den. AI-billede-genereringsindustrien udvikler sig hurtigt, med talrige dedikerede tjenester tilgængelige, så vi udforsker og adopterer gradvist dem, der er i overensstemmelse med vores mål.
Samtidig med, at ARTA’s behov ofte viser sig at være ret unikke, kræver de interne opdagelser. I tilfælde, hvor tilpassede API’er enten ikke findes eller ikke giver tilfredsstillende output-kvalitet, specialiserer vi os og tilpasser vores interne tjenester og udvikler vores egne løsninger for at opnå de resultater, vi ønsker. For eksempel, ud over at opgradere AI-avatargenerering, har vores ML- og prompt-ingeniører fundet en ny pipeline til appens AI-filtre (Selvportrætter)-funktion. Vi har også udviklet en unik algoritme til vores kommende AI-baby-funktion – en genereringsfunktion, der tillader to personer at kombinere deres fotos og se, hvordan deres barn måske ser ud. Baseret på min opfattelse af verden som produktchef, tvivlede jeg først på dens succes, men reklamekreative med dette koncept er meget populære. Så, at tjekke markedsvisioner er især nyttigt i indhold-relaterede tilfælde.
Kan brugere påvirke den kreative proces i ARTA? Hvis ja, hvilke værktøjer og muligheder er tilgængelige for brugere til at tilpasse AI-genereret kunst?
Vi håndterer alle komplekse aspekter relateret til generation, med det formål at give vores brugere en enkel kunstnerisk oplevelse uden unødvendig teknisk overbelastning. Så, den primære måde, brugere påvirker output, er gennem prompts. Vi holder denne proces gennemsigtig ved at vise den præcise ordanmodning, der vil blive sendt til modellen til generation, og kun tilbyder assistance med at komponere effektive prompts, hvis nødvendigt.
Vi vælger de bedste standardindstillinger for hver integreret model, så brugere ikke behøver at bekymre sig om det. Typisk er der ingen grund til at justere dem for at maksimere resultaterne, da de allerede producerer en optimal generationsoutput. Alligevel, hvis brugeren ønsker at eksperimentere, er en avanceret tilstand kun et klik væk, og nogle dybere parametre er i indstillingssektionen.
Snart vil vi tilføje en Seed-parameter, der giver brugerne fuld kontrol over generation, når de har brug for at genskabe en identisk billede fra scratch. Desuden planlægger vi at udvide listen over billedforhold. Vi overvejer også at tilføje flere kontrolnæt til almindelige generationer. De understøttes allerede på serversiden, da vi bruger dem til at generere AI-filtre og skitser, men de er endnu ikke leveret til slutbrugere.
Hvordan opfatter du virkningen af AI som ARTA på det traditionelle kunstmarked? Ser du AI-kunstgenerering som en forstyrrelse eller en forbedring af kunstindustrien?
Jeg ser det som en forbedring. Generativ AI har introduceret nye og værdifulde muligheder for at forbedre den kreative proces, samtidig med at den betydeligt reducerer omgangstiden. Den hjælper digitale kunstnere, designere, illustratører og andre visuelle indholdsskabere med en række opgaver, fra at udforske ideer og udvikle koncepter til at generere skitser og færdige billeder. Til sidst er vores evne til at udnytte dens fremskridt kun begrænset af vores fantasi.
For eksempel har jeg en fritidsinteresse for at skabe PC-spil, og for nylig brugte jeg ARTA til at generere en samling ikoner til færdigheder og genstande. Jeg kunne have designet dem selv ved hjælp af Adobe Illustrator, men med en billedegenerator fik jeg, hvad jeg havde brug for, næsten med det samme. Min kone, på den anden side, er en retoucher-fotograf. Takket være Photoshop’s Generative Fill arbejder hun meget hurtigere og har mere fritid (eller mere indtægt, hvis hun beslutter at acceptere flere retoucheringer).
Når det er gjort godt, kan AI-genererede billeder se ud som professionelt kunstværk. Men i min mening vil AI aldrig erstatte en sand professionel. Uanset hvor dygtige neurale netværk bliver, er de stadig trænet på data skabt af mennesker, hvilket betyder, at alt, de genererer, allerede eksisterer et sted. Som dengang og nu kan kun sande innovative ideer produceres af mennesker. Selv om den traditionelle betydning af kunst stadig er forbundet med menneskeskabte værker, er AI-kunst som en forventet afledning, der inviterer alle, uanset kunstnerisk baggrund, til at prøve en spændende ny oplevelse.
Ud over blot at forbedre billedkvaliteten, hvor ser du fremtiden for AI-billede-generering?
Sammen med billedkvaliteten vil generationshastigheden øge, hvilket automatisk vil føre til mere kosteffektive output.
Jeg tror, det vil ikke tage lang tid, før der er en nem måde at generere de samme karakterer i forskellige miljøer og stillinger, så vi vil se opblomstringen af AI i tegneserier, børnebøger, spilgrafik og mere. Indretningsdesign og reklameproduktion er allerede områder, der aktivt udnytter generativ AI, men mere er på vej, da teknologien fortsætter med at udvikle sig.
Da alle generationer kræver stærke GPU’er, vil disse teknologier udvikle sig sammen med AI i lang tid. Vi er kun lige begyndt på rejsen. Måske vil den nye Apple af vores tid være Nvidia, hvor alle, eller i hvert fald de i IT-industrien, venter spændt på nye videokortudgivelser, ligesom vi alle gjorde med iPhones.
AI-billede-generering vil fortsætte med at levere sjove og engagerende oplevelser, enten ved at introducere nye koncepter, der opstår fra popkultur, eller genoplive ældre ideer med bedre teknologi. For eksempel er interessen for AI-baby-generationer i øjeblikket stigende. En ny teknologi baseret på Stable Diffusion har demonstreret imponerende output fra at kombinere to personers træk for at afsløre deres biologiske barns potentiale udseende. Resultaterne overgår langt, hvad der var tilgængeligt på horoskop-sites for få år siden, og mennesker er ivrige efter at give det endnu et forsøg.
Hvad er dine forudsigelser for, hvad vi skal forvente næste fra Generativ AI?
Bølgen af popularitet for video-generering er på vej. Med fremskridt i teknologien, der når et tilstrækkeligt niveau, vil der uden tvivl være forsøg på at træne neurale netværk ved hjælp af menneskers ansigtsudtryk og gestus for at skabe video-avatargenerering, potentielt endda med unikke brugerstemmer.
AI-lyd er en anden betydelig gennembrud, der indleder en ny æra for musikproduktionsindustrien. Denne teknologi har allerede præsenteret fantastiske muligheder for at komponere sange baseret kun på tekstinput, hvilket gør det til et fremragende værktøj til at skabe brugerdefinerede ikke-aktie-lydspor til forskellige typer af videoindhold. I det hele taget er det rigtig sjovt at lytte til noget sådant som vilkår rappede eller sunget med romantisk intonation.
Tak for det gode interview. Læsere, der ønsker at lære mere eller generere nogle billeder, skal besøge ARTA.












