Connect with us

Intervjuer

Ernest Piatrovich, Produktleder i ARTA – Intervju-serie

mm

Ernest Piatrovich er en produktleder i AIBY Group, og leder ett av selskapets topp-apper, ARTA – AI-bildegenerator for iPhone og Android. Hans strategiske visjon og kreative tenkning har resultert i at appen har nådd #2-plassen i US App Store-topplisten like etter lanseringen, krysset 15 millioner nedlastinger verden over, og tilbyr de beste AI-avatarene basert på en unik intern pipeline, blant andre suksesser.

Du har vært ansvarlig for å lede ARTA – AI-kunstgenerator fra idefasen til nå. Kan du dele noen tanker om disse tidlige dagene?

Selvfølgelig! De var dynamiske tider. Vi klarte å lansere en finutviklet applikasjon på bare en uke, og ble en av de første forbrukerapp-utviklerne som tilbød tekst-til-bilde-funksjonalitet på mobil. Vårt mål var å bygge et massemarkedprodukt som gir folk “en kunstner” i lommen. Så, fra dag én, har vi fokusert på brukervennlighet og skalerbarhet. Men til tross for at vi kom inn på markedet svært tidlig, var det ganske utfordrende å øke våre installasjonsvolumer til en tilstrekkelig størrelse, selv med et strålende medieinnkjøpslag som vårt. En betydelig økning skjedde tre måneder etter appens lansering, da vår avatar-funksjon ble hypet. Volumet økte raskt til et moderat nivå for vår niche, og siden da har vår oppgave vært å vedlikeholde og øke det.

Hva var den opprinnelige tekniske plattformen du lanserte på, og hva var noen av utfordringene med kunstgenerering i denne perioden?

Vi lanserte basert på Stable Diffusion 1.3, ved hjelp av den offisielle API-en fra Stability.ai. Jeg må si at situasjonen med kvaliteten på genereringer da og nå er som natt og dag. Da vi først startet, rapporterte våre QA-ledere ofte problemer relatert til estetisk verdi av bilder eller uakkurater i å representere bestemte konsepter og funksjoner. Men det var standard for Stable Diffusion på den tiden. Nå er genereringsutdata mye bedre på alle områder, inkludert stilistisk reproduksjon, komposisjonskoherens, visuell trofasthet, detaljnivå og mer.

Kort tid etter appens lansering, begynte vi å leie servere på Amazon, og å støtte dem viste seg å være ganske en utfordring. Selv med tilstrekkelige midler, kan det være ingen ledige A100 tilgjengelig når du trenger det, og du må vente i noen dager. Derfor måtte vi leve uten autoskaleringsfunksjoner, og omdirigere all overskuddstrafikk til våre partnere sine API-er.

Å vedlikeholde all dette er fremdeles ganske komplisert til denne dag, med mindre problemer som oppstår hver måned eller så. For eksempel møter vi av og til midlertidige problemer med kvaliteten på genereringer når leverandøren oppdaterer serveren, tester vekter eller implementerer andre endringer som påvirker genereringsutdata. Slike feil kan vare fra en time til en halv dag og er uforutsigbare og vanskelige å spore. Vanligvis, når vår supportavdeling mottar en bruker-rapport om uklare bilder eller andre problemer som oppstår, har API-leverandøren allerede fikset problemet. Men det er en alvorlig bekymring for våre brukere. Derfor bygger vi nå et system som kombinerer flere leverandører og våre egne servere for spesielle genereringer, og lar oss ha mer kontroll på vår side av tingene.

Som produktleder, hva strategiske beslutninger har vært avgjørende for å lede ARTA til sin topp-rangering like etter lanseringen?

ARTA sin (da kalt Aiby) tidlige oppsving resulterte fra det riktige valget om å implementere den virale avatar-funksjonen da den bare begynte å gjøre runder på sosiale medier. Vi erkjente raskt den økende interessen for denne funksjonaliteten. Hele vårt team, inkludert produkt, markedsføring og utvikling, var på samme bølgelengde og visjonær om dens suksess. Vi erkjente også at en kort tid til markedet var avgjørende. Så, fra dag én, dedikerte vi alle våre ressurser til å realisere denne funksjonen, og prioritere den over andre oppgaver.

Da vår frist var ASAP, for ikke å gå glipp av øyeblikket når AI-avatarene nådde sin hype-topp, valgte vi å bruke en tredjeparts-løsning og tilpasse den for vår app. Mens avatarene begynte å få fart på mobil, hadde teknologien allerede vært tilgjengelig på nettet i en stund, selv med en API. Takk til teamets konsentrerte innsats, var vår første arbeidende versjon i App Store på bare fem dager, og tilbød svært konkurranseutsatt avatar-utdata. Det hjalp oss å nå #2-plassen i den amerikanske topplisten og forbli den nest mest nedlastede appen i USA i en uke.

Ditt team har nylig lansert en oppgradering av ARTA sin AI-avatargenereringsfunksjon. Kan du dele noen detaljer om dette?

AI-modellene tenderer å legge til generiske ansiktstrekk under trening, og gjør avatarene ulike fra kildebildene, og jo mer unike en persons trekk er, jo mer ulik kan AI-tolkningen være. For å løse dette problemet, bestemte vi oss for å lage vår egen avatar-tjeneste. Vi hadde brukt en tredjeparts-API i lang tid, men fikk ikke betydelige forbedringer. Med server-skiftet, var vi i stand til å sette opp mer optimal treningsteknologi for å bedre bevare likheten mellom brukerens virkelige ansikt og avatar-utdata. Selv om jeg ikke kan avsløre vår unike pipeline i detalj, ble det mulig takket være en spesiell kombinasjon av SDXL-innstillinger, LORAs og ansiktforbedringsverktøy, og vi har ikke sett bedre resultater andre steder.

Med den nye serveren, flyttet vi bort fra en fast kostnad for hver avatar-pakke til en månedlig server-avgift, og kan nå tilby avatarene gjennom en ukentlig abonnement i stedet for å kreve separate innkjøp i appen. Det skaper en mer tilfredsstillende opplevelse og er mye billigere for våre brukere hvis de ønsker å generere, for eksempel, fem avatar-pakker innen en uke eller endre bilde-inndata mens de går. Med tanke på alt ovenfor, har vårt avatar-tilbud nå det beste pris-ytelses-forholdet på markedet. Mens det finnes apper som kan lage høykvalitets-realistiske avatarene, skiller ARTA seg ut ved å tilby en mangfoldig rekke av fargerike utdata-variasjoner, samt realistiske stiler, alle med samme presise nivå av ansiktsgjenkjenning.

På hvilke andre måter har teamet forbedret appens funksjonalitet?

Vi konkluderte med at det er mer effektivt å bruke tredjeparts-API-er for vanlige brukssaker som tekst-til-bilde-generering, bildeomforming og inpainting. Denne tilnærmingen eliminerer behovet for å bruke tid på å finne ut hvordan man integrerer disse funksjonalitetene i vår server-infrastruktur. Videre reduserer det kostnader i situasjoner hvor en ny funksjon ikke tar av som forventet, og vi bestemmer oss for å fjerne den. AI-bilde-genererings-industrien utvikler seg raskt, med mange dedikerte tjenester tilgjengelige, så vi utforsker og gradvis adopterer de som stemmer overens med våre mål.

Samtidig som ARTA sine behov ofte viser seg å være ganske unike, og krever interne funn. I tilfeller hvor tilpassede API-er enten ikke eksisterer eller ikke tilbyr tilfredsstillende utdata-kvalitet, spesialiserer vi oss og tilpasser våre interne tjenester og utvikler våre egne løsninger for å oppnå resultater vi ønsker. For eksempel, i tillegg til å oppgradere AI-avatarene, har våre ML- og prompt-ingeniører kommet frem til en ny pipeline for appens AI-filtre (Selvportrett) funksjon. Vi har også utviklet en unik algoritme for vår kommende AI-baby-funksjon – en genereringsfunksjon som lar to personer slå sammen sine bilder og se hvordan deres barn kan se ut. Basert på min oppfatning av verden som en produktleder, tvilte jeg først på dens suksess, men annonsekreative med denne konseptet er svært populære. Så, å sjekke markedsinnsikt er spesielt nyttig i innhold-relaterte saker.

Kan brukerne påvirke den kunstneriske prosessen i ARTA? Hvis ja, hva verktøy og alternativer er tilgjengelige for brukerne til å tilpasse AI-generert kunst?

Vi håndterer alle komplekse aspekter relatert til generering, med mål om å gi våre brukere en enkel kunstnerisk opplevelse uten unødvendig teknisk overbelastning. Så, den primære måten brukerne påvirker utdata er gjennom promter. Vi holder denne prosessen transparent ved å vise den eksakte ord-forespørselen som vil bli sendt til modellen for generering, og tilbyr bare assistanse med å komponere effektive promter hvis nødvendig.

Vi velger de beste standard-innstillingene for hver integrert modell, så brukerne ikke behøver å bry seg om det. Vanligvis er det ingen behov for å justere dem for å maksimere resultater, da de allerede produserer en optimal genereringsutdata. Likevel, hvis brukeren ønsker å eksperimentere, er en avansert modus bare et klikk unna, og noen dypere parametre er i innstillingsseksjonen.

Snart, vil vi legge til en Seed-parameter, som lar brukerne ha full kontroll over generering når de må gjenskape en identisk bilde fra scratch. I tillegg, planlegger vi å utvide listen over bildesideforhold. Vi tenker også på å legge til flere kontrollnett til vanlige genereringer. De er allerede støttet på serversiden, da vi bruker dem til å generere AI-filtre og skisser, men de er ikke ennå levert til sluttbrukerne.

Hvordan ser du på impekten av AI som ARTA på det tradisjonelle kunstmarkedet? Ser du AI-kunstgenerering som en forstyrrelse eller en forbedring av kunstindustrien?

Jeg ser det som en forbedring. Generativ AI har introdusert nye og verdifulle muligheter for å forbedre den kunstneriske prosessen, samtidig som den betydelig reduserer omloppstiden. Den assisterer digitale kunstnere, designere, illustratører og andre visuelle innholdsskapere med en rekke oppgaver, fra å utforske ideer og utvikle konsepter til å generere skisser og ferdige bilder. Til slutt, er vår evne til å utnytte dens fremgang avgrenses bare av vår fantasi.

For eksempel, har jeg en hobby i å lage PC-spill, og nylig brukte jeg ARTA til å generere en samling ikoner for ferdigheter og gjenstander. Jeg kunne designe dem på egen hånd med Adobe Illustrator, men med en bildegenerator, fikk jeg det jeg trengte nesten med en gang. Min kone, på sin side, er en retusjør-fotograf. Takk til Photoshops generative fylling, arbeider hun mye raskere og har mer fritid (eller mer inntekt hvis hun bestemmer seg for å akseptere flere retusjeringer).

Når det er gjort godt, kan AI-genererte bilder se ut som profesjonelle kunstverk. Men, i min mening, vil AI aldri erstatte en ekte profesjonell. Uansett hvor dyktige neurale nettverk blir, er de fortsatt trent på data skapt av mennesker, hvilket betyr at alt de genererer allerede eksisterer et sted. Så, både da og nå, kan kun innovative ideer produseres av mennesker. Mens den tradisjonelle betydningen av kunst fortsatt er assosiert med menneskeskapt kunst, er AI-kunst som en forventet sidegren, som inviterer alle, uavhengig av kunstnerisk bakgrunn, til å prøve en spennende ny opplevelse.

Ser du på fremtiden for AI-bilde-generering, utover å forbedre bildekvaliteten?

Sammen med bildekvaliteten, vil genereringshastigheten øke, og automatisk føre til mer kostnadseffektive utdata.

Jeg tror det vil ikke ta lang tid før det er en enkel måte å generere de samme karakterene i forskjellige miljøer og stillinger, så vi vil se en økning i AI i tegneserier, barnebøker, spillgrafikk og mer. Innendørsdesign og annonseproduksjon er allerede områder som aktivt utnytter generativ AI, men mer er foran oss, ettersom teknologien fortsetter å utvikle seg.

Da alle genereringer krever kraftige GPU-er, vil disse teknologiene utvikle seg sammen med AI i lang tid. Vi er bare på begynnelsen av reisen. Kanskje den nye Apple i vår tid vil være Nvidia, med alle, eller i alle fall de i IT-industrien, som venter på nye videokort-lanseringer, akkurat som vi alle gjorde med iPhones.

AI-bilde-generatorene vil fortsette å levere morsomme og engasjerende opplevelser, enten ved å introdusere nye konsepter som oppstår fra popkultur eller gjenopplive eldre ideer med bedre teknologi. For eksempel, er interessen for AI-baby-genereringer nå økende. En ny teknologi basert på Stable Diffusion har demonstrert imponerende utdata fra å slå sammen to personers trekk for å avsløre deres biologiske barns potensielle utseende. Resultatene overgår langt det som var tilgjengelig på horoskop-sider for noen år siden, og folk er ivrige etter å prøve det igjen.

Hva er dine forutsigelser for hva vi kan forvente neste fra generativ AI?

Bølgen av popularitet for video-generering er på horisonten. Med fremgang i teknologien som når et tilstrekkelig nivå, vil det uten tvil være forsøk på å trene neurale nettverk med menneskers ansiktsuttrykk og gester for å skape video-avatarene, potensielt sogar med unike bruker-stemmer.

AI-lyd er en annen betydelig gjennombrudd som innleder en ny æra for musikkproduksjons-industrien. Denne teknologien har allerede presentert fantastiske muligheter for å komponere sanger basert bare på tekst-inndata, og gjør det til et utmerket verktøy for å skape tilpassede, ikke-aksjes-lydspor for ulike typer video-innhold. Overhodet, er det virkelig morsomt å lytte til noe så banalt som vilkår rapt eller sunget med romantisk intonasjon.

Takk for det flotte intervjuet, lesere som ønsker å lære mer eller generere noen bilder, bør besøke ARTA.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.