Intervjuer
Ernest Piatrovich, Produktchef på ARTA – Intervjuserie

Ernest Piatrovich är Produktchef på AIBY Group, och leder ett av företagets toppmoderna AI-drivna appar, ARTA – AI-bildgenerator för iPhone och Android. Hans strategiska vision och kreativa tänkande ledde till att appen uppnådde plats nummer 2 i US App Store-topplistorna strax efter dess lansering, passerade milstolpen på 15 miljoner nedladdningar världen över och erbjöd de bäst presterande AI-avatarna baserade på en unik in-house-pipeline, bland annat.
Du har varit ansvarig för att hantera ARTA – AI-konstgeneratorn från idéfasen till nu. Kan du dela några insikter om dessa tidiga dagar?
Självklart! De var dynamiska tider. Vi lyckades släppa en välutvecklad applikation inom bara en vecka, och blev en av de första konsumentappskaparna som erbjöd text-till-bildfunktionalitet på mobilen. Vårt mål var att bygga en massmarknadsprodukt som ger människor “en konstnär” i deras ficka. Så, sedan konceptualiseringen och de tidiga utvecklingsstadierna, har vi fokuserat på användbarhet och skalbarhet. Men trots att vi gick in på marknaden i rätt tid, var det ganska utmanande att växa vår installationsvolym till en tillräcklig utsträckning, även med ett briljant medieinköpslag som vårt. En betydande boost inträffade tre månader efter appens lansering, när vår avatarfunktion blev populär. Volymen blev snabbt måttligt hög för vår nisch, och sedan dess har vår uppgift varit att upprätthålla och öka den.
Vad var den ursprungliga tekniska stacken som du lanserade på och vilka var några av utmaningarna med konstgenerering under denna period?
Vi lanserade baserat på Stable Diffusion 1.3 med den officiella API:en från Stability.ai. Jag skulle säga att situationen med kvaliteten på generationer då och nu är som natt och dag. När vi först började, rapporterade våra QA-chefer ofta problem relaterade till den estetiska värdet av bilder eller fel i att representera specifika koncept och funktioner. Men det var standard för Stable Diffusion vid den tiden. Nu är generationsutdata mycket bättre i alla aspekter, inklusive stilistisk reproduktion, kompositionssammanhang, visuell trohet, detaljnivå och mer.
Strax efter appens lansering började vi hyra servrar på Amazon, och att stödja dem visade sig vara ganska utmanande. Även med tillräckliga medel kan det finnas inga lediga A100 tillgängliga när du behöver dem, och du måste vänta i ett par dagar. Därför var vi tvungna att leva utan autoskalning, och omdirigera all överskottstrafik till våra partners API:er.
Att upprätthålla allt detta förblir ganska knepigt även idag, med mindre problem som uppstår på ena eller andra sidan varje månad eller så. Till exempel stöter vi ibland på tillfälliga problem med kvaliteten på generationer när providern uppdaterar servern, testar vikter eller implementerar andra ändringar som påverkar generationsutdata. Sådana fel kan vara i en timme till en halv dag och är oförutsägbara och svåra att spåra. Vanligtvis, när vår supportavdelning får en användarrapport om suddiga bilder eller något annat problem som uppstår, har API-leverantören redan åtgärdat problemet. Men det är ett allvarligt problem för våra användare. Därför bygger vi nu ett system som kombinerar flera leverantörer och våra egna servrar för specialgenerationer, vilket ger oss mer kontroll på vår sida.
Som produktchef, vilka strategiska beslut har varit avgörande för att vägleda ARTA till sin topprankade position strax efter lanseringen?
ARTA:s (då kallad Aiby) tidiga uppgång berodde på det välplanerade beslutet att implementera den virala avatarfunktionen när den just började bli populär på sociala medier. Vi erkände snabbt det växande intresset för denna funktion. Vår entire team, inklusive produkt, marknadsföring och utveckling, var på samma våglängd och visionär om dess framgång. Vi insåg också att en kort tid till marknaden var avgörande. Så, från dag ett, dedikerade vi alla våra resurser till att förverkliga denna funktion, och prioriterade den över andra uppgifter.
Eftersom vår deadline var ASAP, för att inte missa ögonblicket när AI-avatarna når sin topp, valde vi att använda en tredjepartsleverantör och anpassa den till vår app. När avatarna började bli populära på mobilen, hade tekniken redan varit tillgänglig på webben under en tid, även med en API. Tack vare teamets koncentrerade ansträngningar, var vår första fungerande version i App Store på bara fem dagar, och erbjöd högkvalitativa avatarutdata. Det hjälpte oss att uppnå plats nummer 2 i den amerikanska topplistan och stanna den näst mest nedladdade appen i USA i en vecka.
Ditt team har nyligen släppt en uppdatering av ARTA:s AI-avatargenereringsfunktion. Kan du dela några detaljer om detta?
AI-modellerna tenderar att lägga till generiska ansiktsdrag under utbildning, vilket gör att avatarna ser annorlunda ut än de ursprungliga fotona, och ju unikare en persons drag är, desto mindre lik den AI-tolkningen kan se ut. För att åtgärda detta problem beslutade vi att skapa vår egen avatar-tjänst. Vi hade använt en tredjeparts-API under en lång tid, men det gav inte några betydande förbättringar. Med serverbytet kunde vi konfigurera en mer optimal utbildningsteknologi för att bättre upprätthålla likheten med användarens riktiga ansikte i avatarutdata. Även om jag inte kan avslöja vår unika pipeline i detalj, blev det möjligt tack vare en specifik kombination av SDXL-inställningar, LORAs och ansiktsförbättrare, och vi har ännu inte sett bättre resultat någon annanstans.
Med den nya servern flyttade vi bort från en fast kostnad för varje avatar-paket till en månatlig serveravgift, och kan nu erbjuda avatarna genom en veckoprenumeration, istället för att kräva separata in-app-köp. Det skapar en mer tillfredsställande upplevelse och är mycket billigare för våra användare, om de vill generera till exempel fem avatar-paket inom en vecka eller ändra fotoingången allteftersom. Med tanke på allt ovan, erbjuder vår avatarfunktion för närvarande den bästa prisprestandaförhållandet på marknaden. Medan det finns appar som kan skapa högkvalitativa realistiska avatarna, sticker ARTA ut genom att erbjuda en mångfald av ljusa och färgglada utdatavariationer, förutom realistiska stilar, allt med samma precisa nivå av ansiktsigenkänning.
På vilka andra sätt har teamet förbättrat appens funktioner?
Vi drog slutsatsen att använda tredjeparts-API:er är mer effektivt för vanliga användningsfall som text-till-bildgenerering, bildkonvertering och inpainting. Detta tillvägagångssätt eliminerar behovet av att lägga tid på att figura ut hur man integrerar dessa funktioner i vår serverinfrastruktur. Dessutom minskar det kostnader i situationer när en ny funktion inte tar fart som förväntat, och vi bestämmer oss för att ta bort den. AI-bildgenereringsindustrin utvecklas snabbt, med många dedikerade tjänster tillgängliga, så vi utforskar och antar gradvis de som motsvarar våra mål.
Samtidigt som ARTA:s behov ofta visar sig vara ganska unika, kräver de in-house-erbjudanden. I fall där anpassade API:er antingen inte existerar eller inte erbjuder tillfredsställande utdatakvalitet, specialiserar vi oss och anpassar våra interna tjänster, och utvecklar våra egna lösningar för att uppnå de resultat vi vill ha. Till exempel, förutom att uppgradera AI-avatarna, har våra ML- och promptingenjörer kommit med en ny pipeline för appens AI-filters (selfies)-funktion. Vi har också utvecklat en unik algoritm för vår kommande AI-babyfunktion – en genereringsfunktion som låter två personer slå samman sina foton och se hur deras barn kan se ut. Baserat på min uppfattning av världen som produktchef, tvivlade jag initialt på dess framgång, men annonskreatörer med denna idé är mycket populära. Så, att kolla upp marknadsinsikter är särskilt hjälpsamt i innehållsrelaterade fall.
Kan användare påverka den konstnärliga processen i ARTA? Om så, vilka verktyg och alternativ finns tillgängliga för användare att anpassa den AI-genererade konsten?
Vi hanterar alla komplexa aspekter relaterade till generation, med målet att ge våra användare en enkel konstnärlig upplevelse utan onödig teknisk överbelastning. Så, det primära sättet användare påverkar utdata är genom prompts. Vi håller denna process transparent genom att visa den exakta ordförfrågan som kommer att skickas till modellen för generation, och erbjuder endast assistans med att komponera effektiva prompts om det behövs.
Vi väljer de bästa standardinställningarna för varje integrerad modell, så att användarna inte behöver bry sig om det. Vanligtvis finns det ingen anledning att justera dem för att maximera resultaten, eftersom de redan producerar en optimal generationsutdata. Men om användaren vill experimentera, är den avancerade läget bara ett klick bort, och vissa djupare parametrar finns i inställningssektionen.
Snart kommer vi att lägga till en Seed-parameter, som låter användarna ha fullständig kontroll över generationen när de behöver återskapa en identisk bild från scratch. Dessutom planerar vi att utöka listan över aspekter. Vi funderar också på att lägga till flera controlnät till vanliga generationer. De stöds redan på serversidan, eftersom vi använder dem för att generera AI-filters och skisser, men de levereras ännu inte till slutanvändare.
Hur uppfattar du påverkan av AI som ARTA på den traditionella konstmarknaden? Ser du AI-konstgenerering som en störning eller en förbättring av konstindustrin?
Jag ser det som en förbättring. Generativ AI har introducerat nya och värdefulla möjligheter att förbättra den konstnärliga processen, samtidigt som den signifikant minskar omsättningstiden. Den assisterar digitala artister, designers, illustratörer och andra visuella innehållsskapare med en mängd uppgifter, från att utforska idéer och utveckla koncept till att generera skisser och färdiga bilder. Till slut är vår förmåga att utnyttja dess framsteg endast begränsad av vår fantasi.
Till exempel har jag en hobby att skapa PC-spel, och nyligen använde jag ARTA för att generera en uppsättning ikoner för färdigheter och föremål. Jag kunde designa dem på egen hand med hjälp av Adobe Illustrator, men med en bildgenerator fick jag vad jag behövde nästan omedelbart. Min fru, i sin tur, är en retuschfotograf. Tack vare Photoshops Generative Fill arbetar hon mycket snabbare och har mer fritid (eller mer inkomst om hon bestämmer sig för att acceptera fler retuschbeställningar).
När det görs väl, kan AI-genererade bilder se ut som om de vore omöjliga att skilja från professionellt konstverk. Men enligt min mening kommer AI aldrig att ersätta en sann professionell. Oavsett hur skickliga neurala nätverk blir, är de fortfarande tränade på data skapade av människor, vilket betyder att allt de genererar redan existerar någonstans. Så som då och nu, kan bara människor producera riktigt innovativa idéer. Medan den traditionella betydelsen av konst fortfarande är associerad med mänskligt skapade verk, är AI-konst som en förväntad spinoff, som bjuder in alla, oavsett konstnärlig bakgrund, att prova en spännande ny upplevelse.
Utöver att förbättra bildkvaliteten, vart ser du den framtida utvecklingen av AI-bildgenerering gå?
Tillsammans med bildkvaliteten kommer generationshastigheten att öka, vilket automatiskt leder till mer kostnadseffektiva utdata.
Jag tror att det inte kommer att dröja länge innan det finns ett enkelt sätt att generera samma karaktärer i olika miljöer och positioner, så att vi kommer att se uppkomsten av AI i serier, barnböcker, spelgrafik och mer. Inredningsdesign och annonsproduktion är redan områden som aktivt använder generativ AI, men mer är på väg när tekniken fortsätter att utvecklas.
Med tanke på att alla generationer kräver kraftfulla GPU:er, kommer dessa teknologier att utvecklas tillsammans med AI under en lång tid. Vi är bara i början av resan. Kanske kommer den nya Apple av vår tid att vara Nvidia, med alla, eller åtminstone de inom IT-industrin, som väntar på nya grafikkortslanseringar, precis som vi alla gjorde med iPhones.
AI-bildgeneratorer kommer att fortsätta leverera roliga och engagerande upplevelser, antingen genom att introducera nya koncept som uppstår från popkultur eller återuppliva äldre idéer med bättre teknik. Till exempel ökar intresset för AI-babygenerationer just nu. En ny teknik baserad på Stable Diffusion har visat imponerande utdata från att slå samman två personers drag för att avslöja deras biologiska barns potentiella utseende. Resultaten överträffar vad som var tillgängligt på horoskopwebbplatser för några år sedan, och människor är angelägna om att ge det en ny chans.
Vad är dina förutsägelser för vad vi kan förvänta oss härnäst från generativ AI?
Vågen av popularitet för videogenerering är på horisonten. Med framsteg i tekniken som når en tillräcklig nivå, kommer det utan tvekan att finnas försök att träna neurala nätverk med hjälp av människors ansiktsuttryck och gester för att skapa videoavatarna, potentiellt till och med med unika användarröster.
AI-ljud är en annan betydande genombrott som inleder en ny era för musikproduktionsindustrin. Denna teknik har redan presenterat fantastiska möjligheter för att komponera låtar baserat enbart på textinmatning, vilket gör det till ett utmärkt verktyg för att skapa anpassade icke-aktie-ljudspår för olika typer av videoinnehåll. Sammanfattningsvis är det riktigt roligt att lyssna på något sådant som villkor rapped eller sjungen med romantisk betoning.
Tack för den underbara intervjun. Läsare som vill lära sig mer eller generera några bilder bör besöka ARTA.












