Rozhovory
Ernest Piatrovich, Produktový manažer ve společnosti ARTA – Interview Series

Ernest Piatrovich je Produktový manažer ve společnosti AIBY Group, který vede jednu z nejvýkonnějších aplikací společnosti, ARTA – AI Image Generator pro iPhone a Android. Jeho strategické vize a kreativní myšlení vedly k tomu, že aplikace dosáhla 2. místa v americkém App Store krátce po svém vydání, překročila hranici 15 milionů stažení po celém světě a nabízí nejlepší výkonné AI Avatary na základě unikátního interního pipeline, mezi jinými úspěchy.
Můžete sdílet některé poznatky o raných dnech, když jste byli zodpovědní za řízení ARTA – AI Art generator od fáze ideace až do současnosti?
Samozřejmě! Byly to dynamické časy. Podařilo se nám vydat velmi dobře vyvinutou aplikaci již za týden, a stali jsme se jedním z prvních tvůrců spotřebitelských aplikací, kteří nabízejí funkčnost text-to-image generování na mobilních zařízeních. Naším cílem bylo vytvořit produkt pro masový trh, který by lidem poskytl „umělce“ v kapse. Od počátku konceptualizace a raného vývoje jsme se soustředili na uživatelskou přívětivost a škálovatelnost. Ale navzdory tomu, že jsme vstoupili na trh včas, bylo bastante obtížné zvýšit naše instalační objemy na dostatečnou úroveň, i s brilantním týmem médií, jako je náš. Značný impuls nastal tři měsíce po vydání aplikace, kdy se naše funkce Avatar stala populární. Objem se rychle stal středně vysokým pro náš segment, a od té doby je naší úkolem udržet a zvýšit ho.
Jaký byl původní technologický stack, na kterém jste spustili aplikaci, a jaké byly některé výzvy s generováním umění během tohoto období?
Spustili jsme aplikaci na základě Stable Diffusion 1.3 pomocí oficiálního API od Stability.ai. Musím říci, že situace s kvalitou generací tehdy a nyní je jako den a noc. Když jsme poprvé začali, naši manažeři QA často hlásili problémy související s estetickou hodnotou obrázků nebo nesrovnalostmi v reprezentaci konkrétních konceptů a funkcí. Ale to bylo standardní pro Stable Diffusion v té době. Nyní je výstup generování mnohem lepší ve všech aspektech, včetně stylistické reprodukce, kompoziční koherence, vizuální věrnosti, úrovně detailů a dalších.
Krátce po vydání aplikace jsme začali pronajímat servery na Amazonu, a jejich podpora se ukázala jako bastante obtížná. I s dostatečnými finančními prostředky nemusí být k dispozici žádný volný A100, když ho potřebujete, a budete muset čekat pár dní. Proto jsme museli žít bez autoscale, přesměrováním veškerého nadměrného provozu na API našich partnerů.
Udržování všeho tohoto zůstává bastante komplikované dodnes, s malými problémy, které nastávají na jedné nebo druhé straně každý měsíc. Například občas narazíme na dočasné problémy s kvalitou generování, když poskytovatel aktualizuje server, testuje váhy nebo implementuje další změny, které ovlivňují výstup generování. Tyto chyby mohou trvat od hodiny do půl dne a jsou nepředvídatelné a obtížně sledovatelné. Obvykle, když náš podpůrný tým obdrží report od uživatele o rozmazaných obrazech nebo jiných problémech, poskytovatel API již problém vyřešil. Ale je to závažná starost pro naše uživatele. Proto nyní budujeme systém, který kombinuje více poskytovatelů a naše vlastní servery pro speciální generování, což nám umožňuje mít více kontroly na naší straně.
Jaké strategické rozhodnutí byly zásadní pro vedení ARTA k jeho nejvyššímu postavení krátce po svém vydání?
Rané úspěchy ARTA (tehdy nazývané Aiby) vyplynuly z včasného rozhodnutí implementovat virální funkci Avatar, když začala získávat popularitu na sociálních médiích. Rychle jsme rozpoznali rostoucí zájem o tuto funkčnost. Celý náš tým, včetně produktového, marketingového a vývojového, byl na stejné vlně a měl vizi o jejím úspěchu. Také jsme uznali, že krátká doba na trh byla zásadní. Proto jsme od prvního dne věnovali všechny naše zdroje realizaci této funkce, priorizovali ji nad ostatními úkoly.
Protože náš termín byl „co nejdříve“, aby jsme nezmeškali okamžik, kdy AI Avatary dosáhnou svého vrcholu, rozhodli jsme se použít třetí stranu a přizpůsobit ji pro naši aplikaci. Zatímco avatary začaly získávat popularitu na mobilních zařízeních, technologie již byla k dispozici na webu po určitou dobu, i s API. Díky soustředěným úsilím našeho týmu byla naše první funkční verze v App Store již za pět dní, nabízející vysoce konkurenceschopný avatarový výstup. Pomohlo nám to dosáhnout 2. místa v americkém top chartu a zůstat druhým nejstahovanějším aplikací v USA po dobu týdne.
Vašemu týmu se nedávno podařilo aktualizovat funkci AI avatar generování v ARTA. Můžete sdílet některé detaily o této aktualizaci?
Modely AI mají tendenci přidávat obecné rysy obličeje během tréninku, což způsobuje, že avatary vypadají jinak než fotografie zdrojů, a čím více jedinečné jsou rysy, tím více se AI interpretace může lišit. Abychom tento problém vyřešili, rozhodli jsme se vytvořit vlastní avatarovou službu. Použili jsme třetí stranu po dlouhou dobu, ale nezískali jsme významné zlepšení. S přechodem na nový server jsme mohli nastavit lepší technologii pro trénink, abychom lépe udrželi podobnost uživatelského obličeje v avatarovém výstupu. I když nemohu prozradit naše unikátní pipeline, stalo se to možné díky specifické kombinaci SDXL nastavení, LORAs a face enhancerů, a dosud jsme neviděli lepší výsledky jinde.
S novým serverem jsme se přesunuli od fixní ceny za každý avatarový balíček k měsíčnímu serverovému poplatku a můžeme nyní nabízet avatary prostřednictvím týdenního předplatného místo toho, aby uživatelé museli provádět samostatné nákupy v aplikaci. Tím se vytváří více uspokojivý zážitek a je mnohem levnější pro naše uživatele, pokud chtějí generovat, například, pět avatarových balíčků během týdne nebo změnit fotografii zdroje, jak postupují. Pokud vezmeme v úvahu všechny výše uvedené skutečnosti, naše nabídka avatarů nyní nabízí nejlepší poměr ceny a výkonu na trhu. Zatímco existují aplikace, které mohou vytvářet vysoce kvalitní realistické avatary, ARTA se odlišuje tím, že nabízí širokou škálu barevných a jasných variant kromě realistických stylů, všechny s toutéž přesnou úrovní rozpoznávání obličeje.
Jakým způsobem váš tým zlepšil schopnosti aplikace?
Došli jsme k závěru, že použití API třetích stran je efektivnější pro běžné použití, jako je text-to-image generování, image konverze a inpainting. Tento přístup eliminuje potřebu trávit čas tím, že se snažíme integrovat tyto funkcionality do naší serverové infrastruktury. Kromě toho snižuje náklady v situacích, kdy nová funkce nefunguje tak, jak se očekávalo, a rozhodneme se ji odstranit. Průmysl generování obrazů pomocí AI se rychle vyvíjí, s mnoha specializovanými službami, takže zkoumáme a postupně přijímáme ty, které jsou v souladu s našimi cíli.
Současně mají potřeby ARTA často velmi specifické požadavky, které vyžadují interní objevy. V případech, kdy nejsou k dispozici žádné uspokojivé API nebo poskytují nevyhovující kvalitu výstupu, specializujeme se a přizpůsobujeme naše interní služby a vyvíjíme vlastní řešení, abychom dosáhli výsledků, které chceme. Například kromě aktualizace AI Avatarů naši inženýři ML a prompt vytvořili nový pipeline pro funkci AI Filtrov (Selfies) aplikace. Také jsme vyvinuli unikátní algoritmus pro naši nadcházející funkci AI Baby – generovací funkčnost, která umožňuje dvěma lidem sloučit své fotografie a vidět, jak by mohl vypadat jejich potenciální dítě. Na základě mého vnímání světa jako produktového manažera jsem původně pochyboval o jejím úspěchu, ale reklamy s touto koncepcí jsou velmi populární. Proto je kontrola marketingových poznatků obzvláště užitečná v případech souvisejících s obsahem.
Mohou uživatelé ovlivnit umělecký proces v ARTA? Pokud ano, jaké nástroje a možnosti jsou k dispozici pro uživatele, aby přizpůsobili AI-generované umělecké dílo?
Zpracováváme všechny složité aspekty související s generováním, s cílem poskytnout našim uživatelům jednoduchý umělecký zážitek bez zbytečného technického přetížení. Primárním způsobem, jak uživatelé ovlivňují výstup, je prostřednictvím promptů. Držíme tento proces transparentním, ukazujícím přesnou slovní žádost, která bude odeslána modelu pro generování, a nabízíme pomoc s komponováním efektivní promptů, pokud je to potřeba.
Vybíráme nejlepší výchozí nastavení pro každý integrovaný model, aby uživatelé nemuseli starat se o to. Obvykle není třeba je měnit, aby se maximalizovaly výsledky, protože již produkují optimální generovaný výstup. Přesto, pokud uživatel chce experimentovat, je pokročilý režim jen jeden tap away, a některé hlubší parametry jsou v sekci nastavení.
Brzy přidáme parametr Seed, který umožní uživatelům mít úplnou kontrolu nad generováním, když potřebují znovu vytvořit identický obrázek z nuly. Kromě toho plánujeme rozšířit seznam poměrů stran. Také zvažujeme přidání několika controlnetů do běžných generací. Už jsou podporovány na serverové straně, protože je používáme k generování AI Filtrov a skic, ale dosud je belum dodány koncovým uživatelům.
Jak vnímáte dopad AI, jako je ARTA, na tradiční trh s uměním? Vidíte generování AI uměleckých děl jako narušení nebo obohacení uměleckého průmyslu?
Vidím to jako obohacení. Generativní AI představila nové a cenné příležitosti k vylepšení uměleckého procesu, zatímco významně snížila dobu zpracování. Pomáhá digitálním umělcům, designérům, ilustrátorům a jiným tvůrcům vizuálního obsahu s různými úkoly, od zkoumání nápadů a rozvoje konceptů až po generování skic a hotových obrázků. Nakonec je naše schopnost využít její pokroky omezena pouze naší fantazií.
Například mám koníček – vytvářím počítačové hry, a nedávno jsem použil ARTA k vygenerování sady ikon pro dovednosti a položky. Mohl jsem je navrhnout sám pomocí Adobe Illustrator, ale s generátorem obrázků jsem dostal, co jsem potřeboval, téměř okamžitě. Moje žena, naopak, je retušérka-fotografka. Díky Generative Fill v Photoshopu pracuje mnohem rychleji a má více volného času (nebo více příjmů, pokud se rozhodne přijmout více objednávek na retuš).
Když jsou vytvořeny dobře, AI-generované obrázky mohou vypadat nerozlišitelně od profesionálního uměleckého díla. Ale podle mého názoru AI nikdy nenahradí skutečného profesionála. Bez ohledu na to, jak dovedné se stávají neuronové sítě, jsou stále trénovány na datech vytvořených lidmi, což znamená, že vše, co generují, již existuje někde. Stejně jako dříve i nyní mohou pouze lidé vytvářet skutečně inovativní nápady. Zatímco tradiční význam umění zůstává spojen s lidskými díly, AI umění je jako očekávaná odbočka, která zvou každého, bez ohledu na umělecký background, aby vyzkoušel tento nový a vzrušující zážitek.
Podívejte se za hranice zlepšování kvality obrazu, kam vidíte budoucnost generování obrazů pomocí AI?
Spolu s kvalitou obrazu se zvýší i rychlost generování, což povede k více nákladově efektivnímu výstupu.
Domnívám se, že nebude trvat dlouho, než bude jednoduchý způsob, jak generovat stejné postavy v různých prostředích a pozicích, a uvidíme vzestup AI v komiksech, dětských knihách, herních grafikách a dalších oblastech. Interiérový design a produkce reklamních kreativ již aktivně využívají generativní AI, ale před námi je ještě více, protože tato technologie bude pokračovat ve vývoji.
Pokud vezmeme v úvahu, že všechny generace vyžadují silné GPU, tyto technologie se budou vyvíjet spolu s AI po určitou dobu. Jsme teprve na začátku této cesty. Možná, že nová Apple naší doby bude Nvidia, se kterou všichni, nebo alespoň ti v IT průmyslu, budou očekávat nové vydání grafických karet, stejně jako jsme všichni očekávali nové iPhony.
Generátory obrazů AI budou pokračovat v poskytování zábavných a interaktivních zážitků, ať už prostřednictvím zavedení nových konceptů z populární kultury nebo oživení starších nápadů s lepší technologií. Například zájem o generování AI Baby roste. Jedna recentní technologie založená na Stable Diffusion ukázala působivý výstup z kombinace rysů dvou jedinců, aby odhalila potenciální vzhled jejich biologického dítěte. Výsledky daleko přesahují to, co bylo dříve dostupné na horoskopech, a lidé jsou ochotni to znovu zkusit.
Co jsou vaše předpovědi pro to, co bychom měli očekávat dál od Generativní AI?
Vlna popularity pro generování videa je na obzoru. S pokroky v technologii, které dosáhly dostatečné úrovně, budou jistě pokusy o trénování neuronových sítí pomocí lidí, aby vytvořily video avatary, potenciálně i s jedinečnými uživatelskými hlasy.
AI Audio je další významný průlom, který zahajuje novou éru pro průmysl hudby. Tato technologie již představila úžasné příležitosti pro komponování písní na základě pouze textového vstupu, což z ní činí vynikající nástroj pro vytváření vlastních, nekomerčních soundtracků pro různé typy videoobsahu. Celkově je to opravdu zábavné poslouchat něco tak všedního, jako jsou Podmínky užití, rapované nebo zpívané s romantickou intonací.
Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více nebo vygenerovat některé obrázky, by měli navštívit ARTA.












