Connect with us

Ernest Piatrovich, Product Manager at ARTA – Interview Series

Rozhovory

Ernest Piatrovich, Product Manager at ARTA – Interview Series

mm

Ernest Piatrovich je Product Manager ve společnosti AIBY Group, kde vede jednu z top aplikací společnosti, ARTA – AI Image Generator pro iPhone a Android. Jeho strategické vize a kreativní myšlení vedly k tomu, že aplikace získala #2 pozici v americkém App Store krátce po svém vydání, překročila hranici 15 milionů stažení po celém světě a nabízí nejlepší výkonné AI Avatary na základě unikátního interního pipeline, mezi jinými úspěchy.

Můžete sdílet některé poznatky z raných dnů, když jste byli zodpovědní za řízení ARTA – AI Art generator od fáze ideace až do současnosti?

Samozřejmě! Byly to dynamické časy. Podařilo se nám vydat dokonale vytvořenou aplikaci již za týden, a stali jsme se tak jedni z prvních tvůrců spotřebitelských aplikací, kteří nabízeli funkčnost text-to-image generation na mobilních zařízeních. Naším cílem bylo vytvořit masový produkt, který by lidem poskytl „umělce“ v kapse. Od počátku jsme se tedy soustředili na uživatelskou přívětivost a škálovatelnost. Ale navzdory tomu, že jsme vstoupili na trh v pravou chvíli, bylo poměrně obtížné zvýšit naše instalační objemy na dostatečnou úroveň, i s našim brilantním týmem pro nákup médií. Značný impuls nastal tři měsíce po vydání aplikace, kdy se naše funkce Avatar stala populární. Objem se rychle stal středně vysokým pro náš segment, a od té doby je naší úkolem udržet a zvýšit ho.

Jaký byl původní technologický stack, na kterém jste spustili, a jaké byly některé výzvy s generací umění během tohoto období?

Spustili jsme na základě Stable Diffusion 1.3 pomocí oficiálního API od Stability.ai. Musím říci, že situace s kvalitou generací tehdy a teď je jako den a noc. Když jsme poprvé začali, naši manažeři QA často hlásili problémy související s estetickou hodnotou obrázků nebo nepřesnostmi při reprezentaci konkrétních konceptů a funkcí. Ale to bylo standardní pro Stable Diffusion v té době. Nyní je výstup generace mnohem lepší ve všech aspektech, včetně stylistické reprodukce, kompoziční koherence, vizuální věrnosti, úrovně detailů a dalšího.

Krátce po vydání aplikace jsme začali pronajímat servery na Amazonu, a jejich podpora se ukázala jako bastante výzva. I s dostatečnými finančními prostředky nemusí být k dispozici žádný volný A100, když jej potřebujete, a budete muset čekat pár dní. Proto jsme museli žít bez autoscale, a veškerý nadměrný provoz jsme přesměrovali na API našich partnerů.

Udržování všeho tohoto zůstává bastante komplikované dodnes, s malými problémy, které nastávají na jedné nebo druhé straně každý měsíc nebo tak. Například občas narazíme na dočasné problémy s kvalitou generací, když poskytovatel aktualizuje server, testuje váhy nebo provádí další změny, které ovlivňují výstup generace. Tyto chyby mohou trvat od hodiny do půl dne a jsou nepředvídatelné a obtížně sledovatelné. Obvykle, než náš podpůrný tým obdrží hlášení uživatele o rozmazaných obrázcích nebo jiných problémech, poskytovatel API již problém vyřešil. Ale je to vážná starost pro naše uživatele. Proto nyní budujeme systém, který kombinuje více poskytovatelů a naše vlastní servery pro speciální generace, což nám umožňuje mít více kontroly na naší straně.

Jako produktový manažer, jaké strategické rozhodnutí byly zásadní pro vedení ARTA na její top-rankings pozici krátce po jejím vydání?

Raná vzestup ARTA (v té době nazývaná Aiby) byl výsledkem včasného rozhodnutí implementovat virální funkci Avatar, když se teprve začala šířit na sociálních médiích. Rychle jsme rozpoznali rostoucí zájem o tuto funkčnost. Celý náš tým, včetně produktu, marketingu a vývoje, byl na stejné vlně a měl vizi o jejím úspěchu. Rozpoznali jsme také, že krátká doba na trh byla zásadní. Proto jsme od prvního dne věnovali všechny naše zdroje realizaci této funkce, a priorizovali ji nad jinými úkoly.

Protože náš termín byl „co nejdříve“, aby jsme nezmeškali okamžik, kdy AI Avatary dosáhnou svého vrcholu popularity, rozhodli jsme se použít třetí stranu a přizpůsobit ji pro naši aplikaci. Když avatary začaly získávat popularitu na mobilních zařízeních, technologie již byla k dispozici na webu, i s API. Díky soustředěným úsilím našeho týmu byla naše první funkční verze v App Store již za pět dní, a nabízela vysoce konkurenceschopný avatarový výstup. Pomohlo nám to dosáhnout #2 pozice v americkém top chartu a zůstat druhým nejstahovanějším aplikací v USA po dobu týdne.

Vaše tým nedávno vydal upgrade funkcionality AI avatar generace v ARTA. Můžete sdílet některé detaily o tomto?

AI modely tendují přidávat obecné rysy obličeje během tréninku, což způsobuje, že avatary vypadají jinak než původní fotografie, a čím více je jedinečný rys, tím více se liší interpretace AI. Abychom tento problém vyřešili, rozhodli jsme se vytvořit vlastní avatar službu. Dlouhou dobu jsme používali třetí stranu API, ale nedosáhli jsme významných zlepšení. S přechodem na server jsme byli schopni nastavit více optimální technologii pro trénink, abychom lépe udrželi podobnost uživatelského skutečného obličeje ve výstupu avataru. Ačkoli nemohu prozradit naše unikátní pipeline detailně, stalo se to možné díky specifické kombinaci SDXL nastavení, LORAs a face enhancerů, a dosud jsme neviděli lepší výsledky jinde.

S novým serverem jsme se odchýlili od fixní ceny za každý avatar balíček na měsíční serverový poplatek, a nyní můžeme nabízet avatary prostřednictvím týdenního předplatného místo toho, aby uživatelé museli provádět samostatné nákupy v aplikaci. Tímto způsobem vytváříme více uspokojivý zážitek a je to mnohem levnější pro naše uživatele, pokud chtějí generovat, například, pět avatar balíčků během týdne nebo měnit fotografii vstupu, jak postupují. Když vezmeme v úvahu vše výše uvedené, naše nabídka avatarů nyní nabízí nejlepší poměr ceny a výkonu na trhu. Zatímco existují aplikace, které mohou vytvářet vysoce kvalitní realistické avatary, ARTA se vyznačuje tím, že nabízí širokou škálu barevných a jasných variant kromě realistických stylů, všechny se stejnou přesnou úrovní rozpoznávání obličeje.

Jakým jiným způsobem váš tým vylepšil schopnosti aplikace?

Došli jsme k závěru, že použití třetích stran API je efektivnější pro běžné použití, jako je text-to-image generace, obrázková konverze a inpainting. Tento přístup eliminuje potřebu trávit čas tím, jak integrovat tyto funkcionality do naší serverové infrastruktury. Kromě toho snižuje náklady v situacích, kdy nová funkce nefunguje tak, jak se očekávalo, a rozhodneme se ji odstranit. Průmysl AI obrazové generace se rychle vyvíjí, a existuje mnoho specializovaných služeb, takže prozkoumáváme a postupně přijímáme ty, které jsou v souladu s našimi cíli.

Současně jsou potřeby ARTA často bastante unikátní, vyžadující interní objevy. V případech, kdy nejsou k dispozici žádné přizpůsobené API nebo nedosahují uspokojivé kvality výstupu, specializujeme a přizpůsobujeme naše interní služby a vyvíjíme své vlastní řešení, abychom dosáhli výsledků, které chceme. Například kromě vylepšení AI Avatarů naše týmy ML a prompt engineerů přišly s novým pipeline pro funkci AI Filtry (Selfies) aplikace. Také jsme vyvinuli unikátní algoritmus pro naši nadcházející funkci AI Baby – generovací funkčnost, která umožňuje dvěma lidem spojit ihre fotografie a vidět, jak by mohl vypadat jejich potenciální dítě. Na základě mého vnímání světa jako produktového manažera jsem původně pochyboval o jeho úspěchu, ale reklamy s touto koncepcí jsou velice populární. Proto je kontrola marketingových informací besonders užitečná v případech souvisejících s obsahem.

Mohou uživatelé ovlivnit umělecký proces v ARTA? Pokud ano, jaké nástroje a možnosti jsou k dispozici pro uživatele, aby přizpůsobili AI generované umělecké dílo?

Zpracováváme všechny složité aspekty související s generací, s cílem poskytnout našim uživatelům přímočarý umělecký zážitek bez zbytečného technického přetížení. Proto je primárním způsobem, jak uživatelé ovlivňují výstup, prostřednictvím promptů. Držíme tento proces transparentním tím, že ukazujeme přesnou slovní žádost, která bude odeslána modelu pro generaci, a nabízíme pomoc s komponováním účinných promptů, pokud je to potřeba.

Vybíráme nejlepší výchozí nastavení pro každý integrovaný model, aby uživatelé nemuseli starat se o to. Obvykle není třeba je měnit, aby se maximalizovaly výsledky, protože již produkují optimální generovaný výstup. Přesto, pokud uživatel chce experimentovat, je pokročilý režim jen jeden klik away, a některé hlubší parametry jsou v sekci nastavení.

Brzy přidáme parametr Seed, který umožní uživatelům mít úplnou kontrolu nad generací, když potřebují vytvořit identický obrázek od začátku. Kromě toho plánujeme rozšířit seznam poměrů stran. Zvažujeme také přidání několika controlnetů do běžných generací. Již jsou podporovány na serverové straně, protože je používáme k generování AI Filtrů a skic, ale zatím nejsou dodány koncovým uživatelům.

Jak vnímáte dopad AI, jako je ARTA, na tradiční umělecký trh? Vidíte AI uměleckou generaci jako narušení nebo vylepšení uměleckého průmyslu?

Vidím to jako vylepšení. Generativní AI představila nové a cenné příležitosti pro vylepšení uměleckého procesu, zatímco významně snižuje dobu zpracování. Pomáhá digitálním umělcům, designérům, ilustrátorům a jiným tvůrcům vizuálního obsahu s různými úkoly, od zkoumání nápadů a vývoje konceptů až po generování skic a hotových obrázků. Nakonec je naše schopnost využít její pokroky omezena pouze naší fantazií.

Například mám koníček – vytvářím PC hry, a nedávno jsem použil ARTA k vygenerování sady ikon pro dovednosti a předměty. Mohl jsem je navrhnout sám pomocí Adobe Illustrator, ale s obrazovým generátorem jsem dostal, co jsem potřeboval, téměř okamžitě. Moje žena, na druhou stranu, je retušérka-fotografka. Díky Generative Fill v Photoshopu pracuje mnohem rychleji a má více volného času (nebo více příjmů, pokud se rozhodne přijmout více objednávek na retuš).

Když jsou AI generované obrázky dobře provedeny, mohou vypadat nerozlišitelně od profesionálního uměleckého díla. Ale podle mého názoru AI nikdy nenahradí skutečného profesionála. Bez ohledu na to, jak dovedné se neuronové sítě stanou, jsou stále trénovány na datech vytvořených lidmi, což znamená, že vše, co generují, již existuje někde. Stejně jako dříve,真正ně inovativní nápady mohou být produkovány pouze lidmi. Zatímco tradiční význam umění zůstává spojen s lidskými díly, AI umění je jako očekávaná odbočka, která zve každého, bez ohledu na umělecký background, aby zkusil nový a zajímavý zážitek.

Podívejte se za zlepšením kvality obrazu, kam vidíte budoucnost AI obrazové generace?

Spolu s kvalitou obrazu se zvýší i rychlost generací, což automaticky povede k více nákladově efektivnímu výstupu.

Domnívám se, že nebude trvat dlouho, a bude snadné generovat stejné postavy v různých prostředích a pozicích, takže uvidíme vzestup AI v komiksech, dětských knihách, herní grafice a více. Interiérový design a produkce reklamních kreativ jsou již aktivně využívány generativní AI, ale více je před námi, protože technologie dále postupuje.

Přitom, že všechny generace vyžadují silné GPU, tyto technologie se budou vyvíjet spolu s AI po dlouhou dobu. Jsme teprve na začátku cesty. Možná, že nová Apple naší doby bude Nvidia, a každý, nebo alespoň ti v IT průmyslu, budou očekávat nové vydání grafických karet, stejně jako jsme všichni očekávali vydání nových iPhonů.

AI obrazové generátory budou pokračovat v poskytování zábavných a angažujících zkušeností, ať už prostřednictvím zavedení nových konceptů vznikajících z populární kultury nebo oživení starších nápadů s lepší technologií. Například zájem o generace AI Baby roste. Jedna nedávná technologie založená na Stable Diffusion prokázala působivý výstup z kombinace rysů dvou jedinců, aby odhalila potenciální vzhled jejich biologického dítěte. Výsledky daleko překračují, co bylo dříve k dispozici na horoskopech, a lidé jsou ochotni dát jim další šanci.

Co jsou vaše předpovědi pro to, co bychom měli očekávat dál od Generativní AI?

Vlna popularity pro video generaci je na obzoru. S pokroky v technologii, které dosáhly dostatečné úrovně, budou jistě pokusy o trénink neuronových sítí pomocí lidí tváří a gest, aby vytvořily video avatary, potenciálně i s unikátními uživatelskými hlasy.

AI Audio je další významný průlom, který uvádí novou éru pro hudební průmysl. Tato technologie již představila úžasné příležitosti pro komponování písní na základě pouze textového vstupu, což z ní činí vynikající nástroj pro vytváření vlastních ne-stock soundtracků pro různé typy video obsahu. Celkově je opravdu zábavné poslouchat něco tak všedního, jako jsou podmínky použití, rapované nebo zpívané s romantickou intonací.

Děkuji za skvělý rozhovor, čtenářům, kteří chtějí se dozvědět více nebo generovat některé obrázky, navštivte ARTA.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.