Connect with us

Ernest Piatrovich, Product Manager di ARTA – Intervista alla serie

Interviste

Ernest Piatrovich, Product Manager di ARTA – Intervista alla serie

mm

Ernest Piatrovich è un Product Manager di AIBY Group, guidando una delle app di punta dell’azienda, ARTA – Generatore di immagini AI per iPhone e Android. La sua visione strategica e il suo pensiero creativo hanno portato all’ottenimento del secondo posto nelle classifiche dell’App Store negli Stati Uniti poco dopo il rilascio, superando il traguardo di 15 milioni di download in tutto il mondo, e offrendo i migliori avatar AI basati su una pipeline unica in-house, tra gli altri successi.

Hai avuto la responsabilità di gestire ARTA – Generatore di arte AI dalla fase di ideazione fino ad ora. Potresti condividere alcune informazioni su quei primi giorni?

Certo! Quelli erano tempi dinamici. Siamo riusciti a rilasciare un’applicazione ben fatta in soli una settimana, diventando uno dei primi creatori di app per consumatori a offrire funzionalità di generazione di immagini da testo su mobile. Il nostro obiettivo era costruire un prodotto di massa che fornisse alle persone “un artista” in tasca. Quindi, fin dalle fasi di conceptualizzazione e sviluppo iniziale, ci siamo concentrati sull’usabilità e sulla scalabilità. Ma nonostante siamo entrati nel mercato in modo tempestivo, è stato abbastanza impegnativo far crescere i nostri volumi di installazione a un livello adeguato, anche con un team di acquisto dei media brillante come il nostro. Un notevole impulso si è verificato tre mesi dopo il rilascio dell’app, quando la nostra funzionalità Avatar è diventata popolare. Il volume è diventato rapidamente moderatamente alto per la nostra nicchia, e da allora, il nostro compito è stato quello di mantenerlo e aumentarlo.

Qual era la tecnologia originale che avete utilizzato per il lancio e quali sono stati alcuni dei problemi con la generazione di arte durante questo periodo?

Abbiamo lanciato sulla base di Stable Diffusion 1.3 utilizzando l’API ufficiale di Stability.ai. Dovrei dire che la situazione con la qualità delle generazioni allora e adesso è come il giorno e la notte. Quando abbiamo iniziato, i nostri gestori della qualità segnalavano frequentemente problemi relativi al valore estetico delle immagini o inesattezze nella rappresentazione di concetti e caratteristiche specifiche. Tuttavia, questo era standard per Stable Diffusion a quel tempo. Ora, l’output di generazione è molto migliore in tutti gli aspetti, compresa la riproduzione stilistica, la coerenza della composizione, la fedeltà visiva, il livello di dettaglio e altro.

Poco dopo il rilascio dell’app, abbiamo iniziato ad affittare server su Amazon, e il loro supporto si è rivelato abbastanza impegnativo. Anche con fondi sufficienti, potrebbe non esserci un A100 disponibile quando ne hai bisogno, e dovrai aspettare un paio di giorni. Pertanto, abbiamo dovuto vivere senza autoscale, reindirizzando tutto il traffico eccessivo agli API dei nostri partner.

Mantenere tutto ciò rimane piuttosto complicato fino ad oggi, con problemi minori che si verificano in un modo o nell’altro ogni mese o giù di lì. Ad esempio, incontriamo occasionalmente problemi temporanei con la qualità delle generazioni quando il fornitore aggiorna il server, testa i pesi o implementa altri cambiamenti che influiscono sull’output di generazione. Tali errori possono durare da un’ora a mezza giornata e sono imprevedibili e difficili da tracciare. Di solito, nel momento in cui il nostro reparto di supporto riceve una segnalazione dell’utente su immagini sfocate o altri problemi in corso, il fornitore dell’API ha già risolto il problema. Tuttavia, è una preoccupazione seria per i nostri utenti. Pertanto, stiamo costruendo un sistema che combina più fornitori e i nostri server per generazioni speciali, consentendoci di avere più controllo sul nostro lato delle cose.

Come product manager, quali decisioni strategiche sono state decisive per guidare ARTA alla sua posizione di vertice poco dopo il rilascio?

La rapida ascesa di ARTA (all’epoca chiamata Aiby) è stata il risultato della decisione tempestiva di implementare la funzionalità Avatar virale quando ha iniziato a fare il giro dei social media. Abbiamo riconosciuto rapidamente l’interesse crescente per questa funzionalità. Tutto il nostro team, compresi prodotto, marketing e sviluppo, era sulla stessa lunghezza d’onda e aveva una visione del suo successo. Abbiamo anche riconosciuto che un breve tempo di mercato era cruciale. Quindi, fin dal primo giorno, abbiamo dedicato tutte le nostre risorse a realizzare questa funzionalità, priorizzandola rispetto ad altri compiti.

Dal momento che la nostra scadenza era “il prima possibile” per non perdere il momento in cui gli avatar AI raggiungono il loro picco di popolarità, abbiamo optato per l’utilizzo di una soluzione di terze parti e personalizzarla per la nostra app. Mentre gli avatar iniziavano a guadagnare popolarità sui mobile, la tecnologia era già disponibile sul web da un po’ di tempo, anche con un’API. Grazie agli sforzi concentrati del team, la nostra prima versione funzionante era nell’App Store in soli cinque giorni, offrendo un output di avatar molto competitivo. Ci ha aiutato a raggiungere la seconda posizione nelle classifiche americane e a rimanere la seconda app più scaricata negli Stati Uniti per una settimana.

Il tuo team ha recentemente rilasciato un aggiornamento della funzionalità di generazione di avatar di ARTA. Potresti condividere alcuni dettagli al riguardo?

I modelli AI tendono ad aggiungere caratteristiche facciali generiche durante l’addestramento, facendo sembrare gli avatar diversi dalle foto di origine, e più uniche sono le caratteristiche di uno, più diversa può apparire l’interpretazione AI. Per affrontare questo problema, abbiamo deciso di creare il nostro proprio servizio di avatar. Avevamo utilizzato un’API di terze parti per molto tempo ma non avevamo ottenuto miglioramenti significativi. Con il passaggio al server, siamo stati in grado di configurare una tecnologia di addestramento più ottimale per mantenere meglio la somiglianza del viso reale dell’utente nell’output dell’avatar. Anche se non posso divulgare i dettagli della nostra pipeline unica, è stato reso possibile grazie a una combinazione specifica di impostazioni SDXL, LORAs e face enhancers, e non abbiamo ancora visto risultati migliori altrove.

Con il nuovo server, ci siamo allontanati da un costo fisso per ogni pacchetto di avatar per passare a una tariffa mensile del server e possiamo ora offrire avatar attraverso un abbonamento settimanale invece di richiedere acquisti in-app separati. Crea un’esperienza più gratificante e è molto più economica per i nostri utenti se vogliono generare, ad esempio, cinque pacchetti di avatar in una settimana o cambiare il photo input man mano che procedono. Considerando tutto ciò, la nostra offerta di avatar attuale vanta il miglior rapporto qualità-prezzo sul mercato. Mentre ci sono app in grado di creare avatar realistici di alta qualità, ARTA si distingue per offrire una gamma diversificata di variazioni di output colorate e luminose oltre agli stili realistici, tutte con lo stesso livello preciso di riconoscimento facciale.

In che altri modi il team ha migliorato le capacità dell’app?

Abbiamo concluso che l’utilizzo di API di terze parti è più efficiente per casi d’uso comuni come la generazione di immagini da testo, la conversione di immagini e la pittura. Questo approccio elimina la necessità di spendere tempo per capire come integrare queste funzionalità nella nostra infrastruttura del server. Inoltre, riduce i costi in situazioni in cui una nuova funzionalità non decolla come previsto e decidiamo di rimuoverla. L’industria della generazione di immagini AI sta evolvendo rapidamente, con numerosi servizi dedicati disponibili, quindi esploriamo e adottiamo gradualmente quelli che si allineano ai nostri obiettivi.

Allo stesso tempo, le esigenze di ARTA spesso si rivelano piuttosto uniche, richiedendo scoperte in-house. In casi in cui le API personalizzate sono inesistenti o non forniscono una qualità di output soddisfacente, ci specializziamo e personalizziamo i nostri servizi interni e sviluppiamo le nostre soluzioni per ottenere i risultati che vogliamo. Ad esempio, oltre ad aggiornare gli avatar AI, i nostri ingegneri di apprendimento automatico e prompt hanno creato una nuova pipeline per la funzionalità AI Filters (Selfies) dell’app. Abbiamo anche sviluppato un algoritmo unico per la nostra funzionalità AI Baby in arrivo – una funzionalità di generazione che consente a due persone di fondere le loro foto e vedere come potrebbe apparire il loro bambino. Sulla base della mia percezione del mondo come product manager, inizialmente ho dubitato del suo successo, ma gli ad creativi che presentano questo concetto sono molto popolari. Quindi, verificare gli insight di marketing è particolarmente utile nei casi legati al contenuto.

Gli utenti possono influenzare il processo artistico in ARTA? Se sì, quali strumenti e opzioni sono disponibili per gli utenti per personalizzare l’arte generata dall’AI?

Gestiamo tutti gli aspetti complessi legati alla generazione, mirando a fornire ai nostri utenti un’esperienza artistica semplice senza sovraccarico tecnico non necessario. Quindi, il modo principale in cui gli utenti influenzano l’output è attraverso i prompt. Manteniamo questo processo trasparente mostrando la richiesta di parole esatta che verrà inviata al modello per la generazione e offriamo assistenza solo se necessario per comporre prompt efficaci.

Selezioniamo le migliori impostazioni predefinite per ogni modello integrato in modo che gli utenti non debbano preoccuparsi di questo. Di solito, non c’è bisogno di regolarle per massimizzare i risultati, poiché già producono un output di generazione ottimale. Tuttavia, se l’utente vuole sperimentare, la modalità avanzata è a un solo tocco di distanza e alcuni parametri più profondi sono nella sezione delle impostazioni.

Presto, aggiungeremo un parametro Seed, che consentirà agli utenti di avere il controllo completo sulla generazione quando devono ricreare un’immagine identica da zero. Inoltre, pianifichiamo di estendere l’elenco dei rapporti di aspetto. Stiamo anche pensando di aggiungere alcuni controlnet alle generazioni regolari. Sono già supportati sul lato server, poiché li utilizziamo per generare AI Filters e sketch, ma non sono ancora stati consegnati agli utenti finali.

Come percepisci l’impatto di AI come ARTA sul mercato dell’arte tradizionale? Vedi la generazione di arte AI come una disruption o un miglioramento dell’industria dell’arte?

La vedo come un miglioramento. L’AI generativa ha introdotto nuove e preziose opportunità per migliorare il processo artistico, riducendo notevolmente il tempo di ritorno. Aiuta gli artisti digitali, i designer, gli illustratori e altri creatori di contenuti visivi con una varietà di compiti, dalla creazione di idee e sviluppo di concetti alla generazione di schizzi e immagini pronte all’uso. In definitiva, la nostra capacità di sfruttare i suoi progressi è limitata solo dalla nostra immaginazione.

Ad esempio, ho un hobby di creare giochi per PC e recentemente ho utilizzato ARTA per generare un set di icone per abilità e oggetti. Avrei potuto progettarle da solo utilizzando Adobe Illustrator, ma con un generatore di immagini, ho ottenuto ciò di cui avevo bisogno quasi subito. Mia moglie, a sua volta, è una ritoccatrice-fotografa. Grazie a Generative Fill di Photoshop, lavora molto più velocemente e ha più tempo libero (o più entrate se decide di accettare più ordini di ritocco).

Quando fatto bene, le immagini generate da AI possono sembrare indistinguibili da opere d’arte professionali. Tuttavia, a mio parere, l’AI non sostituirà mai un vero professionista. Indipendentemente da quanto siano abili le reti neurali, sono ancora addestrate con dati creati dagli esseri umani, il che significa che tutto ciò che generano già esiste da qualche parte. Come allora e adesso, le idee veramente innovative possono essere prodotte solo dalle persone. Mentre il significato tradizionale di arte rimane associato a opere create dall’uomo, l’arte AI è come una diramazione attesa, che invita tutti, indipendentemente dalla formazione artistica, a provare un’esperienza nuova e emozionante.

Guardando oltre il semplice miglioramento della qualità delle immagini, dove vedi il futuro della generazione di immagini AI diretto?

Insieme alla qualità delle immagini, la velocità delle generazioni aumenterà, portando automaticamente a output più convenienti in termini di costo.

Credo che non ci vorrà molto prima che ci sia un modo semplice per generare gli stessi personaggi in ambienti e posizioni diversi, quindi vedremo il sorgere dell’AI nei fumetti, nei libri per bambini, nella grafica dei giochi e altro. La progettazione degli interni e la produzione di ad creativi sono già aree che sfruttano attivamente l’AI generativa, ma c’è molto altro davanti a noi mentre la tecnologia continua a evolversi.

Considerando che tutte le generazioni richiedono GPU potenti, queste tecnologie si svilupperanno insieme all’AI per molto tempo. Siamo solo all’inizio del viaggio. Forse la nuova Apple dei nostri tempi sarà Nvidia, con tutti, o almeno quelli nel settore IT, in attesa dei nuovi rilasci di schede video proprio come facevamo con gli iPhone.

I generatori di immagini AI continueranno a offrire esperienze divertenti e coinvolgenti, sia introducendo nuovi concetti che emergono dalla cultura popolare o rivivendo idee più vecchie con tecnologia migliorata. Ad esempio, l’interesse per le generazioni di AI Baby è attualmente in crescita. Una tecnologia recente basata su Stable Diffusion ha dimostrato output impressionanti dalla fusione delle caratteristiche di due individui per rivelare l’aspetto potenziale del loro bambino biologico. I risultati superano di gran lunga ciò che era disponibile sui siti degli oroscopi alcuni anni fa, e le persone sono ansiose di provarlo di nuovo.

Quali sono le tue previsioni per ciò che dovremmo aspettarci prossimamente dalla AI generativa?

L’onda di popolarità per la generazione di video è all’orizzonte. Con i progressi della tecnologia che raggiungono un livello sufficiente, ci saranno senza dubbio tentativi di addestrare reti neurali utilizzando espressioni facciali e gesti delle persone per creare avatar video, potenzialmente anche con voci uniche degli utenti.

L’AI Audio è un’altra grande innovazione che introduce una nuova era per l’industria della produzione musicale. Questa tecnologia ha già presentato opportunità incredibili per comporre canzoni basate solo sull’input del testo, rendendola uno strumento eccellente per creare colonne sonore personalizzate per vari tipi di contenuti video. Nel complesso, è davvero divertente ascoltare qualcosa di così banale come i Termini di uso rappato o cantato con intonazione romantica.

Grazie per la grande intervista, i lettori che desiderano saperne di più o generare alcune immagini dovrebbero visitare ARTA.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.