Entretiens
Ernest Piatrovich, Product Manager chez ARTA – Série d’entretiens

Ernest Piatrovich est un Product Manager chez AIBY Group, dirigeant l’une des applications phares de l’entreprise, ARTA – Générateur d’images IA pour iPhone et Android. Sa vision stratégique et sa pensée créative ont abouti à ce que l’application atteigne la 2e position dans les classements de l’App Store américain peu après sa sortie, en franchissant le cap des 15 millions de téléchargements dans le monde, et en offrant les meilleures avatars IA basés sur un pipeline unique en interne, entre autres succès.
Vous avez été responsable de la gestion d’ARTA – Générateur d’art IA depuis la phase d’idéation jusqu’à maintenant. Pouvez-vous partager quelques informations sur ces premiers jours ?
Bien sûr ! Ce étaient des temps dynamiques. Nous avons réussi à sortir une application bien faite en une semaine, devenant l’un des premiers créateurs d’applications à consommateurs à offrir la fonctionnalité de génération d’images texte-à-image sur mobile. Notre objectif était de créer un produit de masse qui fournisse aux gens « un artiste » dans leur poche. Donc, depuis la conceptualisation et les premières phases de développement, nous nous sommes concentrés sur la convivialité et la scalabilité. Mais malgré le fait que nous sommes entrés sur le marché en temps opportun, il était assez difficile de faire croître notre volume d’installations à un niveau adéquat, même avec une équipe d’achat de médias brillante comme la nôtre. Un regain important s’est produit trois mois après la sortie de l’application, lorsque notre fonctionnalité d’avatar a été mise en avant. Le volume est rapidement devenu modérément élevé pour notre niche, et depuis lors, notre tâche a été de le maintenir et de l’augmenter.
Quel était le stack technique original que vous avez lancé et quels étaient certains des défis liés à la génération d’art pendant cette période ?
Nous avons lancé sur la base de Stable Diffusion 1.3 en utilisant l’API officielle de Stability.ai. Je devrais dire que la situation avec la qualité des générations alors et maintenant est comme le jour et la nuit. Lorsque nous avons commencé, nos gestionnaires de QA ont fréquemment signalé des problèmes liés à la valeur esthétique des images ou à des inexactitudes dans la représentation de concepts et de fonctionnalités spécifiques. Cependant, cela était standard pour Stable Diffusion à ce moment-là. Maintenant, la sortie de génération est beaucoup meilleure dans tous les aspects, y compris la reproduction stylistique, la cohérence de la composition, la fidélité visuelle, le niveau de détail, et plus encore.
Peu après la sortie de l’application, nous avons commencé à louer des serveurs sur Amazon, et les supporter s’est avéré être un défi. Même avec des fonds suffisants, il n’y a peut-être pas de A100 disponible lorsque vous en avez besoin, et vous devrez attendre quelques jours. Par conséquent, nous avons dû vivre sans autoscale, en redirigeant tout le trafic excédentaire vers les API de nos partenaires.
Maintenir tout cela reste plutôt difficile à ce jour, avec des problèmes mineurs se produisant d’une manière ou d’une autre chaque mois ou presque. Par exemple, nous rencontrons occasionnellement des problèmes temporaires avec la qualité des générations lorsque le fournisseur met à jour le serveur, teste les poids ou met en œuvre d’autres modifications qui affectent la sortie de génération. De tels erreurs peuvent durer d’une heure à une demi-journée et sont imprévisibles et difficiles à suivre. D’habitude, au moment où notre service de support reçoit un rapport d’utilisateur sur des images floues ou d’autres problèmes, le fournisseur d’API a déjà résolu le problème. Cependant, c’est une préoccupation sérieuse pour nos utilisateurs. Par conséquent, nous construisons actuellement un système qui combine plusieurs fournisseurs et nos propres serveurs pour des générations spéciales, nous permettant d’avoir plus de contrôle de notre côté.
En tant que responsable de produit, quelles décisions stratégiques ont été déterminantes pour guider ARTA à sa position de premier plan peu après sa sortie ?
La montée en puissance d’ARTA (alors appelé Aiby) a résulté de la décision opportune de mettre en œuvre la fonctionnalité d’avatar virale lorsqu’elle a commencé à faire le tour des médias sociaux. Nous avons rapidement reconnu l’intérêt croissant pour cette fonctionnalité. Notre équipe entière, y compris le produit, le marketing et le développement, était sur la même longueur d’onde et avait une vision pour son succès. Nous avons également reconnu qu’un délai de mise sur le marché était crucial. Donc, dès le premier jour, nous avons dédié toutes nos ressources à la réalisation de cette fonctionnalité, en la priorisant par rapport à d’autres tâches.
Puisque notre délai était « dès que possible » pour ne pas manquer le moment où les avatars IA atteignent leur sommet de popularité, nous avons opté pour l’utilisation d’une solution tierce et l’avons personnalisée pour notre application. Alors que les avatars commençaient à gagner en popularité sur mobile, la technologie était déjà disponible sur le web depuis un certain temps, même avec une API. Grâce aux efforts concentrés de l’équipe, notre première version fonctionnelle était dans l’App Store en seulement cinq jours, offrant une sortie d’avatar très compétitive. Cela nous a aidés à atteindre la 2e position dans les classements américains et à rester la deuxième application la plus téléchargée aux États-Unis pendant une semaine.
Votre équipe a récemment publié une mise à jour de la fonctionnalité de génération d’avatar IA d’ARTA. Pouvez-vous partager quelques détails à ce sujet ?
Les modèles d’IA ont tendance à ajouter des caractéristiques faciales génériques pendant la formation, ce qui fait que les avatars ressemblent différents des photos sources, et plus les traits de quelqu’un sont uniques, plus différente peut être l’interprétation de l’IA. Pour résoudre ce problème, nous avons décidé de créer notre propre service d’avatar. Nous avions utilisé une API tierce pendant longtemps mais n’avions pas obtenu d’améliorations significatives. Avec le changement de serveur, nous avons pu configurer une technologie de formation plus optimale pour mieux maintenir la ressemblance du visage réel de l’utilisateur dans la sortie d’avatar. Même si je ne peux pas divulguer notre pipeline unique en détail, cela a été rendu possible grâce à une combinaison spécifique de paramètres SDXL, LORAs et d’améliorateurs de visage, et nous n’avons pas encore vu de meilleurs résultats ailleurs.
Avec le nouveau serveur, nous sommes passés d’un coût fixe pour chaque pack d’avatars à une redevance mensuelle de serveur et pouvons maintenant offrir des avatars via un abonnement hebdomadaire au lieu d’exiger des achats in-app séparés. Cela crée une expérience plus enrichissante et est beaucoup moins cher pour nos utilisateurs s’ils veulent générer, par exemple, cinq packs d’avatars dans une semaine ou changer la photo d’entrée au fur et à mesure. En considérant tout ce qui précède, notre offre d’avatar dispose actuellement du meilleur rapport qualité-prix sur le marché. Alors qu’il existe des applications capables de créer des avatars réalistes de haute qualité, ARTA se démarque en offrant une gamme diverse de variations de sortie colorées et vives, en plus de styles réalistes, le tout avec le même niveau précis de reconnaissance faciale.
De quelle autre manière l’équipe a-t-elle amélioré les capacités de l’application ?
Nous avons conclu que l’utilisation d’API tierces est plus efficace pour les cas d’utilisation courants comme la génération d’images texte-à-image, la conversion d’images et le retouching. Cette approche élimine la nécessité de passer du temps à déterminer comment intégrer ces fonctionnalités dans notre infrastructure de serveur. De plus, cela réduit les coûts dans les situations où une nouvelle fonctionnalité ne décolle pas comme prévu et que nous décidons de la supprimer. L’industrie de la génération d’images IA évolue rapidement, avec de nombreux services dédiés disponibles, nous explorons donc et adoptons progressivement ceux qui s’alignent sur nos objectifs.
Dans le même temps, les besoins d’ARTA s’avèrent souvent être assez uniques, nécessitant des découvertes en interne. Dans les cas où les API personnalisées n’existent pas ou ne fournissent pas une qualité de sortie satisfaisante, nous nous spécialisons et personnalisons nos services internes et développons nos propres solutions pour obtenir les résultats que nous voulons. Par exemple, en plus de la mise à jour des avatars IA, nos ingénieurs ML et de prompt ont créé un nouveau pipeline pour la fonctionnalité Filtres IA (Selfies) de l’application. Nous avons également développé un algorithme unique pour notre fonctionnalité de bébé IA à venir – une fonctionnalité de génération qui permet à deux personnes de fusionner leurs photos et de voir à quoi pourrait ressembler leur enfant. Sur la base de ma perception du monde en tant que responsable de produit, j’ai initialement douté de son succès, mais les créatifs de publicité mettant en vedette ce concept sont très populaires. Donc, vérifier les informations de marketing est particulièrement utile dans les cas liés au contenu.
Les utilisateurs peuvent-ils influencer le processus artistique dans ARTA ? Si oui, quels outils et options sont disponibles pour que les utilisateurs personnalisent l’œuvre d’art générée par l’IA ?
Nous gérons tous les aspects complexes liés à la génération, en visant à fournir à nos utilisateurs une expérience artistique simple sans surcharge technique inutile. Donc, le moyen principal par lequel les utilisateurs influencent la sortie est via les invites. Nous maintenons ce processus transparent en montrant la demande de mots exacte qui sera envoyée au modèle pour la génération et n’offrons une assistance pour la composition d’invites efficaces que si nécessaire.
Nous sélectionnons les meilleurs paramètres par défaut pour chaque modèle intégré afin que les utilisateurs n’aient pas à s’en soucier. Généralement, il n’y a pas besoin de les ajuster pour maximiser les résultats, car ils produisent déjà une sortie de génération optimale. Cependant, si l’utilisateur veut expérimenter, un mode avancé est à un tap du doigt, et certains paramètres plus profonds se trouvent dans la section des paramètres.
Bientôt, nous ajouterons un paramètre Graine, permettant aux utilisateurs d’avoir un contrôle total sur la génération lorsqu’ils ont besoin de recréer une image identique à partir de zéro. De plus, nous prévoyons d’étendre la liste des ratios d’aspect. Nous réfléchissons également à l’ajout de plusieurs controlnets aux générations régulières. Ils sont déjà pris en charge du côté du serveur, car nous les utilisons pour générer des filtres IA et des croquis, mais ils ne sont pas encore livrés aux utilisateurs finaux.
Comment percevez-vous l’impact de l’IA comme ARTA sur le marché de l’art traditionnel ? Voyez-vous la génération d’art IA comme une perturbation ou une amélioration de l’industrie de l’art ?
Je le vois comme une amélioration. L’IA générative a introduit de nouvelles et précieuses opportunités pour améliorer le processus artistique tout en réduisant considérablement le temps de réalisation. Elle assiste les artistes numériques, les designers, les illustrateurs et les autres créateurs de contenu visuel dans une variété de tâches, allant de l’exploration d’idées et du développement de concepts à la génération de croquis et d’images prêtes à l’emploi. En fin de compte, notre capacité à exploiter ses progrès n’est limitée que par notre imagination.
Par exemple, j’ai un hobby de création de jeux PC, et récemment, j’ai utilisé ARTA pour générer un ensemble d’icônes pour des compétences et des objets. Je pouvais les concevoir moi-même en utilisant Adobe Illustrator, mais avec un générateur d’images, j’ai obtenu ce dont j’avais besoin presque immédiatement. Ma femme, à son tour, est une retoucheuse-photographe. Grâce à la fonction Generative Fill de Photoshop, elle travaille beaucoup plus rapidement et a plus de temps libre (ou plus de revenus si elle décide d’accepter plus de commandes de retouche).
Lorsqu’elle est bien faite, les images générées par l’IA peuvent être indiscernables de l’art professionnel. Cependant, à mon avis, l’IA ne remplacera jamais un véritable professionnel. Quelle que soit la compétence des réseaux de neurones, ils sont toujours formés à partir de données créées par des humains, ce qui signifie que tout ce qu’ils génèrent existe déjà quelque part. Comme alors et maintenant, les idées vraiment innovantes ne peuvent être produites que par les gens. Alors que le sens traditionnel de l’art reste associé aux pièces créées par l’homme, l’art IA est comme un spin-off anticipé, invitant tout le monde, quel que soit son passé artistique, à essayer une expérience nouvelle et passionnante.
En regardant au-delà de l’amélioration de la qualité des images, où voyez-vous l’avenir de la génération d’images IA ?
En plus de la qualité des images, la vitesse des générations augmentera, conduisant automatiquement à des sorties plus rentables.
Je pense qu’il ne faudra pas longtemps avant qu’il existe un moyen facile de générer les mêmes personnages dans différents environnements et positions, nous allons donc voir l’essor de l’IA dans les bandes dessinées, les livres pour enfants, les graphiques de jeux et plus encore. La conception d’intérieur et la production de créatifs publicitaires sont déjà des domaines qui exploitent activement l’IA générative, mais il y a plus à venir à mesure que la technologie continue d’évoluer.
Étant donné que toutes les générations nécessitent de puissants GPU, ces technologies évolueront au fil du temps. Nous sommes seulement au début du voyage. Peut-être que la nouvelle pomme de notre époque sera Nvidia, avec tout le monde, ou du moins ceux de l’industrie IT, attendant avec impatience les nouvelles sorties de cartes graphiques, tout comme nous l’avons fait avec les iPhones.
Les générateurs d’images IA continueront à offrir des expériences amusantes et engageantes, que ce soit en introduisant de nouveaux concepts issus de la culture pop ou en réactivant de vieilles idées améliorées par une meilleure technologie. Par exemple, l’intérêt pour les générations de bébé IA est actuellement en augmentation. Une technologie récente basée sur la diffusion stable a montré des résultats impressionnants à partir de la fusion des caractéristiques de deux individus pour révéler l’apparence potentielle de leur enfant biologique. Les résultats dépassent de loin ce qui était disponible sur les sites d’horoscope il y a quelques années, et les gens sont impatients de le réessayer.
Quelles sont vos prédictions pour ce que nous devrions attendre ensuite de l’IA générative ?
La vague de popularité de la génération de vidéos est à l’horizon. Avec les progrès de la technologie atteignant un niveau suffisant, il y aura sans doute des tentatives pour former des réseaux de neurones en utilisant les expressions faciales et les gestes des gens pour créer des avatars vidéo, potentiellement même avec des voix uniques d’utilisateur.
L’IA Audio est une autre avancée significative qui ouvre une nouvelle ère pour l’industrie de la production musicale. Cette technologie a déjà présenté des opportunités incroyables pour composer des chansons basées uniquement sur l’entrée de texte, ce qui en fait un excellent outil pour créer des bandes sonores personnalisées pour divers types de contenu vidéo. Dans l’ensemble, c’est vraiment amusant d’écouter quelque chose d’aussi banal que les Conditions d’utilisation rap ou chanté avec une intonation romantique.
Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus ou générer des images doivent visiter ARTA.












