Interviews
Ernest Piatrovich, Product Manager at ARTA – Interview Series

Ernest Piatrovich ist Product Manager bei AIBY Group, wo er eines der Top-Tier-AI-Anwendungen des Unternehmens leitet, ARTA – AI-Bildgenerator für iPhone und Android. Seine strategische Vision und kreatives Denken führten dazu, dass die App kurz nach ihrer Veröffentlichung den 2. Platz in den Top-Charts des US-App-Stores erreichte, die Marke von 15 Millionen Downloads weltweit überschritt und die beste Leistung bei AI-Avataren auf der Grundlage einer einzigartigen internen Pipeline bot, neben anderen Erfolgen.
Sie sind für die Verwaltung von ARTA – AI-Kunstgenerator von der Ideenphase bis heute verantwortlich. Können Sie einige Einblicke in diese frühen Tage teilen?
Natürlich! Das waren dynamische Zeiten. Wir konnten eine fein gemachte Anwendung innerhalb von nur einer Woche veröffentlichen und wurden damit zu einem der ersten Consumer-App-Ersteller, die Text-to-Image-Generation-Funktionalität auf mobilen Geräten anboten. Unser Ziel war es, ein Massenmarktprodukt zu erstellen, das den Menschen einen “Künstler” in der Tasche bietet. Daher haben wir uns von der Konzeption und den frühen Entwicklungsstadien an auf Usability und Skalierbarkeit konzentriert. Aber trotz des rechtzeitigen Markteintritts war es sehr herausfordernd, unsere Installationsvolumina auf ein angemessenes Maß zu steigern, selbst mit einem brillanten Media-Buying-Team wie unserem. Ein wesentlicher Schub erfolgte drei Monate nach der Veröffentlichung der App, als unsere Avatar-Funktion gehypt wurde. Das Volumen wurde schnell moderat hoch für unsere Nische, und seitdem ist unsere Aufgabe, es zu halten und zu steigern.
Was war die ursprüngliche Tech-Stack, mit der Sie gestartet sind, und welche Herausforderungen gab es bei der Kunstgenerierung während dieser Zeit?
Wir starteten mit Stable Diffusion 1.3 unter Verwendung der offiziellen API von Stability.ai. Ich sollte sagen, dass die Situation mit der Qualität der Generierungen damals und jetzt wie Tag und Nacht ist. Als wir zum ersten Mal begannen, berichteten unsere QA-Manager häufig über Probleme im Zusammenhang mit dem ästhetischen Wert der Bilder oder Ungenauigkeiten bei der Darstellung bestimmter Konzepte und Merkmale. Aber das war damals Standard für Stable Diffusion. Jetzt ist die Generierungsausgabe in allen Aspekten besser, einschließlich stilistischer Reproduktion, Kompositionscoherenz, visueller Treue, Detaillierungsgrad und mehr.
Kurz nach der Veröffentlichung der App begannen wir, Server auf Amazon zu mieten, und die Unterstützung davon stellte sich als ziemlich herausfordernd heraus. Selbst mit ausreichenden Mitteln kann es sein, dass es keine freien A100 gibt, wenn man sie benötigt, und man muss ein paar Tage warten. Daher mussten wir ohne Autoskalierung auskommen und den gesamten überschüssigen Datenverkehr an die APIs unserer Partner umleiten.
Die Aufrechterhaltung all dessen bleibt bis heute ziemlich knifflig, mit kleinen Problemen, die jeden Monat oder so auftreten. Zum Beispiel treten wir gelegentlich vorübergehende Probleme mit der Qualität der Generierungen auf, wenn der Anbieter den Server aktualisiert, Gewichte testet oder andere Änderungen vornimmt, die die Generierungsausgabe beeinflussen. Solche Fehler können von einer Stunde bis zu einem halben Tag dauern und sind unvorhersehbar und schwer zu verfolgen. In der Regel haben wir, bis unsere Supportabteilung einen Benutzerbericht über verschwommene Bilder oder ein anderes auftretendes Problem erhält, den API-Anbieter bereits das Problem behoben. Aber es ist ein ernstes Anliegen für unsere Benutzer. Daher bauen wir jetzt ein System, das mehrere Anbieter und unsere eigenen Server für spezielle Generierungen kombiniert, was uns ermöglicht, mehr Kontrolle auf unserer Seite zu haben.
Als Product-Manager, welche strategischen Entscheidungen waren entscheidend für die Führung von ARTA zu seiner Top-Position kurz nach seiner Veröffentlichung?
Der frühe Aufstieg von ARTA (damals noch Aiby genannt) resultierte aus der rechtzeitigen Entscheidung, die virale Avatar-Funktion umzusetzen, als sie gerade auf sozialen Medien begann, sich auszubreiten. Wir erkannten schnell das wachsende Interesse an dieser Funktionalität. Unser gesamtes Team, einschließlich Produkt, Marketing und Entwicklung, war auf der gleichen Wellenlänge und visionär in Bezug auf ihren Erfolg. Wir erkannten auch, dass eine kurze Zeit bis zur Markteinführung entscheidend war. Daher widmeten wir uns von Tag eins an allen unseren Ressourcen, um diese Funktion zu realisieren und sie gegenüber anderen Aufgaben zu priorisieren.
Da unsere Deadline “so schnell wie möglich” war, um den Moment nicht zu verpassen, wenn AI-Avatare ihren Höhepunkt erreichen, entschieden wir uns, eine Lösung von Drittanbietern zu verwenden und sie für unsere App anzupassen. Während Avatare auf mobilen Geräten begannen, an Popularität zu gewinnen, war die Technologie bereits seit einiger Zeit im Web verfügbar, sogar mit einer API. Dank der konzentrierten Bemühungen unseres Teams war unsere erste funktionierende Version in nur fünf Tagen im App Store verfügbar und bot hochwettbewerbsfähige Avatar-Ergebnisse. Es half uns, den 2. Platz in den amerikanischen Top-Charts zu erreichen und für eine Woche die zweitmeistgedownloadete App in den USA zu bleiben.
Ihre Mannschaft hat kürzlich ein Upgrade für ARTA’s AI-Avatar-Generation-Feature veröffentlicht. Können Sie einige Details dazu teilen?
Die AI-Modelle neigen dazu, generische Gesichtsmerkmale während der Ausbildung hinzuzufügen, was dazu führt, dass Avatare anders aussehen als die Quellfotos, und je einzigartiger die Züge einer Person sind, desto unähnlicher kann die AI-Interpretation aussehen. Um dieses Problem zu lösen, entschieden wir uns, unseren eigenen Avatar-Service zu erstellen. Wir hatten lange Zeit eine API von Drittanbietern verwendet, aber es gab keine wesentlichen Verbesserungen. Mit dem Server-Wechsel konnten wir eine optimalere Trainings-Technologie einrichten, um die Ähnlichkeit des Benutzers mit dem Avatar-Output besser beizubehalten. Ich kann unsere einzigartige Pipeline nicht im Detail erläutern, aber sie wurde durch eine spezifische Kombination von SDXL-Einstellungen, LORAs und Gesichts-Enhancern ermöglicht, und wir haben noch keine besseren Ergebnisse woanders gesehen.
Mit dem neuen Server konnten wir von einer festen Kostenstruktur für jedes Avatar-Paket zu einer monatlichen Servergebühr wechseln und bieten jetzt Avatare über ein wöchentliches Abonnement an, anstatt separate In-App-Käufe zu erfordern. Es schafft ein erfüllenderes Erlebnis und ist für unsere Benutzer viel günstiger, wenn sie beispielsweise fünf Avatar-Pakete innerhalb einer Woche generieren oder das Foto-Input ändern möchten, während sie voranschreiten. Wenn man all dies berücksichtigt, bietet unser Avatar-Angebot derzeit das beste Preis-Leistungs-Verhältnis auf dem Markt. Während es Apps gibt, die hochwertige realistische Avatare erstellen können, hebt sich ARTA durch die Bereitstellung einer vielfältigen Palette von hellen und farbenfrohen Ausgabe-Variationen ab, neben realistischen Stilen, alles mit dem gleichen präzisen Level an Gesichtserkennung.
Wie hat das Team die Fähigkeiten der App noch verbessert?
Wir kamen zu dem Schluss, dass die Verwendung von APIs von Drittanbietern für allgemeine Anwendungsfälle wie Text-to-Image-Generation, Bildkonvertierung und Inpainting effizienter ist. Dieser Ansatz eliminiert die Notwendigkeit, Zeit mit der Integration dieser Funktionalitäten in unsere Server-Infrastruktur zu verbringen. Darüber hinaus reduziert es die Kosten in Situationen, in denen eine neue Funktion nicht so gut angenommen wird, wie erwartet, und wir entscheiden uns, sie zu entfernen. Die AI-Bildgenerierungs-Industrie entwickelt sich rasant, mit zahlreichen spezialisierten Diensten, die verfügbar sind, also erkunden und adoptieren wir allmählich diejenigen, die unseren Zielen entsprechen.
Gleichzeitig erweisen sich die Bedürfnisse von ARTA oft als ziemlich einzigartig und erfordern interne Erkenntnisse. In Fällen, in denen maßgeschneiderte APIs entweder nicht existieren oder keine zufriedenstellende Ausgabequalität bieten, spezialisieren wir uns und passen unsere internen Dienste an und entwickeln unsere eigenen Lösungen, um die Ergebnisse zu erzielen, die wir wollen. Zum Beispiel haben wir neben der Aktualisierung von AI-Avataren unsere ML- und Prompt-Engineers auch eine neue Pipeline für die AI-Filter-(Selfies)-Funktion der App entwickelt. Wir haben auch einen einzigartigen Algorithmus für unsere bevorstehende AI-Baby-Funktion entwickelt – eine Generierungs-Funktion, die es zwei Personen ermöglicht, ihre Fotos zu kombinieren und zu sehen, wie ihr Kind aussehen könnte. Basierend auf meiner Wahrnehmung der Welt als Product-Manager zweifelte ich anfangs an ihrem Erfolg, aber Ad-Creatives, die dieses Konzept verwenden, sind sehr beliebt. Also ist es besonders hilfreich, Marketing-Einblicke zu überprüfen, insbesondere in inhaltsbezogenen Fällen.
Können Benutzer den künstlerischen Prozess in ARTA beeinflussen? Wenn ja, welche Tools und Optionen stehen den Benutzern zur Verfügung, um die AI-generierte Kunst anzupassen?
Wir behandeln alle komplexen Aspekte im Zusammenhang mit der Generierung und zielen darauf ab, unseren Benutzern ein einfaches künstlerisches Erlebnis ohne unnötige technische Überlastung zu bieten. Der primäre Weg, auf dem Benutzer die Ausgabe beeinflussen, ist durch Prompts. Wir halten diesen Prozess transparent, indem wir den genauen Wortanforderung anzeigen, der an das Modell für die Generierung gesendet wird, und bieten nur Unterstützung bei der Erstellung effektiver Prompts an, wenn dies erforderlich ist.
Wir wählen die besten Standard-Einstellungen für jedes integrierte Modell aus, sodass Benutzer sich nicht um diese Sorgen machen müssen. Typischerweise besteht kein Bedarf, sie anzupassen, um optimale Ergebnisse zu erzielen, da sie bereits eine optimale Generierungsausgabe produzieren. Dennoch, wenn der Benutzer experimentieren möchte, ist der erweiterte Modus nur einen Klick entfernt, und einige tiefere Parameter sind im Einstellungsabschnitt zu finden.
Bald werden wir einen Seed-Parameter hinzufügen, der es Benutzern ermöglicht, vollständige Kontrolle über die Generierung zu haben, wenn sie ein identisches Bild von Grund auf neu erstellen müssen. Zusätzlich planen wir, die Liste der Aspektverhältnisse zu erweitern. Wir denken auch darüber nach, mehrere Control-Nets zu regulären Generierungen hinzuzufügen. Sie werden bereits auf der Server-Seite unterstützt, da wir sie zur Generierung von AI-Filtern und Skizzen verwenden, aber sie werden noch nicht an die Endbenutzer geliefert.
Wie nehmen Sie den Einfluss von AI wie ARTA auf den traditionellen Kunstmarkt wahr? Sehen Sie AI-Kunstgenerierung als Störung oder als Ergänzung der Kunstindustrie?
Ich sehe es als Ergänzung. Generative AI hat neue und wertvolle Möglichkeiten eingeführt, den künstlerischen Prozess zu verbessern, während sie die Durchlaufzeit erheblich reduziert. Sie unterstützt digitale Künstler, Designer, Illustrator und andere visuelle Content-Ersteller bei einer Vielzahl von Aufgaben, von der Ideenfindung und Konzeptentwicklung bis hin zur Generierung von Skizzen und fertigen Bildern. Letztendlich ist unsere Fähigkeit, ihre Fortschritte zu nutzen, nur durch unsere Vorstellungskraft begrenzt.
Zum Beispiel habe ich ein Hobby, PC-Spiele zu erstellen, und kürzlich verwendete ich ARTA, um ein Set von Symbolen für Fähigkeiten und Gegenstände zu generieren. Ich könnte sie selbst mit Adobe Illustrator entwerfen, aber mit einem Bildgenerator bekam ich, was ich brauchte, fast sofort. Meine Frau ist wiederum eine Retoucher-Fotografin. Dank der Generativen Füllung in Photoshop arbeitet sie viel schneller und hat mehr Freizeit (oder mehr Einkommen, wenn sie entscheidet, mehr Retuscheraufträge anzunehmen).
Wenn sie gut gemacht wird, können AI-generierte Bilder von professioneller Kunst nicht zu unterscheiden sein. Aber meiner Meinung nach wird AI niemals einen wahren Profi ersetzen. Egal, wie geschickt neuronale Netze werden, sie werden immer auf von Menschen erstellten Daten trainiert, was bedeutet, dass alles, was sie generieren, bereits irgendwo existiert. Wie damals und heute können nur Menschen wirklich innovative Ideen produzieren. Während der traditionelle Sinn von Kunst immer noch mit von Menschen gemachten Stücken verbunden ist, ist AI-Kunst wie ein erwarteter Spin-off, der jeden einlädt, unabhängig von der künstlerischen Vorgeschichte, ein spannendes neues Erlebnis auszuprobieren.
Auf welches Gebiet sieht man sich die Zukunft der AI-Bildgenerierung bewegen, wenn man über die Verbesserung der Bildqualität hinausgeht?
Neben der Bildqualität wird die Geschwindigkeit der Generierungen zunehmen, was automatisch zu kostengünstigeren Ausgaben führt.
Ich denke, es wird nicht lange dauern, bis es eine einfache Möglichkeit gibt, dieselben Charaktere in verschiedenen Umgebungen und Positionen zu generieren, sodass wir den Aufstieg von AI in Comics, Kinderbüchern, Spielgrafiken und mehr sehen werden. Innenausstattung und Werbe-Produktion sind bereits Bereiche, die generative AI aktiv nutzen, aber mehr ist vor uns, während die Technologie weiterentwickelt wird.
Da alle Generierungen starke GPUs erfordern, werden diese Technologien für eine ganze Weile zusammen mit AI entwickelt. Wir sind erst am Anfang dieser Reise. Vielleicht wird das neue Apple unserer Zeit Nvidia sein, mit dem jeder, oder zumindest diejenigen in der IT-Branche, neue Grafikkarten-Veröffentlichungen erwartet, genau wie wir es bei iPhones getan haben.
AI-Bildgeneratoren werden weiterhin unterhaltsame und ansprechende Erfahrungen bieten, sei es durch die Einführung neuer Konzepte, die aus der Popkultur entstehen, oder durch die Wiederbelebung alter Ideen mit besserer Technologie. Zum Beispiel wächst das Interesse an AI-Baby-Generierungen derzeit. Eine kürzlich entwickelte Technologie auf der Grundlage von Stable Diffusion hat beeindruckende Ergebnisse bei der Kombination von Merkmalen zweier Personen gezeigt, um das potenzielle Aussehen ihres biologischen Kindes zu enthüllen. Die Ergebnisse übertreffen bei Weitem, was auf Horoskop-Seiten vor einigen Jahren verfügbar war, und die Menschen sind begierig, es noch einmal zu versuchen.
Was sind Ihre Vorhersagen für das, was wir als Nächstes von generativer AI erwarten sollten?
Die Welle der Popularität für Video-Generierung ist am Horizont. Mit den Fortschritten in der Technologie, die ein ausreichendes Niveau erreichen, wird es zweifellos Versuche geben, neuronale Netze mit den Gesichtsausdrücken und Gesten von Menschen zu trainieren, um Video-Avatare zu erstellen, möglicherweise sogar mit einzigartigen Benutzer-Stimmen.
AI-Audio ist ein weiterer bedeutender Durchbruch, der eine neue Ära für die Musikproduktionsindustrie einläutet. Diese Technologie hat bereits erstaunliche Möglichkeiten für die Komposition von Songs auf der Grundlage von Texteingaben vorgestellt, was sie zu einem hervorragenden Werkzeug für die Erstellung von benutzerdefinierten, nicht-stockmäßigen Soundtracks für verschiedene Arten von Video-Inhalten macht. Insgesamt ist es wirklich lustig, etwas so Alltägliches wie Nutzungsbedingungen gerappt oder mit romantischer Intonation gesungen zu hören.
Vielen Dank für das großartige Interview. Leser, die mehr erfahren oder einige Bilder generieren möchten, sollten ARTA besuchen.












