インタビュー
アーネスト・ピアトロビッチ、ARTAのプロダクトマネージャー – インタビューシリーズ

アーネスト・ピアトロビッチは、AIBY Groupのプロダクトマネージャーであり、同社のトップティアのAI駆動アプリの1つであるARTA – AIイメージジェネレーターを担当しています。彼の戦略的なビジョンと創造的な思考により、アプリはリリース後すぐにUS App Storeのトップチャートで2位を獲得し、世界中で1,500万ダウンロードを突破し、独自のインハウスパイプラインに基づく最高のパフォーマンスを発揮するAIアバターを提供するなど、数多くの成功を収めています。
ARTA – AIアートジェネレーターをイデアソンから今まで担当してきたので、初期の頃について少し話してください。
もちろん!その頃は動的な時期でした。私たちは、ただ1週間で完成度の高いアプリケーションをリリースし、モバイルでテキストからイメージを生成する機能を提供する最初のコンシューマーアプリの作成者の1つになりました。私たちの目標は、人々に「ポケットの中のアーティスト」を提供するマス市場向けの製品を構築することでした。したがって、概念化と初期開発段階から、私たちは使いやすさとスケーラビリティに焦点を当てました。しかし、市場にタイムリーに入ったにもかかわらず、優れたメディアバイイングチームを持っていても、インストールボリュームを適切なレベルに増やすことはかなり挑戦的なものでした。アバター機能が注目された3か月後、顕著なブーストが起こりました。ボリュームは私たちのニッチではかなり高くなり、以来、私たちのタスクはそれを維持して増やすことです。
当初のテクノロジースタックについて、またその期間中のアート生成における課題について教えてください。
私たちは、Stability.aiの公式APIを使用してStable Diffusion 1.3に基づいてリリースしました。当時と今の生成品質は、まるで夜と日の差です。私たちが初めて始めたとき、私たちのQAマネージャーは、画像の美的価値や特定の概念や機能の表現に関する不正確さに関する問題を頻繁に報告していました。しかし、それは当時のStable Diffusionの標準でした。現在、生成出力は、スタイリッシュな再現、構成の連貫性、視覚的忠実性、詳細レベルなど、すべての側面で大幅に改善されています。
アプリのリリース後すぐに、Amazonでサーバーをレンタルし始めましたが、それらをサポートすることはかなり課題でした。十分な資金があっても、必要なときにA100が利用できない場合があり、数日待つ必要があります。したがって、私たちはオートスケールなしで生き残らなければならず、余分なトラフィックをパートナーのAPIにリダイレクトしました。
これらすべてを維持することは、今でもかなりトリッキーです。毎月あるいはその程度の頻度で、ある程度の問題が発生します。たとえば、プロバイダーがサーバーを更新したり、重みをテストしたり、生成出力に影響を与える他の変更を実装したりしたときに、生成品質に関する一時的な問題に偶に遭遇します。こうしたエラーは、1時間から半日まで続く可能性があり、予測不可能で追跡困難です。通常、私たちのサポート部門がユーザーの報告を受け取ったときには、APIプロバイダーはすでに問題を修正しています。しかし、これは私たちのユーザーにとって深刻な懸念事項です。したがって、私たちは現在、複数のプロバイダーと私たちのサーバーを組み合わせるシステムを構築しており、これにより、私たちの側でより多くのコントロールを実現できます。
プロダクトマネージャーとして、ARTAをリリース後すぐにトップランクに導いた戦略的な決定について教えてください。
ARTA(当時はAiby)の初期の隆盛は、ソーシャルメディアで話題になっていたアバター機能を実装したことによるものでした。私たちはこの機能の成長する関心をすばやく認識しました。私たちのチーム全体、製品、 маркетинг、開発はすべて同じ波長で、この機能の成功についてビジョンを持っていました。また、市場への迅速な参入が重要であることも認識しました。したがって、最初の日から、私たちはすべてのリソースをこの機能の実現に集中し、それを他のタスクよりも優先しました。
私たちのデッドラインは、AIアバターが最も盛んなときに間に合うようにすることでした。したがって、私たちはサードパーティーのソリューションを使用し、それを私たちのアプリにカスタマイズすることを選択しました。アバターがモバイルで人気を博し始めたとき、技術はすでにウェブ上で利用可能でした。APIもありました。チームの集中した努力により、私たちの最初の動作バージョンは5日でApp Storeに登場し、高度に競合するアバター出力を提供しました。これにより、私たちは米国のトップチャートで2位を獲得し、1週間間で米国で2番目に多くダウンロードされたアプリとなりました。
ARTAのAIアバター生成機能のアップグレードについて教えてください。
AIモデルは、トレーニング中に汎用的な顔の特徴を追加する傾向があり、アバターはソース写真と異なって見えることがあります。さらに、ユニークな特徴を持つほど、AIの解釈は異なって見える可能性があります。この問題に対処するために、私たちは独自のアバターサービスを作成することにしました。私たちは長い間サードパーティーのAPIを使用していましたが、重大な改善は得られませんでした。サーバーの移行により、ユーザーの実際の顔の類似性をアバター出力に保存するために、より適切なトレーニング技術を設定することが可能になりました。私のユニークなパイプラインの詳細は公開できないですが、SDXL設定、LORAs、顔強調器の特定の組み合わせにより実現可能になりました。私たちがまだ見ていないほど優れた結果はありません。
新しいサーバーにより、固定コストのアバターパックから月額サーバー料金に移行でき、別々のインアプリ購入ではなく、週ごとのサブスクリプションでアバターを提供できるようになりました。ユーザーが1週間以内に5つのアバターパックを生成したり、入力写真を変更したりしたい場合、より充実した体験を提供し、はるかに安価です。上記のすべてを考慮すると、私たちのアバターオファーは現在、市場で最高の価格性能比を誇っています。リアリスティックアバターを生成できるアプリはありますが、ARTAは、リアリスティックスタイルだけでなく、明るく色鮮やかな出力バリエーションも提供することで、他と異なります。すべてのアバター出力で同じレベルの顔認識の精度を実現しています。
チームはアプリの機能をどのように改善しましたか。
テキストからイメージの生成、画像変換、インペインティングなどの一般的なユースケースでは、サードパーティーのAPIを使用する方が効率的であると結論付けました。このアプローチにより、機能を私たちのサーバーインフラストラクチャに統合する方法を調べる時間を節約できます。さらに、予想どおりに機能しない新しい機能を削除する必要がある場合のコストを削減します。AIイメージ生成業界は急速に進化しており、多くの専門サービスが利用可能です。私たちはこれらのサービスを探索し、目標と一致するものを段階的に採用しています。
同時に、ARTAのニーズは独自のものであることが多く、インハウスの発見を必要とします。ターゲットAPIが存在しないか、または満足のいく出力品質を提供できない場合、私たちは内部サービスを専門化し、カスタマイズして、望ましい結果を達成するための独自のソリューションを開発します。たとえば、AIアバターをアップグレードすることに加えて、私たちのMLとプロンプトエンジニアは、アプリのAIフィルタ(セルフィー)機能の新しいパイプラインを開発しました。さらに、私たちのAIベイビー機能 – 2人の写真をマージして子供の見た目を確認できる生成機能 – に対する独自のアルゴリズムを開発しました。私の認識として、プロダクトマネージャーは、特にコンテンツ関連のケースでは、マーケティングの洞察を確認することが特に役立ちます。
ユーザーはARTAのアーティスティックプロセスに影響を与えることができますか。そうであれば、ユーザーがAI生成アートワークをカスタマイズするためのツールやオプションは何ですか。
私たちは、生成に関連する複雑な側面をすべて処理し、ユーザーに技術的なオーバーロードなしでシンプルなアーティスティック体験を提供することを目指しています。したがって、出力を影響させる主な方法は、プロンプトを使用することです。生成モデルに送信される正確なワードリクエストを表示し、必要に応じてプロンプトの作成を支援するだけです。
私たちは、各統合モデルに最適なデフォルト設定を選択し、ユーザーがそれについて心配する必要がないようにします。通常、結果を最大化するためにそれらを調整する必要はありません。既に最適な生成出力を生成しているからです。しかし、ユーザーが実験したい場合、詳細設定モードは1タップで利用可能であり、一部の詳細パラメータは設定セクションにあります。
近く、シードパラメータを追加し、ユーザーが完全なコントロールで生成を再現できるようにします。また、アスペクト比のリストを拡張することを計画しています。さらに、通常の生成にコントロールネットを追加することを検討しています。サーバー側ではすでにサポートされており、AIフィルタやスケッチの生成に使用していますが、まだエンドユーザーには提供されていません。
あなたは、ARTAのようなAIが伝統的なアート市場に与える影響をどのように見ていますか。AIアート生成をアート業界の混乱として見るか、強化として見るか。
私は強化として見ています。生成可能なAIは、アーティスティックプロセスを強化する新しい機会をもたらし、ターンアラウンド時間を大幅に短縮しました。デジタルアーティスト、デザイナー、イラストレーター、ビジュアルコンテンツクリエイターなどのタスクを支援します。アイデアの探索からコンセプトの開発まで、スケッチアップの生成から完成した画像の生成まで、最終的には、私たちの想像力だけが私たちの進歩を制限します。
たとえば、私はPCゲームを作るという趣味があり、最近、ARTAを使用してスキルとアイテムのアイコンのセットを生成しました。私自身でAdobe Illustratorを使用して設計することもできますが、イメージジェネレーターを使用すると、ほぼすぐに必要なものが得られます。私の妻はリタッチャー写真家です。Photoshopのジェネレーティブフィルを使用すると、彼女はより迅速に作業でき、より多くの自由な時間(または、リタッチ依頼を受け入れることを決定した場合はより多くの収入)を持つことができます。
AI生成画像は、うまく作成されれば、プロフェッショナルのアートワークと見分けがつかないほどになります。しかし、私の意見では、AIは真のプロフェッショナルの代わりになることはありません。どれほど高度な神経ネットワークになっても、それらは人間が作成したデータでトレーニングされているため、生成されるものはすべてどこかで既に存在します。過去と同様に、真正な革新的なアイデアは、人間によってのみ生み出されるものです。伝統的な意味でのアートは人間によって作られた作品に関連しているのに対し、AIアートは、新しい体験を試すために、誰でも参加できる、予想されるスピンオフです。
画像の品質の向上に加えて、AIイメージ生成の将来はどのように見えますか。
画像の品質とともに、生成の速度も向上し、自動的にコスト効率の高い出力につながります。
AIが、同じキャラクターを異なる環境やポーズで生成できる簡単な方法が現れるのは、時間の問題だと思います。そうすると、コミック、子供向け本、ゲームグラフィックスなどでAIの隆盛を見せることになるでしょう。インテリアデザインや広告クリエイティブの制作はすでに、生成可能なAIを積極的に活用していますが、技術が進化を続けるにつれて、さらに多くの分野で活用されることになるでしょう。
すべての生成には強力なGPUが必要であることを考えると、これらのテクノロジーはAIとともに長い間発展することになるでしょう。私たちはまだ旅の始まりにあります。もしかしたら、新しいAppleのようなものはNvidiaになるかもしれません。IT業界全体が、iPhoneの新型リリースを待つように、ビデオカードの新リリースを待つことになるかもしれません。
AIイメージジェネレーターは、新しい概念や、より優れたテクノロジーで強化された古いアイデアを紹介することで、楽しく魅力的な体験を続けて提供するでしょう。たとえば、AIベイビージェネレーションの関心は現在高まっています。Stable Diffusionに基づく最近のテクノロジーは、2人の個人の特徴をマージして、生物学的な子供の見た目の可能性を示す、印象的な出力を実証しています。結果は、数年前のホロスコープサイトで利用可能なものをはるかに超えています。人々はもう一度試してみようとします。
生成可能なAIについて、次に何が期待されるかについての予測を教えてください。
ビデオ生成の波は地平線にあります。テクノロジーの進歩が十分なレベルに達すると、人々の顔の表情やジェスチャーを使用してビデオアバターを生成するためのニューラルネットワークをトレーニングする試みが行われることになるでしょう。潜在的に、ユニークなユーザーボイスでそれらを生成することさえ可能になるかもしれません。
AIオーディオは、音楽制作業界に新しい時代をもたらす別の重要なブレークスルーです。このテクノロジーは、テキスト入力のみに基づいて曲を構成するための驚くべき機会を提供し、さまざまな種類のビデオコンテンツのためのカスタムなストック以外のサウンドトラックを作成するための優れたツールとなります。全体として、テキスト入力のみに基づいて作曲された曲を聞くのは本当に楽しいです。たとえば、使用条件をラップしたり、ロマンチックなイントネーションで歌ったりすることができます。
素晴らしいインタビュー、ありがとうございました。詳細を知りたい方や画像を生成したい方は、ARTAを訪れてください。












