Connect with us

访谈

Ernest Piatrovich,ARTA 产品经理 – 采访系列

mm

Ernest Piatrovich 是 AIBY Group 的产品经理,负责领导公司的一款顶级 AI 驱动应用,ARTA – AI 图像生成器,适用于 iPhone 和 Android。他的战略远见和创造性思维使得应用程序在发布后不久就获得了美国应用商店排行榜的第 2 位,全球下载量超过 1500 万,并提供基于独特的内部流水线的最佳性能的 AI 头像等多项成功。

您负责管理 ARTA – AI 艺术生成器,从概念阶段到现在。您能否分享一些关于早期日子的见解?

当然!那是一个动态的时期。我们在仅仅一周内就发布了一个精心制作的应用程序,成为最早提供移动设备上文本到图像生成功能的消费级应用程序创造者之一。我们的目标是构建一个大众市场产品,提供给人们“口袋中的艺术家”。因此,从概念化和早期开发阶段开始,我们就专注于可用性和可扩展性。但尽管我们及时进入了市场,但即使拥有一个出色的媒体购买团队,也很难以适当的程度增加我们的安装量。应用程序发布三个月后,我们的头像功能引起了轰动,安装量迅速增加。从那时起,我们的任务就是维持和增加它。

您最初使用的技术栈是什么?在此期间,艺术生成中存在哪些挑战?

我们基于 Stable Diffusion 1.3 启动,使用 Stability.ai 的官方 API。我应该说,过去和现在的生成质量就像白天和黑夜一样。当我们第一次开始时,我们的 QA 经理经常报告与图像的美观价值或特定概念和特征的准确性相关的问题。然而,这是 Stable Diffusion 当时的标准。现在,生成输出在所有方面都有了显著的改善,包括风格再现、构图连贯性、视觉保真度、细节水平等。

应用程序发布后不久,我们开始在 Amazon 上租用服务器,支持它们被证明是相当具有挑战性的。即使有足够的资金,也可能没有可用的 A100,您需要等待几天。因此,我们不得不在没有自动缩放的情况下生活,将所有多余的流量重定向到我们的合作伙伴的 API。

维护所有这些仍然相当棘手,每个月或如此会出现一些小问题。例如,我们偶尔会遇到临时问题,当提供商更新服务器、测试权重或实施其他影响生成输出的更改时,会出现图像模糊等问题。这些错误可能会持续一小时到半天,并且不可预测且难以跟踪。通常,在我们的支持部门收到用户关于模糊图像或其他出现的问题的报告时,API 提供商已经解决了问题。但是,这是一个严重的问题,影响我们的用户。因此,我们现在正在构建一个系统,将多个提供商和我们自己的服务器结合起来,用于特殊生成,从而使我们能够更好地控制事物的发展。

作为产品经理,您做出了哪些战略决策对 ARTA 的顶级排名位置产生了重要影响?

ARTA(当时称为 Aiby)的早期崛起是由于我们及时决定实施病毒式的头像功能,当时它刚刚开始在社交媒体上流行。我们迅速认识到人们对这一功能日益增长的兴趣。我们的整个团队,包括产品、营销和开发人员,都对其成功有着相同的愿景和远见。我们还意识到,快速上市至关重要。因此,从第一天开始,我们就将所有资源投入到实现这一功能上,将其置于其他任务之上。

由于我们的截止日期是尽快,以免错过 AI 头像达到巅峰的时刻,我们选择使用第三方解决方案并为我们的应用程序进行自定义。虽然头像开始在移动设备上流行,但该技术已经在网上可用了一段时间,甚至有 API。感谢团队的集中努力,我们的第一个可用的版本在仅仅五天内就出现在应用商店中,提供了具有竞争力的头像输出。这帮助我们在美国排行榜上获得了第 2 位,并在一周内成为美国下载量第二的应用程序。

您的团队最近发布了 ARTA 的 AI 头像生成功能的升级。您能否分享一些关于此的详细信息?

AI 模型在训练期间倾向于添加通用面部特征,使头像看起来与原始照片不同,一个人特征越独特,AI 解释就越不像。为了解决这个问题,我们决定创建自己的头像服务。我们已经使用第三方 API 一段时间了,但没有带来显著的改善。通过服务器转换,我们能够设置更优化的训练技术,以更好地保持用户真实面部在头像输出中的相似度。虽然我无法详细说明我们的独特流水线,但它是通过对 SDXL 设置、LORAs 和面部增强器的特定组合实现的,我们还没有看到其他地方有更好的结果。

有了新的服务器,我们从每个头像包的固定成本转变为每月服务器费用,现在可以提供每周订阅而不是需要单独的应用内购买。这为我们的用户创造了更令人满意的体验,如果他们想在一周内生成五个头像包或边走边更改照片输入,这将更加便宜。考虑到上述所有因素,我们的头像提供目前拥有市场上最好的性价比。虽然有一些应用程序可以创建高质量的真实头像,但 ARTA 以提供除真实风格外的多种鲜艳和多彩的输出变体而脱颖而出,所有这些都具有相同的面部识别精度。

除了头像生成之外,团队还如何改进了应用程序的功能?

我们得出结论,使用第三方 API 对于常见的用例(如文本到图像生成、图像转换和修复)更为高效。这一方法消除了我们花费时间将这些功能集成到我们的服务器基础设施中的需要。此外,它还减少了成本,在我们决定删除新功能的情况下。AI 图像生成行业正在迅速发展,许多专用服务可用,因此我们正在探索和逐渐采用符合我们目标的服务。

同时,ARTA 的需求往往非常独特,需要内部发现。在没有合适的 API 或没有提供令人满意的输出质量的情况下,我们专门开发和自定义内部服务,以实现我们想要的结果。例如,除了升级 AI 头像外,我们的机器学习和提示工程师还为应用程序的 AI 滤镜(自拍)功能开发了一个新的流水线。我们还为即将推出的 AI 宝宝功能开发了一个独特的算法,该功能允许两个人合并他们的照片并查看他们的孩子可能的样子。基于我作为产品经理的看法,我最初对其成功表示怀疑,但以这种概念为特色的广告创意非常受欢迎。因此,查看营销洞察尤其有助于内容相关的案例。

用户是否可以影响 ARTA 的艺术过程?如果可以,用户有哪些工具和选项可用于自定义 AI 生成的艺术作品?

我们处理与生成相关的所有复杂方面,旨在为我们的用户提供无需不必要的技术负担的直接艺术体验。因此,用户影响输出的主要方式是通过提示。我们通过显示将被发送到模型的确切单词请求来使此过程保持透明,并且只在需要时提供提示的帮助。

我们为每个集成模型选择最佳的默认设置,因此用户无需担心此问题。通常,不需要调整它们以最大化结果,因为它们已经可以产生最佳的生成输出。然而,如果用户想尝试,高级模式只是一个点击距离,某些更深入的参数位于设置部分。

很快,我们将添加一个种子参数,允许用户在需要从头开始重现相同的图像时完全控制生成。另外,我们计划扩展方面比的列表。我们还正在考虑添加几个控制网到常规生成中。它们已经在服务器端得到支持,因为我们使用它们来生成 AI 滤镜和草图,但它们尚未传递给最终用户。

您如何看待像 ARTA 这样的 AI 对传统艺术市场的影响?您是否将 AI 艺术生成视为对艺术行业的颠覆或增强?

我认为它是增强。生成性 AI 引入了新的和有价值的机会来增强艺术过程,同时显著减少了周转时间。它帮助数字艺术家、设计师、插画师和其他视觉内容创作者完成各种任务,从探索想法和开发概念到生成草图和成品图像。最终,我们利用其进步的能力仅受我们想象力的限制。

例如,我有一个爱好,就是创建 PC 游戏,最近我使用 ARTA 生成了一套技能和物品的图标。我可以使用 Adobe Illustrator 自行设计,但有了图像生成器,我几乎可以立即获得所需的结果。我的妻子是修饰照片师,多亏了 Photoshop 的生成填充,她的工作效率更高,拥有更多的空闲时间(或者,如果她决定接受更多的修饰订单,她可以获得更多的收入)。

当做得好时,AI 生成的图像可以与专业艺术作品无法区分。然而,在我看来,AI 永远无法取代真正的专业人士。无论神经网络变得多么擅长,它们仍然是基于由人类创建的数据进行训练,这意味着它们生成的所有内容都已经在某个地方存在。与过去一样,真正的创新想法只能由人类产生。虽然传统的艺术含义仍然与人类创作的作品相关联,但 AI 艺术就像一个预期的衍生品,邀请每个人(无论是否具有艺术背景)尝试一个令人兴奋的新体验。

除了提高图像质量之外,AI 图像生成的未来会如何发展?

随着图像质量的提高,生成速度也会增加,这将自动带来更具成本效益的输出。

我认为,不久之后,将会有一个简单的方法来生成相同的角色在不同环境和位置中,这样我们将会看到 AI 在漫画、儿童书籍、游戏图形等方面的崛起。室内设计和广告创意生产已经是积极利用生成性 AI 的领域,但随着技术的不断发展,还会有更多的应用。考虑到所有生成都需要强大的 GPU,这些技术将会随着 AI 的发展而发展。我们才刚刚开始这段旅程。也许新时代的苹果将是英伟达,每个人,或者至少 IT 行业的人,都会期待新的显卡发布,就像我们曾经期待 iPhone 一样。

AI 图像生成器将继续提供有趣和吸引人的体验,无论是通过引入来自流行文化的新概念还是通过更好的技术来复兴旧的想法。例如,目前对 AI 宝宝生成的兴趣正在增长。基于 Stable Diffusion 的一项最近的技术已经展示了令人印象深刻的输出,通过合并两个个体的特征来显示他们的生物孩子的潜在外貌。结果远远超过了几年前在占星网站上可用的内容,人们渴望再次尝试。

您对生成性 AI 的未来预测是什么?

视频生成的热潮即将到来。随着技术达到足够的水平,毫无疑问会有人尝试使用人们的面部表情和手势来训练神经网络,生成视频头像,甚至可能具有独特的用户声音。

AI 音频是另一个重大的突破,开启了音乐制作行业的新时代。这项技术已经为基于纯文本输入的歌曲创作提供了令人惊叹的机会,使其成为创建自定义非股票音轨的视频内容的优秀工具。总的来说,听一些平凡的东西,如服务条款,以说唱或浪漫的语调演唱,真是非常有趣。

感谢这次精彩的采访,希望了解更多或生成一些图像的读者可以访问 ARTA

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。