访谈
艾尼斯特·皮亚特罗维奇,ARTA 产品经理 – 采访系列

艾尼斯特·皮亚特罗维奇是AIBY集团的产品经理,负责领导公司的顶级AI驱动应用程序之一,ARTA – AI图像生成器,适用于iPhone和Android。他的战略远见和创造性思维使得应用程序在发布后不久就登上了美国应用商店的第二名,并在全球下载量超过1.5亿次,提供基于独特的内部流水线的最佳性能的AI头像等。
您负责管理ARTA – AI艺术生成器,从概念阶段到现在。您能否分享一些关于早期日子的见解?
当然!那是一个动态的时期。我们在仅仅一周内就发布了一个精心制作的应用程序,成为最早在移动设备上提供文本到图像生成功能的消费级应用程序创作者之一。我们的目标是建立一个大众市场产品,为人们提供“口袋中的艺术家”。因此,从概念化和早期开发阶段开始,我们就专注于可用性和可扩展性。但尽管我们及时进入了市场,还是很难以增加我们的安装量到足够的程度,即使我们有一个出色的媒体购买团队。三个月后,应用程序发布后,我们的头像功能就变得流行起来,安装量迅速增加到中等水平,之后我们的任务就是维持和增加它。
最初的技术栈是什么?在此期间,艺术生成中存在哪些挑战?
我们基于Stable Diffusion 1.3使用了Stability.ai的官方API。我应该说,现在和当时的生成质量就像白天和黑夜一样。当我们第一次开始时,我们的QA经理经常报告与图像的美观价值或特定概念和特征的不准确性有关的问题。然而,这是当时Stable Diffusion的标准。现在,生成输出在所有方面都有了显著的改善,包括风格再现、构图一致性、视觉保真度、细节水平等。
应用程序发布后不久,我们开始在亚马逊租用服务器,维护它们被证明是相当具有挑战性的。即使有足够的资金,当你需要时,也可能没有可用的A100,你将不得不等待几天。因此,我们不得不在没有自动缩放的情况下生活,将所有多余的流量重定向到我们的合作伙伴的API。
维护所有这些仍然相当棘手,每个月或如此会出现一些小问题。例如,我们偶尔会遇到临时的问题,当提供商更新服务器、测试权重或实施其他影响生成输出的更改时,会出现模糊的图像或其他问题。这些错误可能会持续从一小时到半天,并且难以预测和跟踪。通常,在我们的支持部门收到用户关于模糊图像或其他问题的报告时,API提供商已经解决了问题。但是,这是一个严重的问题,影响我们的用户。因此,我们现在正在建立一个结合多个提供商和我们自己的服务器的系统,用于特殊生成,这样我们就可以更好地控制事物。
作为产品经理,您做出了哪些战略决策,导致ARTA在发布后不久就登上了榜首?
ARTA(当时称为Aiby)的早期崛起是由于我们及时实施了头像功能,当时它刚刚开始在社交媒体上流行。我们迅速认识到这种功能日益增长的兴趣。我们的整个团队,包括产品、营销和开发,都对其成功有着相同的愿景和远见。我们还认识到快速上市的重要性。因此,从第一天开始,我们将所有资源投入到实现这一功能上,将其置于其他任务之上。
由于我们的截止日期是尽快,以免错过AI头像达到巅峰的时刻,我们选择使用第三方解决方案并将其定制为我们的应用程序。虽然头像在移动设备上刚刚开始流行,但该技术已经在网上可用了一段时间,甚至有API。感谢团队的集中努力,我们的第一个可用的版本在五天内就上了应用商店,提供了具有竞争力的头像输出。这帮助我们在美国排行榜上排名第二,并在一周内成为美国下载量第二的应用程序。
您的团队最近发布了ARTA的AI头像生成功能的升级。您能否分享一些关于此的详细信息?
AI模型在训练过程中往往会添加通用面部特征,使头像看起来与源照片不同,一个人特征越独特,AI解释就越不像。为了解决这个问题,我们决定创建自己的头像服务。我们已经使用第三方API有一段时间了,但没有显著的改进。通过服务器转换,我们能够设置更优化的训练技术,以更好地保持用户真实面部在头像输出中的相似性。虽然我不能详细介绍我们的独特流水线,但它是通过SDXL设置、LORAs和面部增强器的特定组合实现的,我们还没有看到其他地方有更好的结果。
有了新的服务器,我们从每个头像包的固定费用转移到了每月的服务器费用,现在我们可以提供每周订阅来生成头像,而不是需要单独的应用内购买。这为我们的用户创造了更充实的体验,如果他们想在一周内生成五个头像包或更改照片输入,这将更加便宜。考虑到所有这些,我们的头像产品目前拥有市场上最好的性价比。虽然有一些应用程序可以创建高质量的逼真头像,但ARTA凭借其多样化的明亮和色彩丰富的输出变体以及相同的精确面部识别水平而脱颖而出。
您的团队如何改进应用程序的其他功能?
我们得出结论,使用第三方API对于常见的用例(如文本到图像生成、图像转换和修复)更为高效。这消除了我们将这些功能集成到服务器基础设施中的需要。此外,它还减少了成本,当我们决定删除新功能时。AI图像生成行业正在迅速发展,许多专用服务都可用,我们正在探索并逐渐采用符合我们目标的服务。
同时,ARTA的需求往往是非常独特的,需要内部发现。在没有合适的API或API输出质量不令人满意的情况下,我们专门开发和定制内部服务和解决方案,以实现我们想要的结果。例如,除了升级AI头像外,我们的机器学习和提示工程师还为应用程序的AI过滤器(自拍)功能开发了一个新的流水线。我们还为即将推出的AI宝宝功能开发了一个独特的算法,该功能允许两个人合并他们的照片并查看他们的孩子可能的样子。根据我对世界的看法,作为一名产品经理,我最初对其成功表示怀疑,但以这个概念为特色的广告创意非常受欢迎。因此,查看营销见解在内容相关的案例中尤其有帮助。
用户是否可以影响ARTA的艺术创作过程?如果可以,用户可以使用哪些工具和选项来自定义AI生成的艺术作品?
我们处理所有与生成相关的复杂方面,旨在为用户提供一个简单的艺术体验,而不需要不必要的技术负担。因此,用户影响输出的主要方式是通过提示。我们通过显示将被发送到模型进行生成的确切单词请求来保持此过程的透明度,只有在需要时才提供有关组成有效提示的帮助。
我们为每个集成模型选择最佳的默认设置,因此用户无需担心此问题。通常情况下,不需要调整它们以最大化结果,因为它们已经可以产生最佳的生成输出。然而,如果用户想尝试,高级模式只需点击一下,一些更深入的参数在设置部分。
不久,我们将添加一个种子参数,允许用户完全控制生成,当他们需要从头开始重现一个相同的图像时。另外,我们计划扩展纵横比的列表。我们还在考虑添加几个控制网到常规生成中。它们已经在服务器端得到支持,因为我们使用它们来生成AI过滤器和草图,但它们尚未交付给最终用户。
您如何看待AI像ARTA对传统艺术市场的影响?您是否将AI艺术生成视为对艺术行业的颠覆或增强?
我认为它是增强。生成式AI引入了新的和有价值的机会来增强艺术过程,同时显著减少了周转时间。它帮助数字艺术家、设计师、插画家和其他视觉内容创作者完成了从探索想法和开发概念到生成草图和成品图像的各种任务。最终,我们利用其进步的能力仅受我们的想象力限制。
例如,我有一个创建PC游戏的爱好,最近我使用ARTA为技能和物品生成了一套图标。我可以使用Adobe Illustrator自己设计它们,但有了图像生成器,我几乎可以立即得到我需要的东西。我的妻子是一位修图师-摄影师。感谢Photoshop的生成填充,她的工作速度更快,有更多的空闲时间(或更高的收入,如果她决定接受更多的修图订单)。
当做得好时,AI生成的图像可以看起来与专业艺术品无法区分。然而,在我看来,AI永远不会取代真正的专业人士。无论神经网络变得多么擅长,它们都是在由人类创造的数据上进行训练的,这意味着它们生成的所有内容都已经在某个地方存在。与过去一样,真正创新的想法只能由人类产生。虽然传统的艺术含义仍然与人类创作的作品相关,但AI艺术就像一个预期的衍生品,邀请每个人,无论是否有艺术背景,都来尝试一个令人兴奋的新体验。
除了提高图像质量之外,AI图像生成的未来会如何发展?
随着图像质量的提高,生成速度也会增加,从而自动带来更具成本效益的输出。
我认为,不久之后,就会有一个简单的方法来生成相同的角色在不同的环境和位置中,这样我们就会看到AI在漫画、儿童书籍、游戏图形等领域的崛起。室内设计和广告创意制作已经是积极利用生成式AI的领域,但随着技术的不断发展,还会有更多的应用。
考虑到所有生成都需要强大的GPU,这些技术将与AI一起发展一段时间。我们现在才刚刚开始这段旅程。也许新时代的苹果将是Nvidia,每个人,或者至少IT行业的人,都在期待新的视频卡发布,就像我们曾经对iPhone那样。
AI图像生成器将继续提供有趣和吸引人的体验,无论是通过引入来自流行文化的新概念还是通过更好的技术重现旧的想法。例如,目前对AI婴儿生成的兴趣正在增长。最近基于Stable Diffusion的技术展示了令人印象深刻的输出,通过合并两个个体的特征来显示他们的生物学孩子的潜在外貌。结果远远超过了几年前在占星网站上可用的内容,人们渴望再次尝试。
您对生成式AI的未来预测是什么?
视频生成的热潮即将到来。随着技术的进步达到足够的水平,毫无疑问会有人尝试使用人们的面部表情和手势来训练神经网络,创建视频头像,甚至可能具有独特的用户声音。
AI音频是另一个重大的突破,开启了音乐制作行业的新时代。这种技术已经为基于文本输入的歌曲创作提供了令人惊叹的机会,使其成为创建各种视频内容的自定义非库音轨的优秀工具。总的来说,听一些平凡的东西,如服务条款,以浪漫的语调朗诵或唱歌,真的很有趣。
感谢这次精彩的采访,希望读者能够了解更多信息或生成一些图像,请访问ARTA。












