人工智能
可以让人物图像变得更“美丽”的人工智能系统
来自中国的研究人员开发了一种新的基于人工智能的图像增强系统,该系统基于一种新颖的强化学习方法,能够使人的图像更加“美丽”。
该技术借鉴了为 EigenGAN 生成器是另一个中国项目,从 2021 年开始,在识别和获得对多样化的控制权方面取得了显着进展。 语义属性 在生成对抗网络(GAN)的潜在空间内。
该系统利用了一个“美学评分网络”,该网络源自 华南理工大学-FBP5500 (SCUT),来自广州华南理工大学的 2018 年面部美容预测基准数据集。
与新作品不同,2018 年的项目实际上无法执行转换,但包含由 5,500 个混合性别标签提供者(比例为 60/50)提供的 50 张面孔的算法价值判断。 这些已被纳入新系统作为有效的 判别器,告知可能增强图像“吸引力”的转换。
有趣的是, 新文 标题为 通过美学驱动的强化学习生成可控的美丽白种人脸。 除白人以外的所有种族都被排除在系统之外(还考虑到研究人员本身就是中国人)的原因是华南理工大学的源数据明显偏向于亚洲来源(4000 名亚洲女性/男性均等,1500 名白人女性均等) /males),使该数据集中的“普通人”为棕色头发和棕色眼睛。
因此,为了至少适应一个种族内的肤色变化,有必要从原始数据中排除亚洲成分,否则需要花费大量费用来重建数据以开发一种可能不会成功的方法。 此外, 对美的文化认知的差异 不可避免地意味着此类系统需要某种程度的地理可配置性来确定“吸引力”的构成。
相关属性
为了确定一个人的“有吸引力”照片的主要影响因素,研究人员还测试了图像的各种变化的影响,即这些增强对“美”的算法感知的增强程度。 他们发现,对于优秀的摄影来说,至少有一个方面比良好的遗传学更为重要:
除了灯光之外,对美感得分影响最大的方面还包括刘海(对于男性来说,刘海通常相当于拥有一头完整的头发)、身体姿势和眼神(与对方的互动)相机视角会增强吸引力)。
(关于“口红颜色”,新系统可以有效地处理男性和女性的性别呈现,不会个体化性别外观,而是依赖新颖的鉴别器系统作为这方面的“过滤器”)
付款方式
新系统中强化学习机制的奖励函数由华南理工大学数据的直接回归驱动,输出面部美容预测。
训练系统迭代数据输入图像(下图中的左下角)。 最初是预训练的 残差网络18 模型(训练于 影像网)从五个相同的('y')图像中提取特征。 接下来,从隐藏状态导出潜在的变革动作 全连接层 (格鲁细胞,如下图所示),以及应用的转换,导致五个改变的图像被输入到美学评分网络中,其达尔文式的排名将决定哪些变体将被开发,哪些变体将被丢弃。
美学评分网络使用高效通道注意力(ACE) 模块,同时改编了预训练实例 EfficientNet-B4 任务是从每张图像中提取 1,792 个特征。
经过标准化后 ReLU激活函数,从 ECA 模块获得一个 4 维向量,然后在激活后将其展平为一维向量 自适应平均池化。 最后将结果输入到 回归网络,它检索美学分数。
测试和用户研究
使用 Fréchet 起始距离(FID, 在某些方面存在争议)为通过系统传输的总共 1000 张图像分配分数。
研究人员指出,与其他几种更“明显”的可能变化(即所描绘的人的实际外观)相比,改善照明可以为照片中的拍摄对象带来更好的吸引力得分。
在某种程度上,以这种方式测试系统受到华南理工大学数据怪异的限制,华南理工大学数据没有太多“灿烂的笑容”,作者认为这可能会过度排名中更典型的“神秘”外观。将数据与潜在目标最终用户(在本例中可能是西方市场)的可能偏好进行比较。
然而,由于整个系统仅依赖于 60 个人的平均意见(在 EigenGAN 论文中),并且由于所研究的质量远非经验性的,因此可以说该程序比数据集更合理。
尽管论文中对此进行了非常简短的讨论,但来自 EigenGAN 的图像和系统自身的五个变体也在有限的用户研究(八名参与者)中显示,他们被要求选择“最佳图像”(“有吸引力”这个词是避免)。
结果表明,新系统的输出在参与者中实现了最高的选择率(上图中的“MAES”)。
对美的(漫无目的?)追求
这种系统的实用性很难确定,尽管它看起来是一个 显着 座位 of 努力 in 中国 朝着这些目标。 新出版物中没有概述任何内容。
之前的 EigenGAN 论文建议*美貌识别系统可以用于面部识别 彩妆合成推荐系统, 美容手术, 脸部美化,或基于内容的图像检索。
据推测,最终用户也可以在约会网站中使用这种方法,将自己的个人资料照片“增强”为有保证的“幸运照片”,作为使用过时照片或照片的替代方法 其他人.
同样,约会网站本身也可以对客户进行“评分”以创建评级,甚至 限制访问层,尽管这可能只能通过活体认证捕获来工作,而不是提交照片(如果这种方法变得流行,这同样可以由客户“增强”)。
在广告中,一种评估美感的算法方法(已故科幻小说作家迈克尔·克莱顿 (Michael Crichton) 在其 1982 年的电影中预言的一项技术 旁观者)可用于选择最有可能吸引目标受众的非增强创意输出,而实际上最大化面部图像的美学影响而不以深度伪造的方式实际覆盖它们的能力可以增强已经有效的预期图像以引起公众的兴趣。
这项新工作得到了国家自然科学基金委、复杂系统管理与控制国家重点实验室开放基金项目、教育部哲学社会科学研究项目等的支持。
* EigenGAN 论文的许多建议都指向 2016 年出版的一本名为“面部美容分析的计算机模型”的商业书籍,而不是学术资源。
首次发布于 11 年 2022 月 XNUMX 日。