δΈΊAIεε±θ΅δΊε
θ§ζη₯
一个新的AI数据集通过将气味数据与图像关联,教会机器识别气味,使模型能够将气味与物体、场景和材料相匹配。 或许是因为气味输出机器有着如此斑驳的历史,嗅觉在AI研究文献中是一个相当被忽视的感官。除非你打算为这场持续了(迄今为止超过一个世纪)的嗅觉视觉传奇再添一笔,否则与图像、音频和视频数据集以及由此训练的AI模型的潜在开发利用相比,其应用场景似乎总是显得相当“小众”。事实上,将炸弹探测犬、尸体搜寻犬、疾病嗅探犬以及其他各种类型的犬类嗅探单元所提供的检测能力自动化、工业化和普及化,对于市政和安全服务而言将是一个显著的好处。尽管需求远超供应,但训练和维护探测犬是一项昂贵的业务,并且并不总能提供良好的性价比。迄今为止,涉足该领域的大部分研究都局限于实验室,其精选的数据集通常包含具有手工制作特征的样本——这种模式更倾向于定制化的作坊式解决方案,而非工业化应用。嗅觉领先一步在这种颇为陈腐的氛围中,美国一项有趣的学术/产业合作应运而生。一个研究团队花费了数月时间,在纽约市的室内外环境中对多种气味进行分类编目——并且首次收集了与捕获气味相关的图像:这项研究促使新论文的作者对广受欢迎的对比语言-图像预训练(CLIP)框架进行了一种变体设计,该框架连接文本和图像;新框架名为对比嗅觉-图像预训练(COIP)——它连接的是气味和图像。这个名为纽约气味的新数据集包含了7,000个气味-图像配对,涉及3,500个不同的物体。在测试训练中,新数据被发现优于先前数量相对较少的类似数据集中流行的手工制作特征。作者希望他们的初步尝试能为后续工作铺平道路,推动设计用于在野外运行的嗅觉检测系统,其方式与嗅探犬非常相似*:‘我们将这个数据集视为迈向野外多模态嗅觉感知的一步,也是连接视觉与嗅觉的一步。虽然传统上嗅觉研究多在受限环境中进行,例如质量保证,但在自然环境中存在许多应用。‘例如,作为人类,我们不断……我们经常利用嗅觉来评估食物质量、识别危险以及探测看不见的物体。“此外,许多动物,如狗、熊和老鼠,表现出超人类的嗅觉能力,这表明人类的嗅觉感知远未达到机器能力的极限。”尽管这篇新论文,标题为New York Smells: A Large Multimodal Dataset for Olfaction,承诺将发布数据和代码,但一个27GB的数据文件已经可以通过论文的项目网站获取。这篇论文由来自哥伦比亚大学、康奈尔大学和Osmo Labs的九位研究人员共同完成。方法为了收集新数据集所需的材料,研究人员使用了Cyranose 320电子鼻,并在其前部进气口上方安装了一部iPhone,以视觉方式捕捉正在记录的气味:Cyranose设备以2Hz的频率运行,记录32维的嗅觉时间步长。挥发性有机化合物(VOC)浓度使用MiniPID2 PPM WR传感器记录。这个便携式单元作为一个灵活的传感器运行,将数据传送到计算能力更强的移动站进行处理。为了将目标气味置于上下文中,首先记录一个“基线气味”,然后用Cyranose的“鼻口”直接对准更具体的物体。环境样本随后从设备的一个侧端口采集,以确保其距离主要气味源足够远,不受污染。通过传感器的主进气口采集了两个样本,每个十秒钟的录音从物体周围的不同位置捕捉,以提高数据效率。然后将这些样本与环境基线结合,形成一个28×32的矩阵,代表完整的嗅觉测量:数据与测试视觉语言模型(VLM)被用来自动标记Cyranose装置中iPhone捕捉到的物体和材料,其中使用了GPT-4o来完成此任务;然而,场景类别是手动标记的:数据集被划分为训练集和验证集分割,每个物体的两个样本都被分配到同一个分割中,以避免交叉污染。最终的数据集包含来自3,500个未标记物体的7,000个嗅觉-视觉配对,以及70小时的视频和来自基线及样本阶段的196,000个时间步长的原始嗅觉数据。数据是在两个月内的60次会话中收集的,涵盖公园、大学建筑、办公室、街道、图书馆、公寓和食堂,并进行了多次采为了开发通用的嗅觉表征,作者训练了一个对比模型,以关联数据集中同步的图像-气味对。这种方法,即前述的COIP,使用了一种改编自CLIP的损失函数,以对齐共现的视觉和嗅觉信号的嵌入。训练同时使用了视觉编码器和嗅觉编码器,目标是教导模型在共享的表征空间中拉近匹配的气味和图像。由此产生的表征支持一系列下游任务,包括气味到图像的检索、场景和物体识别、材料分类以及细粒度的气味辨别。该模型使用两种类型的嗅觉输入进行训练:完整的原始传感器信号和一种被称为气味图谱的简化手工摘要——这是嗅觉研究中广泛使用的特征,通过比较采样期间的峰值电阻与环境基线期间的平均电阻,将每个传感器的响应压缩为单个数字。相比之下,在纽约市各处收集的原始输入包含来自Cyranose设备内部32个化学传感器的时间序列,记录了每个传感器的电阻如何随时间变化以响应气味。在数据集的整理过程中,这种未经处理的信号被直接输入神经网络,允许使用卷积或基于Transformer的骨干网络进行端到端学习。模型使用气味图谱和从纽约市各种环境中收集的原始输入进行训练,两种输入类型都通过对比学习进行了评估。跨模态检索跨模态检索的评估方式是将每个气味样本及其配对图像嵌入到一个共享的表征空间中,并测试是否能够仅基于嗅觉输入检索到正确的图像。排名由每个图像嵌入与查询气味在此空间中的接近程度决定,性能使用平均排名、中位数排名和多个阈值下的召回率来衡量:关于这些结果,作者指出:‘在所有指标上,使用气味图谱进行对比预训练的表现都优于随机猜测。然而,与架构无关,在原始嗅觉信号上训练嗅觉编码器相比气味图谱编码器带来了显著的改进。‘这显示了原始嗅觉数据中更丰富的信息,释放了视觉和嗅觉之间更强的跨模态关联。’作者还指出,检索结果显示出清晰的语义模式:‘我们模型的检索结果经常显示出语义分组。’一本书的气味唤起其他书籍的意象,树叶的气味唤起枝叶的意象。“这些结果表明,学习到的表征捕捉到了有意义的跨模态结构。”场景、物体与材料识别通过训练模型仅根据嗅觉数据来识别场景、物体和材料,评估了模型在没有视觉输入的情况下识别气味的能力;为此,使用了一个线性探针(在冻结的表征上训练的简单分类器)来评估学习到的气味嵌入中编码了多少信息。标签是使用 GPT-4o 从训练集中的配对图像中推导出来的——但在分类过程中仅使用了嗅觉信号。测试了几种编码器类型:一些随机初始化,一些从头开始训练,还有一些使用对比学习进行训练,以使气味和视觉在共享的表征空间中对齐,并对原始数据和气味图谱进行了评估:当使用原始嗅觉数据时,尤其是在使用跨模态监督训练的模型中,获得了显著更高的准确率。作者评论道**:“在原始感官输入上训练的模型也比使用手工制作的气味图谱特征训练的模型实现了更高的准确率。这些结果表明,从原始嗅觉信号进行深度学习明显优于手工制作的特征。”细粒度区分为了评估是否可以学习细粒度的气味区分,研究人员基于同一校园草坪上共存的两种草种建立了一个基准。在六个30分钟的采样过程中交替收集样本,得到256个示例。在嗅觉-视觉对比学习提取的特征上训练了一个线性分类器,并在一个包含42个样本的保留集上进行了评估:研究人员在此指出:“在原始嗅觉传感器信号(而非手工制作的特征)上训练可获得最高的准确率——超过了所有基于气味图谱的变体。“这些结果表明,嗅觉-视觉学习比使用气味图谱的学习保留了更细粒度的信息,并且视觉监督为利用这些信息提供了信号。”结论尽管气味合成问题在未来的很长一段时间内可能仍将是一个未解决的难题,但一个有效且经济实惠的、可在野外使用的气味分析系统却具有巨大的目前,相关设备属于小众且通常相当昂贵;因此,要在“嗅觉人工智能”检测领域取得真正进展,似乎需要一款具有远见、价格亲民的传感器,其精神应类似于 Raspberry PI。 * 作者文内引注已由我转换为超链接。** 请注意,源论文中还有更多插图(图8),但在该上下文中查看效果最佳。首次发布于2025年11月28日,星期五