Anderson 视角
为 AI 开发带来嗅觉

一个新的 AI 数据集教会机器通过将气味数据与图像关联来嗅觉,让模型将气味与物体、场景和材料匹配。
也许是因为气味输出机器有着复杂的历史,嗅觉在 AI 研究文献中是一个相对被忽视的感官。除非你计划制作另一个气味视觉的续集,否则用例似乎相当“小众”,与图像、音频和视频数据集以及从中训练的 AI 模型相比。
事实上,自动化、工业化和普及炸弹犬、尸体犬、疾病嗅探犬和其他类型的犬类嗅探单位所提供的检测设施,将会在市政和安全服务中带来显著的好处。尽管需求很高,但供应不足,训练和维护检测犬是一项昂贵的业务,并不总是提供良好的价值。
到目前为止,大多数研究都局限于实验室,使用手工制作的特征的数据集,这更像是一种定制的解决方案,而不是工业化应用。
领先一步
在这个背景下,来自美国的一项新的学术/工业合作引人注目。研究人员花了几个月的时间在纽约市的室内和室外环境中收集多种气味,并首次收集与这些气味相关的图像:

注意中央传感器,即嗅觉设备的“鼻子”。仅通过嗅觉训练,模型可以猜测它正在嗅探花岗岩、塑料还是皮革,并且可以在不看到任何像素的情况下识别它所在的房间。来源:https://smell.cs.columbia.edu/
这项研究导致作者提出了一种新的方法,基于CLIP框架,将文本和图像关联起来,提出了一种新的方法,即将气味和图像关联起来,称为COIP。

顶部:在自然环境中使用相机-电子鼻设备捕获同步的视频和嗅觉传感器数据。底部左侧(b):通过跨模式自监督学习联合嵌入。 (c):系统根据嗅觉查询检索视觉匹配。 (d):单个气味样本用于分类环境、物体和材料类别。 (e):没有视觉输入,高相似度的气味(如两种类型的草)被区分开来。来源:https://arxiv.org/pdf/2511.20544
新的数据集,称为New York Smells,包含7,000个气味-图像对,具有3,500个不同的物体。当在测试中训练时,新的数据被发现优于流行的手工制作特征在相似的数据集中。
作者希望他们的初步尝试将为后续工作铺平道路,朝着野外环境中的嗅觉检测系统发展,类似于嗅探犬的工作方式*:
‘我们认为这个数据集是朝着野外环境中的多模式嗅觉感知以及将视觉与嗅觉联系起来迈出的一步。虽然嗅觉传统上是在受限的环境中进行的,例如质量保证,但在自然环境中有许多应用。 ‘
‘例如,作为人类,我们不断使用我们的嗅觉来评估食物的质量,识别危险和检测看不见的物体。 ‘
‘此外,许多动物,如狗、熊和老鼠,表现出超人类的嗅觉能力,表明人类的嗅觉感知远远没有达到机器的能力极限。 ‘
尽管新论文承诺将数据和代码发布,但27GB的数据文件已经通过项目网站提供。该论文由九位研究人员共同完成,来自哥伦比亚大学、康奈尔大学和Osmo Labs。
方法
为了收集新数据集的材料,研究人员使用了Cyranose 320电子鼻,并在其上安装了iPhone以捕获嗅觉注册的视觉内容:

手持式传感器设备通过将iPhone相机安装在Cyranose 320电子鼻上,收集成对的视频和气味数据。设备的“鼻子”指向物体,而排气和净化进气口在采样过程中管理气流。RGB-D相机捕获深度,而挥发性有机化合物(VOC)浓度、温度和湿度通过集成传感器(包括比例-积分-微分(PID)模块和环境探测器)记录。
Cyranose设备以2Hz运行,记录32维的嗅觉时间步。挥发性有机化合物(VOC)浓度使用MiniPID2 PPM WR传感器记录。
便携式单元作为灵活的传感器,向更强大的移动站传输数据进行处理。
为了将目标气味放在上下文中,首先注册一个“基线气味”,然后使用Cyranose的“鼻子”直接针对更具体的物体。然后,从单元的侧端口采集环境样本,以确保它与主要气味源保持足够的距离,不会被污染。
通过主传感器入口采集两个样本,每个样本都是从物体周围不同的位置采集的10秒钟记录,以提高数据效率。然后将这些样本与基线气味结合,形成一个28×32矩阵,代表完整的嗅觉测量:

该示例显示花的信号和对应的图像。完整的嗅觉信号由一个28×32矩阵组成,结合了14帧的基线气味和从目标物体周围不同角度采集的两个10秒钟样本。
数据和测试
视觉语言模型(VLMs)用于自动标记iPhone在Cyranose设备中捕获的物体和材料,使用GPT-4o执行此任务;然而,场景类别是手动标记的:

源论文中详细插图的简要示例,展示了项目中捕获的各种气味来源和环境。
数据集被分为训练和验证拆分,每个物体的两个样本都分配到同一个拆分中,以避免交叉污染。最终集合包含7,000个嗅觉-视觉对,来自3,500个未标记的物体,以及70小时的视频和196,000个原始嗅觉数据的时间步长,来自基线和样本阶段。
数据在两个月的时间内跨60个会话收集,涵盖公园、大学建筑、办公室、街道、图书馆、公寓和餐厅,多个会话在每个位置进行。所得数据集包含41%的室外环境和59%的室内环境。
为了开发通用嗅觉表示,作者训练了一个对比模型,将数据集中的同步图像-气味对关联起来。这种方法,即前面提到的COIP,使用一个从CLIP改编的损失函数,将共现的视觉和嗅觉信号的嵌入对齐在一个共享的表示空间中。
训练使用了视觉编码器和嗅觉编码器,目标是教会模型将匹配的气味和图像在共享的表示空间中更接近。所得的表示支持一系列下游任务,包括气味到图像检索、场景和物体识别、材料分类和细粒度气味区分。
模型使用两种类型的嗅觉输入进行训练:原始原始传感器信号和一种称为气味打印的简化摘要,广泛用于嗅觉研究的特征,它通过比较采样期间的峰值电阻与基线电阻将每个传感器的响应压缩为一个数字。
相比之下,原始输入记录了Cyranose设备内32个化学传感器的时间序列,捕获了每个传感器的电阻如何随时间变化以响应气味。
对于数据集的策展,这个未处理的信号直接输入神经网络,允许使用卷积或变换器作为骨干进行端到端学习。使用对比学习评估了使用气味打印和原始输入的模型,这些输入来自纽约市的各种环境。
跨模式检索
通过将每个气味样本和其配对图像嵌入到共享表示空间中,并测试是否可以仅根据嗅觉输入检索正确的图像来评估跨模式检索:
排名由图像嵌入与查询气味在此空间中的接近度确定,性能使用平均排名、中位排名和召回率在多个阈值下进行测量:

不同气味编码器的跨模式检索准确率,显示每个模型根据气味查询识别正确图像的能力。结果比较了使用原始气味信号和使用气味打印的架构。
关于这些结果,作者指出:
‘使用气味打印的对比预训练在所有指标中都优于偶然性。然而,在原始气味信号上训练嗅觉编码器(而不是手工特征)会显著提高性能,无论架构如何。 ‘
‘这表明原始气味数据中存在更丰富的信息,解锁了更强的跨模式关联。 ‘

源论文第七个插图的详细信息,在此处无法有意义地复制。这里显示了跨模式检索示例,展示了模型如何将气味与匹配图像关联起来。每行从气味查询开始,接着是共享嵌入空间中排名靠前的图像预测。每个查询的正确图像用绿色突出显示,说明了来自书籍、植物、砖石和其他材料的气味如何将模型引向视觉和语义相关的场景。
作者还指出,检索结果显示出明显的语义模式:
‘我们的模型的检索结果通常显示语义分组。书籍的气味检索其他书籍的图像,叶子的气味检索树叶的图像。 ‘
‘这些结果表明,学习到的表示捕获了有意义的跨模式结构。 ‘
场景、物体和材料识别
通过训练模型仅使用嗅觉数据来识别场景、物体和材料来评估模型识别气味而无需视觉输入的能力;为此,使用了一个线性探测器(一个在冻结表示上训练的简单分类器)来评估学习到的嗅觉嵌入中编码了多少信息。
标签从训练集的配对图像中使用GPT-4o派生而来,但仅在分类期间使用嗅觉信号。
测试了几种编码器类型:一些随机初始化,一些从头开始训练,还有一些使用对比学习来在共享表示空间中对齐嗅觉和视觉,评估了原始数据和气味打印:

仅使用嗅觉信号评估场景、材料和物体的分类准确率。原始传感器输入优于气味打印,使用从头开始训练的CNN产生了最高的结果,包括99.5%的场景。SSL预训练在某些情况下有所帮助,但通常被监督训练所超越。随机权重基线表明,模型容量本身是不够的。
当使用原始嗅觉数据时,获得了显著更高的准确率,特别是在使用跨模式监督训练的模型中。作者评论道**:
‘在原始传感器输入上训练的模型也比使用手工制作的气味打印特征的模型取得了更高的准确率。这些结果表明,从原始嗅觉信号中进行深度学习比手工制作的特征更好。 ‘
细粒度区分
为了评估是否可以学习细粒度的气味区分,构建了一个基准,使用了同一草坪上的两种草类型。交替采集样本,六个30分钟的会话产生了256个示例。训练了一个线性分类器,使用来自嗅觉-视觉对比学习的特征,并在42个样本的保留集上进行了评估:

仅使用气味的草类型分类准确率。模型的性能被比较,使用原始气味信号和气味打印,模型要么是随机初始化的,要么是从头开始训练的,要么是使用自监督学习(SSL)后进行线性探测。使用SSL和原始气味信号的最高准确率为92.9%,表明原始输入和视觉引导的训练最适合捕捉细粒度的气味差异。
研究人员指出:
‘在原始气味信号上训练(而不是手工特征)会产生最高的准确率,超过所有基于气味打印的变体。 ‘
‘这些结果表明,嗅觉-视觉学习保留了比学习气味打印更多的细粒度信息,并且视觉监督提供了一个信号来利用这种信息。 ‘
结论
尽管气味合成似乎将在未来一段时间内仍然是一个未解决的问题,但有效且价格合理的野外气味分析系统具有巨大的潜力,不仅对于警察、安全和医疗目的,而且对于生活质量和城市监测也有价值。
目前,所涉及的设备通常是专业的和昂贵的;因此,在“嗅觉AI”检测方面的真正进展可能需要一个具有树莓派精神的具有远见和价格合理的传感器。
* 我将作者的内联引用转换为超链接。
** 请注意,进一步的插图(图8)可在源论文中找到,但最好在该上下文中查看。
首次发表于2025年11月28日星期五












