AI開発に嗅覚をもたらす
新しいAIデータセットは、嗅覚データと画像を関連付けることで機械に嗅ぎ分けを教え、モデルがにおいを物体、情景、素材と結びつけられるようにする。 おそらく、嗅覚出力マシンにはこれほどまでに複雑な歴史があるため、AI研究文献において嗅覚はかなり軽視されてきた感覚である。長きにわたる(現在まで1世紀以上)スメロビジョン・サーガにまた一つ新作を加えるのでもない限り、画像、音声、動画のデータセットおよびそれらで訓練されたAIモデルの潜在的活用可能性と比較すると、そのユースケースは常にかなり「ニッチ」に思われてきた。実際、爆発物探知犬、遺体探知犬、病気探知犬、その他さまざまな種類の探知犬ユニットが提供するような探知能力を自動化、産業化、普及させる可能性は、自治体や保安サービスにおいて顕著な利益となるだろう。需要が高く、供給をはるかに上回っているにもかかわらず、探知犬の訓練と維持は費用のかかる事業であり、常に費用対効果が良いとは限らない。これまで、この研究領域に踏み込んだ研究のほとんどは実験室内に限定されており、手作りの特徴量を持つサンプルで構成される精選されたコレクションが一般的で、産業化されたアプリケーションというよりは、むしろ特注の小規模産業的ソリューションに傾いたプロファイルである。一歩先を行くこのやや古臭い状況に、米国からの興味深い新たな学術・産業協業が登場した。研究者チームが数ヶ月をかけてニューヨーク市の屋内・屋外環境における多様なにおいをカタログ化し、さらに初めて、捕捉したにおいに関連する画像も収集したのである:この研究により、新しい研究の著者らは、テキストと画像を結びつける大流行のContrastive Language-Image Pretraining (CLIP) フレームワークを応用し、Contrastive Olfaction-Image Pretraining (COIP) を考案した。これはにおいと画像を結びつけるものである。New York Smellsと名付けられた新しいデータセットは、3,500の異なる物体を特徴とする7,000のにおいと画像のペアを含んでいる。テストで訓練した結果、この新しいデータは、比較的少数の類似した先行データセットにおける人気の手作り特徴量を凌駕することがわかった。著者らは、この最初の試みが、探知犬が行うのとほぼ同じように*、自然環境下で動作するように設計された嗅覚探知システムに向けた、後続および追従研究への道を開くことを期待している:「私たちはこのデータセットを、自然環境下でのマルチモーダル嗅覚知覚、および視覚と嗅覚を結びつけることへの一歩と見なしています。嗅覚は伝統的に品質保証のような制約された環境でアプローチされてきましたが、自然環境下での応用は数多くあります。「例えば、人間として、私たちは常に…「さらに、犬、熊、ネズミなど多くの動物は超人的な嗅覚能力を示しており、人間の嗅覚知覚は機械の能力の限界からは程遠いことを示唆している。」New York Smells: A Large Multimodal Dataset for Olfactionというタイトルの新しい論文は、データとコードが公開されることを約束しているが、27GBのデータファイルはすでに論文のプロジェクトサイトから入手可能である。この論文は、コロンビア大学、コーネル大学、Osmo Labsの9人の研究者によって作成された。手法新しいコレクションの素材を収集するために、研究者たちはCyranose 320電子鼻を使用し、前方吸気口の上にiPhoneを設置して、どのような匂いが記録されているかを視覚的に捕捉した:Cyranoseデバイスは2Hzで動作し、32次元の嗅覚タイムステップを記録する。揮発性有機化合物(VOC)濃度は、MiniPID2 PPM WRセンサーで記録された。このポータブルユニットは機敏なセンサーとして機能し、データをより計算能力の高いモバイルステーションに中継して処理した。対象の匂いを文脈に位置づけるため、より具体的な対象物をCyranoseの「鼻先」で直接狙う前に、「基準匂い」が記録された。周囲のサンプルは、メインの臭気源から十分に離れて汚染されないようにするため、ユニットのサイドポートから採取された。センサーのメイン吸気口を通じて2つのサンプルが採取され、データ効率を向上させるため、各10秒間の記録は対象物の周りの異なる位置から捕捉された。その後、サンプルは周囲の基準値と組み合わされ、完全な嗅覚測定を表す28×32マトリックスを形成した:データとテストVision Language Models (VLM)...