ロボット工学

Neural Radiance Fields (NeRF) を使用してロボットにツールについて教える

公開済み

2年前

2022 年 10 月 5 日

ミシガン大学の新しい研究は、ロボットがツールや他の現実世界の多関節オブジェクトのメカニズムを理解する方法を提案しています。ニューラルラディアンスフィールドこれらのオブジェクトがどのように動くかを示す (NeRF) オブジェクト。これにより、ロボットが面倒な専用の事前構成を行わずにそれらのオブジェクトと対話し、使用できるようになります。

ツール (または適切な参照を持つ任意のオブジェクト) の内部運動性に関する既知のソース参照を利用することにより、NARF22 はツールとその動作範囲および操作の種類のフォトリアリスティックな近似を合成できます。出典: https://progress.eecs.umich.edu/projects/narf/

歩行者を回避したり、事前に精巧にプログラムされたルーチンを実行したりする以上のことを要求されるロボット (再利用不可能なデータセットにはおそらく何らかのコストをかけてラベル付けされ、トレーニングが行われている) が、同じ材料と材料を扱う場合には、この種の適応能力が必要です。残りの私たちが取り組まなければならない対象。

これまで、ロボットシステムにこの種の多用途性を持たせるには、多くの障害がありました。これらには、適用可能なデータセットが不足しており、その多くが非常に限られた数のオブジェクトを特徴としていることが含まれます。ロボットが現実世界のコンテキストで手段性を学習するのに役立つ、フォトリアリスティックなメッシュベースの 3D モデルの生成には莫大な費用がかかります。そして、実際には課題に適しているかもしれないデータセットの非フォトリアリスティックな品質により、ロボットが周囲の世界で認識するものからオブジェクトがバラバラに見え、ロボットがロボットに決して表示されない漫画のようなオブジェクトを探すように訓練されます。現実。

これに対処するために、ミシガン州の研究者らは、紙というタイトルです NARF22: 構成を認識したレンダリングのためのニューラル多関節放射輝度フィールドらは、「現実世界」の外観を持ち、特定の関節オブジェクトの動きとその後の制限を組み込んだ NeRF ベースの関節オブジェクトを生成するための XNUMX 段階のパイプラインを開発しました。

より複雑に見えますが、NARF22 パイプラインの重要な 2210.01166 つのステージには、運動ツールの静的部分のレンダリングと、これらの要素を XNUMX 番目のデータセットに合成することが含まれます。このデータセットには、これらの部分が相互に持つ動きのパラメーターについての情報が与えられます。出典: https://arxiv.org/pdf/XNUMX.pdf

より複雑に見えますが、NARF22 パイプラインの重要な XNUMX つのステージには、運動ツールの静的部分のレンダリングと、これらの要素を XNUMX 番目のデータセットに合成することが含まれます。このデータセットには、これらの部分が相互に持つ動きのパラメーターについての情報が与えられます。出典：https://arxiv.org/pdf/2210.01166.pdf

システムは次のように呼ばれます 神経多関節放射輝度フィールド – または NARF22 (同様の名前の別のプロジェクトと区別するため)。

NARF22

未知の物体が潜在的に表現されているかどうかを判断するには、人間ではほとんど考えられない量の事前知識が必要です。たとえば、閉じた引き出しを見たことがない場合、それは他の種類の装飾パネルのように見えるかもしれません。実際に引き出しを開けて初めて、単一の動き軸を持つ多関節オブジェクトとして「引き出し」を内面化することができます。 (前方と後方)。

したがって、NARF22 は、物を拾い上げて、実用的な可動部分があるかどうかを確認するための探索システムとしては意図されていません。これは、多くの潜在的に悲惨なシナリオを伴う、ほとんど猿のような行動です。むしろ、このフレームワークは、次の分野で利用可能な知識を前提としています。ユニバーサルロボット記述フォーマット (URDF) – 広く適用可能でタスクに適したオープンソースの XML ベースの形式。 URDF ファイルには、オブジェクト内の動きの使用可能なパラメータのほか、オブジェクトの部分の説明やその他のラベル付きファセットが含まれます。

従来のパイプラインでは、基本的にオブジェクトの関節機能を記述し、関連するジョイント値にラベルを付ける必要があります。これは安価なタスクでも、簡単に拡張できるタスクでもありません。代わりに、NaRF22 ワークフローは、URDF によって提供される動きパラメータの知識を使用して、オブジェクトの個々のコンポーネントをレンダリングしてから、各静的コンポーネントを関節のある NeRF ベースの表現に「組み立て」ます。

プロセスの第 3080 段階では、すべてのパーツを組み込んだまったく新しいレンダラーが作成されます。初期の段階で個々のパーツを単純に連結して、この後続のステップをスキップする方が簡単かもしれませんが、研究者らは、AMD 5600X CPU の NVIDIA RTX XNUMX GPU でトレーニングされた最終モデルの方が、実行中の計算需要が低いことを観察しています。誤差逆伝播法そのような突然で時期尚早な集会よりも。

さらに、第 XNUMX 段階のモデルは、連結された「総当たり」アセンブリの XNUMX 倍の速度で実行され、モデルの静的部分に関する情報を利用する必要がある二次アプリケーションは、独自に URDF 情報にアクセスする必要がありません。これはすでに最終段階のレンダラーに組み込まれています。

データと実験

研究者らは、NARF22 をテストするために多くの実験を実施しました。6 つは、各オブジェクトの構成とポーズの定性的なレンダリングを評価するためです。レンダリングされた結果を現実世界のロボットで見られる同様の視点と比較するための定量的テスト。そして、構成推定のデモンストレーションと、NARF22 を使用して勾配ベースの最適化を実行した XNUMX DOF (被写界深度) のリファインメントチャレンジです。

トレーニングデータはから取得されました。進行ツール現在の研究の著者数人による以前の論文のデータセット。 Progress Tools には、640×480 解像度の約 XNUMX 個の RGB-D (つまり、ロボットの視覚に不可欠な深度情報を含む) 画像が含まれています。使用されたシーンには、メッシュモデルとオブジェクトの運動学的特性 (つまり、オブジェクトが動くように設計されている方法とその動きのパラメーター) に関する情報を備えた XNUMX つのハンドツールが含まれており、その構成部分に分割されています。

Progress Tools データセットには、22 つの連結ツールが備えられています。上の画像は、NARFXNUMX からの NeRF ベースのレンダリングです。

この実験では、最終的な構成可能なモデルが、線兵ペンチ、ラジオペンチ、クランプのみを使用してトレーニングされました (上の画像を参照)。トレーニングデータには、クランプの XNUMX つの構成と各プライヤーの XNUMX つが含まれていました。

NARF22 の実装は以下に基づいています。ファストネRF、ツールの連結および空間的にエンコードされたポーズに集中するように入力パラメータが変更されています。 FastNeRF は、ボクセル化サンプリングメカニズムと組み合わせた因数分解多層パーセプトロン (MLP) を使用します (ボクセルは本質的にピクセルですが、3 次元空間で動作できるように完全な XNUMXD 座標を持ちます)。

定性的テストの場合、研究者らは、クランプのいくつかの閉塞部分 (つまり、中心脊椎) が存在することを観察しました。これは、オブジェクトを観察することによって知ることも推測することもできず、オブジェクトと対話することによってのみ可能であり、システムがこれを作成するのが難しいことを観察しました。「未知の」ジオメトリ。

ツールの定性的なレンダリング。

対照的に、ペンチは新しい構成 (つまり、URDF パラメーター内にあるものの、モデルのトレーニング資料では明示的に扱われていないパーツの拡張や移動) にうまく一般化することができました。

しかし、研究者らは、ペンチのラベル付けエラーがツールの非常に詳細な先端部分のレンダリング品質の低下につながり、レンダリングに悪影響を及ぼしていることを観察しています。この問題は、ラベル付けのロジスティクス、予算、コンピュータの精度に関するより広範な懸念に関連しています。 NARF22パイプラインの手続き上の欠陥ではなく、ビジョン研究部門に焦点を当てています。