ロボット工学

CMUの研究者が絵を描くAIロボットを開発

公開済み

1年前

2023 年 2 月 24 日

アレックスマクファーランド

画像: CMU

カーネギーメロン大学ロボット研究所の研究者らは、ペイントブラシが取り付けられたロボットアームである FRIDA と呼ばれるツールを開発した。このツールは人工知能 (AI) を活用して、人間と協力してアートプロジェクトに取り組みます。

チームは「」というタイトルの研究を発表する予定です。FRIDA: 微分可能な Real2Sim2Real プランニング環境を備えた協調ロボットペインター」は、2023月に開催されるXNUMX IEEE International Conference on Robotics and Automationで発表されました。

ピーター・シャルデンブランドは博士号を取得しています。コンピューターサイエンス学部のロボット工学研究所の学生。彼は FRIDA と協力して AI と創造性を探求しています。

「カエルのバレリーナを描いたこの絵がありますが、とてもうまくできたと思います」と彼は言いました。「本当にばかばかしくて楽しいです。私の入力に基づいて FRIDA が生成したものの驚きは、見るのが本当に楽しかったと思います。」

FRIDA は、Framework and Robotics Initiative for Developing Arts の頭字語です。フリーダ・カーロにちなんで名付けられました。

この研究はシャルダーブランド氏とRI教員のジーン・オー氏とジム・マッカーム氏が主導し、CMU全土から学生や研究者を魅了した。

FRIDA: 芸術を発展させるためのフレームワークとロボット工学の取り組み

FRIDA: A Framework and Robotics Initiative for Developing Arts

Watch this video on YouTube

アーティストではなく共同ツール

ユーザーは、テキストによる説明を入力したり、スタイルをインスピレーションにする他の芸術作品を提出したり、写真をアップロードしてその表現を描くよう依頼したりすることで FRIDA をガイドできます。チームはオーディオなどの他の入力もテストしています。

「FRIDA はロボット絵画システムですが、FRIDA はアーティストではありません」とシャルダーブランド氏は続けました。「FRIDAはコミュニケーションのためのアイデアを生み出していません。 FRIDA はアーティストがコラボレーションできるシステムです。アーティストは FRIDA の高レベルの目標を指定でき、FRIDA はそれを実行できます。」

画像を描画するために、ロボットは、OpenAI の ChatGPT および DALL-E 2 を駆動するものと同等の AI モデルを使用し、プロンプトに応答してテキストまたは画像を生成します。 FRIDA は、ブラシストロークで画像をペイントする方法をシミュレートし、機械学習を利用して作業の進行状況を評価します。

FRIDA の最終製品は風変わりで印象派的です。筆運びは大胆で、ロボットの研究でよく求められる正確さに欠けています。

「FRIDAは人間とロボットの創造性の交差点を探るプロジェクトです」とマッキャン氏は付け加えた。「フリーダは、キャプション画像などを実行し、シーンの内容を理解するために開発された種類の AI モデルを使用し、それをこの芸術的な生成問題に適用しています。」

FRIDA は、アート制作の過程で AI と機械学習を数回使用しています。まず、絵筆の使い方を学ぶのに XNUMX 時間以上かかります。次に、OpenAI の Contrastive Language-Image Pre-Training (CLIP) など、テキストとインターネットから収集した画像を組み合わせた巨大なデータセットでトレーニングされた視覚言語モデルを使用して、入力を理解します。

物理的なイメージを作成する際の最も重要な技術的課題の 2 つは、シミュレーションと実際のギャップ、つまり FRIDA がシミュレーションで作成したものとキャンバス上に描画したものとの間の差異を削減することです。 FRIDA は、real2simXNUMXreal として知られるアイデアを使用しており、ロボットの実際のブラシストロークを使用してシミュレーターをトレーニングし、ロボットとペイントマテリアルの物理的機能を反映および模倣します。

FRIDA のチームは現在、使用しているモデルを継続的に改良することで、現在の大規模なビジョン言語モデルの制限の一部に対処することを目指しています。彼らはモデルたちにニュース記事の見出しを与えて世界で何が起こっているのかを感じさせ、さらにアメリカや西洋の偏見を避けるために多様な文化をより代表する画像やテキストについて訓練した。