Unite.AI - AI News & Research

AI-generated image (GPT-1.5) depicting a man trying to fit disparate Legos together.

Andersonの視点3 days ago

概念の絡み合いが「思い通りのAI動画」を不可能にする理由

AI動画ツールは完全な制御を約束するが、隠れた「概念の絡み合い」がアイデンティティ、表情、行動を接着し、ハックやテンプレートのトリックを強要することで、簡単なGenAIの魔法という神話を打ち砕く。 Opinion 私がこの主題について詳しく掘り下げた5年前以来、訓練されたAIシステムにおける概念の絡み合いの問題は、はるかに広範なユーザーに広がっているが、その本質については依然として十分に理解されていない。当時、比較的フォトリアルな人物のディープフェイクを作成するには、オートエンコーダー型のディープフェイクシステム（つまり、現在は使われなくなったDeepFaceLabと、ポルノ色の薄いFaceSwap。どちらも、2017年にRedditで公開され、不名誉を被りほぼ即座に禁止されたコードリリースに由来する）が唯一の手段だった。これらのシステムは、広範な顔のトレーニングデータセットに依存しており、それはAIモデルに次の情報を提供することを意図していた：A) その人物が平静時の様子（正準参照埋め込み）、そしてB) 睡眠から笑い、恐怖、退屈、冷笑、悲しみなど、顔が反映しうる多様な状況下での様子。問題は、正準的なアイデンティティは通常、それ自体が「中立」ではない顔のキャプチャから推測しなければならなかったため、ストックデータセットをスクレイピングして得られた笑顔やにやけ顔の優勢さが、分布を「笑顔がデフォルト」の方へとシフトさせてしまうことだった。これは、これらのモデルに情報を提供する典型的なウェブスクレイピングされたトレーニングデータに、レッドカーペットでのパパラッチ写真が大量に含まれているためであり、データセットが特定の種類の画像に偏る他の同様に疑わしい理由のためでもあった。言い換えれば、オートエンコーダーシステムは、顔の特徴が通常の表情によって歪められた何千もの画像から、「中立な」アイデンティティ概念を抽出しようとしなければならなかった。また、異なる感情の意味論的な顔の概念を、顔が撮影された角度から切り離そうとしなければならなかった。これは、利用可能な唯一の「恐怖に震えた」表情が横顔から撮影されたものであれば、訓練されたシステムはその感情をその角度からのみ最適に再現できることを意味した。前を向いて 2022年以降、拡散モデルベースのアプローチが生成AI画像（そして後に動画）シーンを席巻するにつれ、生成システムは限られた顔データが与えられた場合に、正確な表情を外挿する能力がはるかに向上した。非常に厄介な課題であった説得力のある横顔の作成さえ、現在の最先端技術ではほぼ克服されており、表情データはアイデンティティからかなり効果的に分離されている。その程度は、オートエンコーダー駆動のDeepFaceLiveストリーミングシステムが開拓したライブディープフェイク操り人形のようなものが、多くの効果的なオフライン拡散アプリケーションを持ち、リアルタイムでの実演が将来の発展として期待できるほどだ：クリックして再生。 ‘FlashPortrait’プロジェクトより、ソース動画を通じてアバターを駆動する多様な例。この場合、「リアリスティック」な領域がどちら側にあるかは問題ではない（もしあるとしても）。 Source しかし、生成AIのキャンバスが広がり、出力がより洗練されるにつれて、絡み合いの問題は単に他の多くの領域に広がっただけであり、現在はいくつかの非常に安っぽく、非常に古いトリックによって「修正」されている。それらのトリックが何であるかを知らなければ、動画や画像AIがどれほど急速に進化し、古い悩みの種を克服しているかについて、より楽観的な見方を持つかもしれない。おしゃべりな猫たちなぜアイデンティティと感情が、あの古い2017年式のオートエンコーダーシステムでは分離が難しかったのか、その理由は明らかだろう。それは、a) ある種類のデータが多すぎる、あるいは重要なデータの特定のバージョンが過度に特化している、どちらも分布の偏りを引き起こす。そして/または、B) モデルアーキテクチャがこれらの性質を分離する任務に耐えられず、推論時にそれらを「くっつけて」しまいがちだったからだ。ユーザーがデータセットのバランスを確保するために並外れた注意を払わない限りは。全く同じ理由で、過去数年間にわたって、多くのオープンソースおよびプロプライエタリな動画モデルにおいて同様の問題が発生しているが、それらは、幻覚、検閲の欠如、およびその他の多様なトピックに関するより大きなレベルの批判に隠れてしまっている。例えば、Wan2.+システムでは、多くのユーザーが、生成されたキャラクターが絶え間なく話し続けるのを止めるのが非常に難しいこと、そしてしばしばカメラを見つめるのを止めるのも難しいことを発見している。後者の問題（カメラを見る、または第四の壁を破る）は、動画合成システムの出現以前から存在する。なぜなら、LAIONのようなウェブスクレイピングされたデータセットにおける「カメラ目線」写真の蔓延により、様々な画像専用の拡散システムで発生したからだ。「おしゃべりな」キャラクターに関する問題は、YouTube上の「インフルエンサー」動画が簡単に大量に入手できることに起因する。それらは当然、何千時間ものレンズに向かっての語りを提供し、しばしば研究科学者が学術的文脈を提供することでウェブスクレイピングを洗浄できるデータセットに精選される。...