私達ず接続

2024 幎のコンピュヌタヌ ビゞョンに関する文献のトレンドに関する個人的な芋解

Artificial Intelligence

2024 幎のコンピュヌタヌ ビゞョンに関する文献のトレンドに関する個人的な芋解

mm

公開枈み

 on

ChatGPT 画像: 「コンピュヌタヌ研究宀で癜衣を着お働く SIM スタむルの科孊者たちの様匏化された集団のパノラマ正投圱ビュヌ画像。航空写真ビュヌ、正投圱、様匏化された、挫画スタむル。」

私は玄 5 幎間、Arxiv やその他の堎所でコンピュヌタヌ ビゞョン (CV) ず画像合成の研究珟堎を継続的に远跡しおきたしたが、時間の経過ずずもに傟向が明らかになり、毎幎新しい方向に倉化しおいたす。

そこで、2024幎が終わりに近づくに぀れお、コンピュヌタビゞョンずパタヌン認識のArxiv投皿におけるいく぀かの新しい、たたは進化する特城を芋おみるのが適切だず思いたした。 これらの芳察は、珟堎を䜕癟時間も研究した結果に基づくものですが、あくたでも逞話的なものです。

東アゞアの継続的な台頭

2023 幎末たでに、私は「音声合成」カテゎリの文献の倧郚分が䞭囜や東アゞアの他の地域から出おいるこずに気付きたした。2024 幎末には、これが画像やビデオの合成研究の分野にも圓おはたるこずを逞話的に芳察しなければなりたせん。

これは、䞭囜ず近隣諞囜が必ずしも垞に最高の成果を出しおいるずいうこずを意味するものではない確かに、 反察の蚌拠たた、䞭囜では西掋ず同様最も興味深く匷力な新しい開発システムのいく぀かが独占的であり、研究文献から陀倖される可胜性が高いこずも考慮されおいたせん。

しかし、この点では東アゞアが量的に西偎を䞊回っおいるこずを瀺唆しおいる。それがどれだけ䟡倀があるかは、 ゚ゞ゜ン流の粘り匷さ通垞は効果がないこずが刀明しおいる 解決困難な障害に盎面しお.

å…š 倚くのそのような障害 生成 AI では、どれが既存のアヌキテクチャに察応するこずで解決でき、どれをれロから再怜蚎する必芁があるのか​​を知るこずは容易ではありたせん。

東アゞアの研究者がコンピュヌタヌ ビゞョンに関する論文をより倚く発衚しおいるようですが、私は「フランケンシュタむン」スタむルのプロゞェクト、぀たり、限られたアヌキテクチャ䞊の新芏性 (たたは単に異なるタむプのデヌタ) を远加しながら、以前の研究を融合する取り組みの頻床が増加しおいるこずに気づきたした。

今幎は、東アゞア䞻に䞭囜たたは䞭囜が関䞎する共同研究からの応募がはるかに倚く、実力重芖ではなく定員重芖のようで、すでに応募者数が倚い分野で信号察雑音比が倧幅に増加したした。

同時に、2024幎には東アゞアの新聞もたすたす倚くなり、私の泚目ず賞賛を集めおいたす。ですから、これがすべお数字のゲヌムであるならば、倱敗しおいるわけではありたせんが、安くもありたせん。

提出量の増加

2024 幎には、すべおの発行囜における論文の量が明らかに増加したした。

最も人気のある出版日は幎間を通じお倉わりたす。珟圚のずころ火曜日で、コンピュヌタヌ ビゞョンずパタヌン認識セクションぞの投皿数は、ピヌク期間 (300 月350 月ず XNUMX 月XNUMX 月、぀たりそれぞれ䌚議シヌズンず「幎間割り圓お締め切り」シヌズン) には XNUMX 日で玄 XNUMXXNUMX 件になるこずがよくありたす。

私の経隓以倖にも、Arxiv自䜓が 2024幎XNUMX月の応募件数が過去最高合蚈 6000 件の新芏投皿があり、コンピュヌタヌ ビゞョン セクションは機械孊習に次いで XNUMX 番目に倚く投皿されたセクションずなりたした。

ただし、Arxiv の機械孊習セクションは「远加」たたは集玄されたスヌパヌカテゎリずしお䜿甚されるこずが倚いため、コンピュヌタヌビゞョンずパタヌン認識が実際には最も倚く投皿されおいる Arxiv カテゎリであるず考えられたす。

Arxivの 独自の統蚈 確かに、コンピュヌタサむ゚ンスが応募䜜品数で明らかにトップを占めおいたす。

過去 5 幎間、Arxiv の投皿統蚈ではコンピュヌタヌ サむ゚ンス (CS) が䞻流でした。出兞: https://info.arxiv.org/about/reports/submission_category_by_year.html

過去 5 幎間、Arxiv の投皿統蚈ではコンピュヌタヌ サむ゚ンス (CS) が䞻流でした。 出兞: https://info.arxiv.org/about/reports/submission_category_by_year.html

スタンフォヌド倧孊の 2024AIむンデックスは、最新の統蚈をただ報告できおいないものの、近幎の機械孊習に関する孊術論文の提出数の顕著な増加も匷調しおいる。

2024 幎の数字は入手できないものの、スタンフォヌドのレポヌトでは機械孊習論文の投皿数が劇的に増加しおいるこずが瀺されおいたす。出兞: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

2024幎の数字は入手できないものの、スタンフォヌド倧孊の報告曞は機械孊習論文の投皿数が劇的に増加しおいるこずを瀺しおいたす。 出兞: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

普及>メッシュフレヌムワヌクの急増

私にずっおもう䞀぀の明らかな傟向は、レバレッゞを扱った論文の倧幅な増加であった。 朜圚拡散モデル LDMずしお 発電機 メッシュベヌスの「埓来の」CGI モデルです。

このタむプのプロゞェクトには、テンセントの むンスタントメッシュ3D, 3Dトピア, 2, V3D, MV線集, GIMD拡散、同様の補品は数倚く存圚したす。

3Dtopia の拡散ベヌスのプロセスによるメッシュ生成ず改良。出兞: https://arxiv.org/pdf/2403.02234

3Dtopia の拡散ベヌスのプロセスによるメッシュの生成ず改良。 出兞: https://arxiv.org/pdf/2403.02234

この新たな研究の流れは、拡散モデルなどの生成システムの継続的な扱いにくさに察する暗黙の譲歩ず芋なすこずができたす。拡散モデルは、拡散>メッシュ モデルが珟圚採甚しようずしおいるすべおのシステムの朜圚的な代替ずしお宣䌝されおからわずか 2 幎しか経っおおらず、拡散は 30 幎以䞊前に遡るテクノロゞヌずワヌクフロヌのツヌルの圹割に远いやられおいたす。

オヌプン゜ヌスの創始者Stability.ai 安定拡散 モデルは、リリヌスされたばかり 安定のれロ123、ずりわけ、 ãƒ‹ãƒ¥ãƒŒãƒ©ãƒ« ラディアンス フィヌルド AI生成画像のNeRF解釈は、UnityなどのCGI分野、ビデオゲヌム、拡匵珟実、および明瀺的な3D座暙を必芁ずするその他のプラットフォヌムで䜿甚できる明瀺的なメッシュベヌスのCGIモデルを䜜成するための橋枡しずしお機胜したす。 連続関数.

クリックしお再生したす。 Stable Diffusion で生成された画像は、有理 CGI メッシュに倉換できたす。ここでは、Stable Zero 123 を䜿甚した画像 > CGI ワヌクフロヌの結果を瀺したす。 出兞: https://www.youtube.com/watch?v=RxsssDD48Xc

3Dセマンティクス

生成AI分野では、ビゞョンず生成システムの2Dシステムず3Dシステムの実装を区別しおいたす。たずえば、 顔のランドマヌクフレヌムワヌクしかし 衚したす すべおの堎合においお、3D オブゞェクト (面) は必ずしもアドレス指定可胜な 3D 座暙を蚈算するわけではありたせん。

䞀般的 FANAlignシステム2017 幎頃のディヌプフェむク アヌキテクチャなどで広く䜿甚されおいる は、次の䞡方のアプロヌチに察応できたす。

䞊の図では、認識された顔の茪郭ず特城のみに基づいお 2D ランドマヌクが生成されおいたす。䞋の図では、3D X/Y/Z 空間に合理化されおいたす。出兞: https://github.com/1adrianb/face-alignment

䞊の図では、認識された顔の茪郭ず特城のみに基づいお 2D ランドマヌクが生成されおいたす。䞋の図では、ランドマヌクが 3D X/Y/Z 空間に合理化されおいたす。 出兞: https://github.com/1adrianb/face-alignment

「ディヌプフェむク」が 曖昧で乗っ取られた甚語同様に、「3D」もコンピュヌタヌビゞョン研究においお玛らわしい甚語になっおいたす。

消費者にずっお、これは通垞、ステレオ察応メディア (芖聎者が特殊なメガネを着甚する必芁がある映画など) を意味したす。䞀方、芖芚効果の専門家やモデラヌにずっおは、2D アヌトワヌク (抂念スケッチなど) ず、Maya や Cinema3D などの「4D プログラム」で操䜜できるメッシュベヌスのモデルを区別するこずを意味したす。

しかし、コンピュヌタビゞョンでは、それは単に デカルト座暙系 どこかに存圚する 朜圚空間 モデルの ナヌザヌが盎接操䜜したり、察凊したりできるずは限らない。少なくずも、サヌドパヌティの解釈型CGIベヌスのシステムがなければ、 3DMM or 炎.

したがっお、 拡散>3D 䞍正確であるだけでなく、 どれか 生成 CGI モデルを生成するための入力ずしお、さたざたな皮類の画像 (実際の写真を含む) を䜿甚できたすが、より曖昧さが少ない「メッシュ」ずいう甚語の方が適切です。

しかし、曖昧さをさらに耇雑にしおいるのは、拡散 is 新たなプロゞェクトの倧倚数では、゜ヌス写真をメッシュに解釈する必芁がある。そのため、より適切な説明は次のようになるだろう。 画像からメッシュぞ䞀方、 画像>拡散>メッシュ さらに正確な説明です。

しかし、取締圹䌚や投資家の関心を匕くための広報発衚では、それを売り蟌むのは難しい。

建築の行き詰たりの蚌拠

2023幎ず比べおも、過去12か月間の論文を芋るず、 厳しい実甚䞊の限界 拡散ベヌスの生成に぀いお。

䞻な障害は、物語的にも時間的にも䞀貫性のあるビデオを生成し、異なるビデオ クリップ間だけでなく、生成された単䞀のビデオ クリップの短い実行時間にわたっおも、キャラクタヌずオブゞェクトの倖芳の䞀貫性を維持するこずです。

拡散合成における最埌の画期的な革新は LoRAの登堎 2022幎。Fluxなどの新しいシステムでは、Stable Diffusionが以前は生成された画像内でテキストコンテンツを再珟できなかったなどの䞀郚の異垞倀の問題が改善され、党䜓的な画像品質が向䞊したしたが、2024幎に私が研究した論文の倧郚分は、基本的に皿の䞊で食べ物を動かすだけのものでした。

こうした膠着状態は、生成的敵察ネットワヌク (GAN) やニュヌラル ラディアンス フィヌルド (NeRF) でも以前に発生しおおり、どちらも圓初の朜圚胜力を十分に発揮できず、埓来のシステムでたすたす掻甚されるようになっおいたす (Stable Zero 123 での NeRF の䜿甚など、䞊蚘を参照)。これは拡散モデルでも発生しおいるようです。

ガりススプラッティング研究のピボット

2023幎末にはラスタラむズ方匏が 3D ガりス スプラッティング 3幎代初頭に医療甚画像技術ずしお登堎した1990DGSは、突然 オヌト゚ンコヌダベヌス 人間の画像合成の課題顔のシミュレヌションや再珟、アむデンティティの転送などを解決するシステム。

2023幎のASH論文では、 党身3DGS人間䞀方、 ガりスアバタヌ オヌト゚ンコヌダや他の競合方法ず比范しお倧幅に改善された詳现ず、印象的なクロス再珟を提䟛したした。

しかし、今幎は 3DGS ヒト合成におけるそのような画期的な瞬間が比范的少なく、この問題に取り組んだ論文のほずんどは䞊蚘の研究の掟生か、その胜力を超えるこずができなかったかのいずれかでした。

代わりに、3DGS ではその基本的な建築的実珟可胜性の向䞊に重点が眮かれ、改善された 3DGS の倖郚環境を提案する論文が次々ず発衚されるようになりたした。 特別な泚意 同時䜍眮掚定ずマッピングSLAM) 3DGSアプロヌチは、次のようなプロゞェクトで採甚されおいたす。 ガりススプラッティングSLAM, スプラットスラム, ガりスSLAM, ドロむド-スプラット、他の倚くの間で。

スプラットベヌスの人間合成を継続たたは拡匵しようずしたプロゞェクトには、 ミグス, GEM, EVA, オクフュヌゞョン, FAGヘッド, ヒュヌマンスプラット, GGヘッド, 議事録, トポ4D他にもいく぀かあるが、これらの発衚はいずれも、2023幎埌半に発衚された論文の圓初のむンパクトに匹敵するものではなかった。

怜査サンプルの「ワむンスタむン時代」はゆっくりず枛少傟向にある

東南アゞア党般特に䞭囜の研究では、少々「刺激的な」内容が含たれおいるため、レビュヌ蚘事で再公開するには問題のあるテスト䟋がよく取り䞊げられたす。

その地域の研究者が自分たちの成果で泚目を集めようずしおいるからなのかどうかは議論の䜙地があるが、過去18か月間、生成AI画像や動画に関する論文のデフォルトずしお、若くお露出床の高い女性や少女をプロゞェクトの䟋ずしお䜿うこずが増えおいる。NSFWぎりぎりの䟋ずしおは、次のようなものがある。 ナニアニメむト, コントロヌル次ぞ、そしお非垞に「無味也燥」な論文でさえ、 フレシェビデオモヌション距離によるモヌション䞀貫性の評䟡 FVMD。

これは、朜圚的拡散モデル (LDM) を䞭心に集たったサブレディットやその他のコミュニティの䞀般的な傟向に沿ったもので、ルヌル 34 は䟝然ずしお顕著です。

セレブ察決

この皮の䞍適切な䟋は、AIプロセスが有名人の肖像を恣意的に利甚すべきではないずいう認識の高たりず重なる。特に、䟋を無批刀に䜿甚する研究においおはそうだ。 特色 魅力的な有名人、倚くの堎合は女性を取り䞊げ、疑わしい状況に眮きたす。

䞀䟋です あらゆるドレッシングは、非垞に若いアニメ颚の女性キャラクタヌをフィヌチャヌしおいるほか、マリリン・モンロヌなどの叀兞的な有名人や、アン・ハサりェむこのような䜿甚法を非難しおいるなどの珟圚の有名人のアむデンティティも自由に䜿甚しおいたす。 かなり声高に).

東南アゞアの新聞では、珟圚の有名人や「叀兞的な」有名人を恣意的に䜿甚するこずは䟝然ずしおかなり䞀般的ですが、その習慣はわずかに枛少しおいたす。出兞https://crayon-shinchan.github.io/AnyDressing/

東南アゞアの新聞では、珟圚の著名人や「叀兞的」な著名人を恣意的に起甚するこずは䟝然ずしおかなり䞀般的だが、その習慣は少しず぀枛少しおいる。 出兞: https://crayon-shinchan.github.io/AnyDressing/

In 西郚の 論文によるず、この特定の慣行は2024幎を通じお著しく枛少しおおり、FAANGやOpenAIなどの他の高レベルの研究機関からの倧芏暡なリリヌスが䞻導しおいたす。将来の蚎蚟の可胜性を批刀的に認識しおいるこれらの倧手䌁業は、 架空の 写真のようにリアルな人々。

圌らが䜜っおいるシステム䟋えば 画像 および ノェオ2は明らかにそのような出力が可胜ですが、西掋の生成 AI プロゞェクトの䟋では、珟圚、「かわいい」、ディズニヌ颚の、極めお「安党な」画像や動画がトレンドになっおいたす。

Imagen は「フォトリアリスティック」な出力を䜜成する胜力を誇っおいるにもかかわらず、Google Research が宣䌝するサンプルは兞型的には空想的で「家族向け」のものであり、フォトリアリスティックな人間は慎重に避けられ、サンプルは最小限しか提䟛されおいたせん。出兞: https://imagen.research.google/

Imagen は「フォトリアリスティック」な出力を䜜成する胜力を誇っおいるにもかかわらず、Google Research が宣䌝するサンプルは兞型的には空想的で「家族向け」のものであり、フォトリアリスティックな人間は慎重に避けられおいるか、最小限の䟋しか提䟛されおいたせん。 ゜ヌス: https://imagen.research.google/

掗顔

西掋の履歎曞の文献では、この䞍誠実なアプロヌチは特に カスタム化 システム - 耇数の䟋にわたっお特定の人物の䞀貫した類䌌性を䜜成できる方法぀たり、LoRAや叀い ドリヌムブヌス).

䟋ずしおは、 盎亀芖芚埋め蟌み, LoRA 䜜曲家、Googleの むンストラクトブヌス、その他倚数。

Google の InstructBooth は、こ​​れたでの経緯から、ナヌザヌは毛皮やフワフワしたキャラクタヌよりも写真のようにリアルな人間を䜜成するこずに興味があるにもかかわらず、かわいらしさを 11 倍に高めおいたす。出兞: https://sites.google.com/view/instructbooth

これたでの経緯から、ナヌザヌは毛皮やフワフワしたキャラクタヌよりも、写真のようにリアルな人間を䜜成するこずに興味があるようですが、Google の InstructBooth はかわいらしさを 11 倍に高めおいたす。 出兞: https://sites.google.com/view/instructbooth

しかし、「かわいい䟋」の台頭は、他のCVおよび統合研究分野でも芋られ、䟋えば次のようなプロゞェクトで芋られる。 コンプ4D, V3D, デザむン線集, ナニ゚ディット, フェむスチェヌン これは、より珟実的なナヌザヌの期埅に応えるものである。 GitHubペヌゞ、及び DPG-T2I、他の倚くの間で。

このようなシステム䟋えば LoRAは比范的安䟡なハヌドりェアで家庭ナヌザヌでも䜜成できるため、無料でダりンロヌドできる有名人のモデルが急増しおいる。 civit.aiドメむン そしおコミュニティ。このような䞍正䜿甚は、次のようなアヌキテクチャのオヌプン゜ヌス化によっお可胜ずなっおいる。 安定拡散 および Flux.

生成テキスト画像T2Iやテキスト動画T2Vシステムの安党機胜を突砎しお、プラットフォヌムの利甚芏玄で犁止されおいる玠材を䜜成するこずはよくありたすが、最高のシステムRunwayMLやSoraなどの制限された機胜ず、単にパフォヌマンスの高いシステム 安定した動画の普及, コグビデオ および珟地での展開 枟源は、倚くの人が信じおいるように、実際には閉店しおいない。

むしろ、これらの独自システムずオヌプン゜ヌス システムは、それぞれ同じように圹に立たなくなる恐れがありたす。高䟡でハむパヌスケヌルの T2V システムは、蚎蚟の恐れから過床に制限される可胜性がありたす。䞀方、オヌプン゜ヌス システムにはラむセンス むンフラストラクチャずデヌタセットの監芖がないため、より厳栌な芏制が斜行されるず、垂堎から完党に締め出される可胜性がありたす。

 

初版発行日24幎2024月XNUMX日火曜日

機械孊習のラむタヌ、人間の画像合成のドメむンスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サむト マヌティンアンダヌ゜ン.ai
お問合せ [メヌル保護]
Twitter: @manders_ai