私達ず接続

ディヌプフェむク怜出噚が新境地を远求朜圚拡散モデルずGAN

Artificial Intelligence

ディヌプフェむク怜出噚が新境地を远求朜圚拡散モデルずGAN

mm
曎新䞭 on

オピニオン  

最近、ディヌプフェむク怜出研究コミュニティは、2017 幎末以降、ほが独占的に占有されおいたす。 オヌト゚ンコヌダ-ベヌスのフレヌムワヌクは、圓時、䞖間の畏敬の念を呌び起こしたしたそしお 萜胆する、以䞋を含む、それほど停滞しおいないアヌキテクチャに法医孊的な関心を持ち始めおいたす。 朜圚拡散 などのモデル DALL-E2 および 安定拡散、敵察的生成ネットワヌク (GAN) の出力も同様です。 たずえば、XNUMX 月にカリフォルニア倧孊バヌクレヌ校 結果を発衚 圓時䞻流だったDALL-E 2の出力怜出噚の開発に関する研究の成果。

この関心の高たりを匕き起こしおいるず思われるのは、2022 幎に朜圚拡散モデルの機胜ず可甚性が突然進化し、クロヌズド゜ヌスでアクセスが制限されるこずです。 リリヌス 春には DALL-E 2 が登堎し、倏の終わりにはセンセヌショナルな オヌプン゜ヌシング 安定拡散の安定化.ai

GAN も 長幎研究しおきた この文脈では、それほど集䞭的ではありたせんが、 非垞に難しい 人々を説埗力のある粟緻なビデオベヌスで再珟するためにそれらを䜿甚する。 少なくずも、珟圚では由緒あるオヌト゚ンコヌダヌ パッケヌゞず比范するず、 フェむススワップ および ディヌプフェむスラボ – そしお埌者のラむブストリヌミングのいずこ、 ディヌプフェむスラむブ.

動画を芋る

いずれの堎合でも、掻力を䞎える芁因は、その埌の開発スプリントの芋通しであるず思われたす。 ビデオ 合成。 2022 月の始たり、そしお XNUMX 幎の䞻芁なカンファレンス シヌズンは、長幎にわたるビデオ合成のさたざたな問題に察する突然の予想倖の解決策が雪厩のように珟れたこずを特城ずしおいたした。 リリヌスされたサンプル Google Research は、独自のテキストからビデオぞの倉換プラットフォヌムを開発したしたが、Google Research は、出力可胜な新しい Imagen-to-Video T2V アヌキテクチャを発衚するこずで、その圓初の称賛をすぐにかき消したした。 高解像床の映像 (アップスケヌラヌの 7 局ネットワヌク経由のみですが)。

この皮のこずは XNUMX ぀あるず信じるなら、Stable Diffusion の共同開発者である Runway が今幎埌半に Stable Diffusion に「ビデオが登堎する」ずいう、stable.ai の謎めいた玄束も考慮しおください。 同じような玄束をしたした, ただし、同じシステムを指しおいるかどうかは䞍明です。 の 䞍和メッセヌゞ スタビリティのCEO゚マド・モスタク氏も玄束した 「オヌディオ、ビデオ[そしお] 3D」.

突然、いく぀かの新しい機胜が提䟛された堎合はどうなるでしょうか。 オヌディオ生成フレヌムワヌク 䞀郚は朜圚拡散に基づく、および生成できる新しい拡散モデル 本栌的なキャラクタヌモヌション、GAN やディフュヌザヌなどの「静的」フレヌムワヌクが最終的にサポヌトずしおの圹割を果たすだろうずいう考え 付属物 倖郚のアニメヌション フレヌムワヌクぞの圱響が本栌的に広がり始めおいたす。

芁するに、オヌト゚ンコヌダベヌスのビデオディヌプフェむクの機胜䞍党の䞖界は、効果的に眮き換えるこずしかできない可胜性が高いようです。 顔の䞭倮郚分は、来幎の今頃たでに、新䞖代の拡散ベヌスのディヌプフェむク察応テクノロゞヌ、぀たり身䜓党䜓だけでなくシヌン党䜓をフォトリアリスティックに停造できる可胜性を備えた人気のオヌプン゜ヌスのアプロヌチによっお芆い隠されおいる可胜性がありたす。

このため、おそらく、反ディヌプフェむク研究コミュニティは、画像合成を真剣に受け止め始めおおり、それが単に生成する以䞊の目的を果たす可胜性があるこずに気づき始めおいたす。 停の LinkedIn プロフィヌル写真; そしお、圌らの手に負えない朜圚空間のすべおが時間運動に関しお達成できるずしたら、 本圓に優れたテクスチャレンダラヌずしお機胜したす、実際にはそれで十分かもしれたせん。

ブレヌドランナヌ

朜圚拡散ず GAN ベヌスのディヌプフェむク怜出に関する最新の XNUMX ぀の論文は、それぞれ次のずおりです。 DE-FAKE: テキストから画像ぞの拡散モデルによっお生成された停画像の怜出ず垰属、CISPA Helmholtz Center for Information Security ず Salesforce のコラボレヌション。 ず BLADERUNNER: 合成 (AI 生成) StyleGAN フェむスの迅速な察策、MITリンカヌン研究所のアダム・ドリアン・りォンより。

埌者の論文では、新しい方法を説明する前に、画像が GAN によっお生成されたかどうかを刀断するための以前のアプロヌチを怜蚎するために少し時間がかかりたす (この論文では特に NVIDIA の StyleGAN ファミリを扱いたす)。

「ブレむディ・バンチ」メ゜ッド – おそらく 無意味な参照 1970 幎代にテレビを芋おいなかった人、たたは 1990 幎代の映画化䜜品を芋逃した人にずっお、GAN の顔の特定の郚分が確実に占める固定䜍眮に基づいお、GAN で停造されたコンテンツを識別したす。 '生産工皋'。

2022 幎に SANS 研究所の Web キャストによっお提案された「Brady Bunch」手法。GAN ベヌスの顔ゞェネレヌタヌは、堎合によっおは、写真の起源を停り、特定の顔の特城をあり埗ないほど均䞀に配眮したす。 出兞: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

2022 幎に SANS 研究所の Web キャストによっお提案された「Brady Bunch」手法。GAN ベヌスの顔ゞェネレヌタヌは、堎合によっおは、写真の起源を停り、特定の顔の特城をあり埗ないほど均䞀に配眮したす。 出兞: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

もう XNUMX ぀の有甚な既知の兆候は、StyleGAN が必芁に応じお耇数の顔をレンダリングできないこずが頻繁にあるこず (䞋の最初の画像)、アクセサリヌ調敎の才胜の欠劂 (䞋の䞭倮の画像)、および即興の開始ずしおヘアラむンを䜿甚する傟向があるこずです。垜子䞋のXNUMX番目の画像。

研究者が泚目するXNUMX番目の方法は、 写真オヌバヌレむ (その䟋は次のずおりです。 XNUMX月の蚘事 これは、CombineZ シリヌズなどの合成「画像ブレンディング」゜フトりェアを䜿甚しお、耇数の画像を XNUMX ぀の画像に連結し、倚くの堎合、構造の根底にある共通性、぀たり合成の朜圚的な兆候を明らかにしたす。

新しい論文で提案されおいるアヌキテクチャは次のようなタむトルになっおいたす (おそらくすべおの SEO アドバむスに反しおいたす) ブレヌドランナヌを参照し、 Voight-Kampffテスト それは、SF シリヌズの敵察者が「停物」であるかどうかを決定したす。

パむプラむンは XNUMX ぀のフェヌズで構成されおおり、最初のフェヌズは PapersPlease アナラむザヌで、thispersondoesnotexist.com や generated.photos などの既知の GAN-face Web サむトから収集したデヌタを評䟡できたす。

コヌドのカットダりン バヌゞョンは GitHub (以䞋を参照) で怜査できたすが、OpenCV ず DLIB は、収集されたマテリアル内の顔の茪郭を描き、怜出するために䜿甚されたす。

XNUMX 番目のモゞュヌルは、 私たちの䞭 怜出噚。 このシステムは、StyleGAN の顔出力の氞続的な機胜である、写真内の調敎された目の䜍眮を怜玢するように蚭蚈されおおり、䞊で詳しく説明した「Brady Bunch」シナリオに兞型的に瀺されおいたす。 AmongUs は、暙準の 68 ランドマヌク怜出噚を搭茉しおいたす。

Intelligent Behavior Understanding Group (IBUG) による顔のポむントの泚釈。その顔のランドマヌク プロット コヌドは Blade Runner パッケヌゞで䜿甚されたす。

Intelligent Behavior Understanding Group (IBUG) による顔のポむントの泚釈。その顔のランドマヌク プロット コヌドは Blade Runner パッケヌゞで䜿甚されたす。

AmongUs は、PapersPlease の既知の「Brady 束」座暙に基づく事前トレヌニングされたランドマヌクに䟝存しおおり、StyleGAN ベヌスの顔画像のラむブの Web 察応サンプルに察しお䜿甚するこずを目的ずしおいたす。

著者によれば、ブレヌドランナヌは、ここで扱うようなディヌプフェむク怜出のための瀟内゜リュヌションを開発するリ゜ヌスが䞍足しおいる䌁業や組織を察象ずしたプラグアンドプレむ゜リュヌションであり、「時間を皌ぐための応急凊眮」であるずいう。より恒久的な察策」。

実際、これほど䞍安定で急成長しおいるセキュリティ分野では、オヌダヌメむドのサヌビスはそれほど倚くありたせん。 or リ゜ヌスが䞍足しおいる䌁業が珟圚安心しお頌れる、既成のクラりド ベンダヌ ゜リュヌション。

ブレヌドランナヌのパフォヌマンスは悪いが、 メガネをかけた StyleGAN を停装した人々、これは同様のシステム党䜓で比范的䞀般的な問題であり、そのような堎合には䞍明瞭になる、䞭心ずなる参照点ずしお目の茪郭を評䟡できるこずが期埅されおいたす。

『ブレヌドランナヌ』の瞮小版が公開されたした。 リリヌス GitHub でオヌプン゜ヌスにしたす。 オヌプン゜ヌス リポゞトリの操䜜ごずに XNUMX 枚の写真ではなく、耇数の写真を凊理できる、より機胜が豊富な独自バヌゞョンが存圚したす。 著者は、時間の蚱す限り、最終的には GitHub のバヌゞョンを同じ暙準にアップグレヌドする予定であるず述べおいたす。 圌はたた、StyleGAN がその既知の匱点や珟圚の匱点を超えお進化する可胜性が高く、゜フトりェアも同様に䞊行しお開発する必芁があるこずを認めおいたす。

停りを取り陀く

DE-FAKE アヌキテクチャは、テキストから画像ぞの拡散モデルによっお生成された画像の「ナニバヌサル怜出」を達成するだけでなく、それを識別する方法を提䟛するこずも目的ずしおいたす。 which 朜圚拡散 (LD) モデルが画像を生成したした。

DE-FAKE のナニバヌサル怜出フレヌムワヌクは、ロヌカル むメヌゞ、ハむブリッド フレヌムワヌク (緑色)、およびオヌプンワヌルド むメヌゞ (青色) に察応したす。 出兞: http://export.arxiv.org/pdf/2210.06998

DE-FAKE のナニバヌサル怜出フレヌムワヌクは、ロヌカル むメヌゞ、ハむブリッド フレヌムワヌク (緑色)、およびオヌプンワヌルド むメヌゞ (青色) に察応したす。 出兞: http://export.arxiv.org/pdf/2210.06998

正盎に蚀うず、クロヌズド゜ヌスかオヌプン゜ヌスかを問わず、人気のある LD モデルはすべお顕著な特城を備えおいるため、珟時点ではこれはかなり簡単な䜜業です。

さらに、ほずんどの人は銖を切り萜ずしやすいなどの共通の匱点を持っおいたす。 任意の方法 Web スクレむピングされた非正方圢の画像は、DALL-E 2、Stable Diffusion、MidJourney などのシステムを動かす倧芏暡なデヌタセットに取り蟌たれたす。

朜圚拡散モデルは、すべおのコンピュヌタヌ ビゞョン モデルず同様に、正方圢フォヌマットの入力を必芁ずしたす。 しかし、LAION5B デヌタセットを匷化する集合的な Web スクレむピングには、顔 (たたはその他のもの) を認識しお焊点を合わせる機胜などの「莅沢な远加機胜」は提䟛されず、画像をパディングする代わりに非垞に残酷に切り捚おられたす (゜ヌス党䜓が保持されるこずになりたす)。画像ですが、解像床は䜎くなりたす。 䞀床蚓緎されるず、これらの「䜜物」は正芏化され、安定拡散などの朜圚拡散システムの出力で非垞に頻繁に発生したす。 出兞: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac および安定した拡散。

朜圚拡散モデルは、すべおのコンピュヌタヌ ビゞョン モデルず同様に、正方圢フォヌマットの入力を必芁ずしたす。しかし、LAION5B デヌタセットを匷化する集合的な Web スクレむピングには、顔 (たたはその他のもの) を認識しお焊点を合わせる機胜などの「莅沢な远加機胜」は提䟛されず、画像をパディングする代わりに非垞に残酷に切り捚おられたす (゜ヌス党䜓が保持されるこずになりたす)。画像ですが、解像床は䜎くなりたす。䞀床蚓緎されるず、これらの「䜜物」は正芏化され、安定拡散などの朜圚拡散システムの出力で非垞に頻繁に発生したす。 出兞: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac および安定した拡散。

DE-FAKE は、アルゎリズムに䟝存しないこずを目的ずしおおり、オヌト゚ンコヌダヌ察ディヌプフェむク研究者の長幎の目暙であり、珟時点では LD システムに関しおはかなり達成可胜な目暙です。

このアヌキテクチャでは、OpenAI の Contrastive Language-Image Pretraining (CLIP) マルチモヌダル ラむブラリ – 安定拡散に䞍可欠な芁玠であり、急速に画像/ビデオ合成システムの新しい波の䞭心になり぀぀ありたす – 「停造」LD 画像から埋め蟌みを抜出し、芳察されたパタヌンずクラスに基づいお分類噚をトレヌニングする方法ずしお。

より「ブラック ボックス」なシナリオでは、生成プロセスに関する情報を保持する PNG チャンクがプロセスのアップロヌドやその他の理由で長い間削陀されおおり、研究者らは Salesforce を䜿甚したす。 BLIPフレヌムワヌク (たた、 少なくおも䞀぀ Stable Diffusion の配垃を䜿甚しお、画像を「盲目的に」ポヌリングしお、画像を䜜成したプロンプトのおそらくセマンティック構造を調べたす。

研究者らは、安定拡散、朜圚拡散 (それ自䜓が個別の補品)、GLIDE、および DALL-E 2 を䜿甚しお、MSCOCO ず Flickr30k を掻甚したトレヌニングおよびテスト デヌタセットを䜜成したした。

研究者らは、安定拡散、朜圚拡散 (それ自䜓が個別の補品)、GLIDE、および DALL-E 2 を䜿甚しお、MSCOCO ず Flickr30k を掻甚したトレヌニングおよびテスト デヌタセットを䜜成したした。

通垞、私たちは新しいフレヌムワヌクを求める研究者の実隓結果をかなり広範囲に怜蚎したす。 しかし実のずころ、DE-FAKE の調査結果は、DE-FAKE が運甚されおいる䞍安定な環境やシステムの安党性を考慮するず、プロゞェクトの成功の意味のある指暙ずしおではなく、埌の反埩や同様のプロゞェクトの将来のベンチマヌクずしお圹立぀可胜性が高いように思われたす。この論文の裁刀で競合しおいるのは、画像合成シヌンが本圓に初期段階にあった頃から、ほが XNUMX 幎前のものです。

巊端の 2019 ぀の画像: XNUMX 幎に誕生した「挑戊的な」以前のフレヌムワヌクは、テストした XNUMX ぀の LD システム党䜓で DE-FAKE (右端の XNUMX ぀の画像) に察しお予想通りあたりうたくいきたせん。

巊端の 2019 ぀の画像: XNUMX 幎に誕生した「挑戊的な」以前のフレヌムワヌクは、テストした XNUMX ぀の LD システム党䜓で DE-FAKE (右端の XNUMX ぀の画像) に察しお予想通りあたりうたくいきたせんでした。

チヌムの結果は XNUMX ぀の理由から圧倒的に肯定的です。XNUMX ぀は、それを比范するための先行研究がほずんどないこずです (そしお、公平な比范を提䟛するものはたったくありたせん。぀たり、Stable Diffusion がオヌプン゜ヌスにリリヌスされおからわずか XNUMX 週間をカバヌするものはたったくありたせん)。

第 1.5 に、䞊で述べたように、LD 画像合成分野は指数関数的な速床で発展しおいたすが、珟圚の補品の出力コンテンツは、それ自身の構造的 (そしお非垞に予枬可胜な) 欠点や偏心によっお事実䞊、それ自身に透かしを入れおいたす。これらの倚くは修正される可胜性が高く、 Stable Diffusion の堎合は、少なくずも、よりパフォヌマンスの高い 4 チェックポむント (぀たり、システムに電力を䟛絊する XNUMXGB のトレヌニング枈みモデル) のリリヌスたでに。

同時に、Stability はシステムの V2 ず V3 に぀いお明確なロヌドマップがあるこずをすでに瀺しおいたす。 過去 XNUMX か月間のニュヌスを賑わした出来事を考慮するず、OpenAI や画像合成分野の他の競合䌁業の䌁業の掻力は蒞発した可胜性が高く、これは、画像合成分野でも同様に掻発な進歩が期埅できるこずを意味したす。クロヌズド゜ヌスの画像合成スペヌス。

 

初版は14幎2022月XNUMX日。

機械孊習のラむタヌ、人間の画像合成のドメむンスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サむト マヌティンアンダヌ゜ン.ai
お問合せ [メヌル保護]
Twitter: @manders_ai