Connect with us

Anderson 视角

教導 AI 給出更好的影片批評

mm
Image of a robot with popcorn in a cinema, ChatGPt-4+ and Adobe Firefly.

雖然大型視覺語言模型(LVLMs)可以在解釋計算機視覺文獻中一些更為晦澀或具有挑戰性的提交方面發揮有用的作用,但是在一個領域中,它們受到限制:確定任何伴隨新論文的影片範例的優點和主觀質量。

這是提交的一個關鍵方面,因為科學論文經常旨在通過引人入勝的文字或視覺效果(或兩者兼而有之)來產生興奮。

但是,在涉及視頻合成的項目中,作者必須展示實際的視頻輸出,否則他們的工作將被驅逐;而在這些演示中,宣稱的差距和實際性能之間的差距最常出現。

我讀了書,但沒有看過電影

目前,大多數流行的基於 API 的大型語言模型(LLMs)和大型視覺語言模型(LVLMs)不會直接分析視頻內容以任何方式,無論是質性還是量性。相反,它們只能分析相關的轉錄本——以及可能的評論線程和其他嚴格的文本基礎的附加材料。

GPT-4o、Google Gemini 和 Perplexity 在被要求直接分析視頻而不使用轉錄本或其他文本基礎的來源時的不同異議。

GPT-4o、Google Gemini 和 Perplexity 在被要求直接分析視頻而不使用轉錄本或其他文本基礎的來源時的不同異議。

然而,LLM 可能會隱藏或否認其無法實際觀看視頻的能力,除非您直接質問它:

在被要求提供新研究論文相關視頻的主觀評價後,ChatGPT-4o 最終承認它不能直接查看視頻。

在被要求提供新研究論文相關視頻的主觀評價後,ChatGPT-4o 最終承認它不能直接查看視頻。

雖然像 ChatGPT-4o 這樣的模型是多模態的,可以至少分析個別照片(例如從視頻中提取的幀,見上圖),但仍有一些問題:首先,幾乎沒有理由相信 LLM 的質性意見,因為 LLM 容易迎合人們的喜好,而不是進行真誠的對話。

其次,許多生成視頻的問題可能與時間有關,這完全是在幀抓取中丟失的——因此,檢查個別幀是沒有意義的。

最後,LLM 只能根據吸收的文本知識給出所謂的「價值判斷」,例如在深度偽造圖像或藝術史方面。例如,訓練有素的領域知識允許 LLM 將圖像的視覺質量與基於人類見解的學習嵌入進行關聯:

FakeVLM 項目提供了針對特定深度偽造檢測的專用多模態視覺語言模型。來源:https://arxiv.org/pdf/2503.14905

FakeVLM 項目提供了針對特定深度偽造檢測的專用多模態視覺語言模型。來源:https://arxiv.org/pdf/2503.14905

這並不意味著 LLM 不能直接從視頻中獲得信息;例如,使用 YOLO 等附加 AI 系統,LLM 可以在視頻中識別物體——或者,如果它被訓練為超出平均水平的多模態功能,它可以直接執行此操作。

但是,LLM 想要主觀地評估視頻(即「對我來說這不看起來是真實的」)的唯一方法是通過應用反映人類意見的損失函數基礎的度量標準,或者直接由人類意見告知。

損失函數是用於訓練過程中測量模型預測與正確答案之間的差距的數學工具。它們提供了反饋,指導模型的學習:錯誤越大,損失越大。隨著訓練的進行,模型調整其參數以減少這個損失,逐漸提高其進行準確預測的能力。

損失函數既用於調節模型的訓練,也用於校準設計用於評估 AI 模型輸出的算法(例如評估生成的模擬攝影級別內容)。

條件視覺

最受歡迎的度量標準/損失函數之一是 Fréchet Inception Distance(FID),它通過測量生成圖像的分布(這裡的意思是「圖像如何根據視覺特徵分佈或分組」)與真實圖像的分布之間的相似性來評估生成圖像的質量。

具體而言,FID 使用均值和 協方差 計算兩組圖像之間的統計差異,使用(經常批評的)Inception v3 分類網絡從兩組圖像中提取特徵。較低的 FID 分數表示生成的圖像更類似於真實圖像,意味著視覺質量和多樣性更好。

然而,FID 本質上是比較的,可能是自我參考的性質。為了糾正這一點,後來的 有條件 Fréchet Distance(CFD,2021)方法與 FID 不同之處在於,CFD 比較生成的圖像與真實圖像,並根據它們與額外條件的匹配情況進行評分,例如(不可避免地主觀的)類別標籤或輸入圖像。

這樣,CFID 考慮了圖像如何準確地滿足預期條件,而不僅僅是它們的整體真實性或多樣性。

2021 年 CFD 項目的示例。來源:https://github.com/Michael-Soloveitchik/CFID/

2021 年 CFD 項目的示例。來源:https://github.com/Michael-Soloveitchik/CFID/

CFD 跟隨最近的一種趨勢,即在損失函數和度量算法中融入質性的人類解釋。雖然這種以人為中心的方法保證了所得算法不會是「沒有靈魂的」或只是機械的,但它同時也帶來了一些問題:偏見的可能性;更新算法以符合新做法的負擔;以及這將消除在多年內跨項目保持一致的比較標準的可能性;以及預算限制(較少的人類貢獻者將使決定更加可疑,而較高的數量可能會因為成本而阻止有用的更新)。

cFreD

這使我們來到了美國的一篇新論文,似乎提供了 有條件 Fréchet Distance(cFreD),這是一種新型的 CFD,旨在通過評估視覺質量和圖像-文本對齊來更好地反映人類偏好

新論文的部分結果:不同度量標準(1-9)對於提示「客廳裡有一張沙發和一台筆記本電腦放在沙發上」的圖像排名。綠色突出顯示人類評分最高的模型(FLUX.1-dev),紫色突出顯示評分最低的模型(SDv1.5)。只有 cFreD 與人類排名相匹配。請參考原始論文的完整結果,我們沒有足夠的空間在此處重現。來源:https://arxiv.org/pdf/2503.21721

新論文的部分結果:不同度量標準(1-9)對於提示「客廳裡有一張沙發和一台筆記本電腦放在沙發上」的圖像排名。綠色突出顯示人類評分最高的模型(FLUX.1-dev),紫色突出顯示評分最低的模型(SDv1.5)。只有 cFreD 與人類排名相匹配。請參考原始論文的完整結果,我們沒有足夠的空間在此處重現。來源:https://arxiv.org/pdf/2503.21721

作者認為,現有的文本到圖像合成評估方法,例如 Inception Score(IS)和 FID,與人類判斷不符,因為它們只衡量圖像質量,而不考慮圖像與提示的匹配程度:

‘例如,考慮一個包含兩個圖像的數據集:一個圖像是一隻狗,另一個圖像是一隻貓,每個圖像都與其對應的提示配對。一種完美的文本到圖像模型可能會錯誤地交換這些映射(即為狗提示生成一隻貓,反之亦然),但它仍然可以達到接近零的 FID,因為整體的狗和貓的分佈保持不變,儘管它們與預期的提示不匹配。 ‘

‘我們展示了 cFreD 捕捉更好的圖像質量評估和條件文本輸入,並且與人類偏好更為一致。’

作者的測試表明,所提出的度量標準 cFreD 在三個基準數據集(PartiPrompts、HPDv2 和 COCO)上始終比 FID、FDDINOv2、CLIPScore 和 CMMD 更好地與人類偏好保持一致。

作者的測試表明,所提出的度量標準 cFreD 在三個基準數據集(PartiPrompts、HPDv2 和 COCO)上始終比 FID、FDDINOv2、CLIPScore 和 CMMD 更好地與人類偏好保持一致。

概念和方法

作者指出,評估文本到圖像模型的當前金標準涉及收集人類偏好數據,通過類似於大型語言模型(例如 LMSys Arena)的方法進行比較。

例如,PartiPrompts Arena 使用 1,600 個英語提示,向參與者展示不同模型的圖像對,請求它們選擇最受歡迎的圖像。

類似地,Text-to-Image Arena Leaderboard 使用用戶比較模型輸出來生成排名,通過 ELO 分數進行評估。然而,收集這種人類評估數據是昂貴和緩慢的,這使得一些平台(如 PartiPrompts Arena)完全停止更新。

Artificial Analysis Image Arena Leaderboard,排名當前領先的生成視覺 AI。來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Artificial Analysis Image Arena Leaderboard,排名當前領先的生成視覺 AI。來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

雖然存在替代方法,使用歷史人類偏好數據進行訓練,但其對未來模型的評估有效性仍然不確定,因為人類偏好不斷演變。因此,自動化度量標準,例如 FID、CLIPScore 和作者提出的 cFreD,似乎將仍然是至關重要的評估工具。

作者假設,真實和生成的圖像都根據提示遵循 高斯分布,每個都由條件均值和協方差定義。cFreD 測量這些條件分布之間的預期 Fréchet 距離。這可以直接用條件統計或通過將無條件統計與涉及提示的協方差結合來表達。

通過這種方式將提示納入考慮,cFreD 能夠評估圖像的真實性和它們與給定文本的一致性。

數據和測試

為了評估 cFreD 與人類偏好的一致性,作者使用了多個模型對同一文本提示的圖像排名。它們的評估來自兩個來源:Human Preference Score v2(HPDv2)測試集,包含每個提示九個生成圖像和一個 COCO 基準圖像;以及上述 PartiPrompts Arena,包含四個模型在 1,600 個提示上的輸出。

作者收集了 Arena 散亂的數據點到一個單一的數據集;在真實圖像在人類評估中排名不是最高的情況下,它們使用排名最高的圖像作為參考。

為了測試新模型,作者從 COCO 的訓練和 驗證 集中抽取了 1,000 個提示,確保它們與 HPDv2 沒有重疊,並使用 Arena Leaderboard 上的九個模型生成圖像。原始 COCO 圖像在此評估中作為參考。

cFreD 方法通過四個統計度量進行評估:FID;FDDINOv2;CLIPScore;和 CMMD。它還與四個在人類偏好數據上訓練的度量標準進行了比較:Aesthetic ScoreImageReward;HPSv2;和 MPS

作者評估了 cFreD 與人類判斷的相關性,既從排名又從評分的角度進行評估:對於每個度量標準,模型分數都會被報告,並計算它們的排名,以便與人類評估結果保持一致,使用 DINOv2-G/14 作為圖像嵌入和 OpenCLIP ConvNext-B 文本編碼器作為文本嵌入†。

以前的工作關於學習人類偏好測量了每個項目的排名準確率,它計算每個圖像-文本對的排名準確率,然後對結果進行平均。

作者使用 全局 排名準確率來評估 cFreD,它評估整個數據集的整體排名性能;對於統計度量標準,作者直接從原始分數推導排名;對於在人類偏好上訓練的度量標準,作者首先對每個模型在所有樣本上的排名進行平均,然後從這些平均值中確定最終排名。

初始測試使用了十個框架:GLIDE;COCO;FuseDreamDALLE 2VQGAN+CLIPCogView2Stable Diffusion V1.4VQ-Diffusion;Stable Diffusion V2.0;和 LAFITE

HPDv2 測試集上使用統計度量標準(FID、FDDINOv2、CLIPScore、CMMD 和 cFreD)和人類偏好訓練度量標準(Aesthetic Score、ImageReward、HPSv2 和 MPS)的模型排名和分數。最佳結果以粗體顯示,次佳結果以下劃線顯示。

HPDv2 測試集上使用統計度量標準(FID、FDDINOv2、CLIPScore、CMMD 和 cFreD)和人類偏好訓練度量標準(Aesthetic Score、ImageReward、HPSv2 和 MPS)的模型排名和分數。最佳結果以粗體顯示,次佳結果以下劃線顯示。

關於初始結果,作者評論道:

‘cFreD 達到了 0.97 的人類偏好一致性,與人類偏好最為一致。 在統計度量標準中,cFreD 達到了最高的相關性,與 HPSv2(0.94)相當,HPSv2 是在人類偏好上進行訓練的模型。 考慮到 HPSv2 是在 HPSv2 訓練集上進行訓練的,該訓練集包含了測試集中的四個模型,並且使用了相同的評估者,HPSv2 本質上編碼了相同設置的特定人類偏好偏差。 ‘

‘相比之下,cFreD 在沒有任何人類偏好訓練的情況下達到了可比較或更好的相關性。 ‘

‘這些結果表明,cFreD 在不同模型上提供了更可靠的排名,與標準的自動化度量標準和在人類偏好數據上訓練的度量標準相比。 ‘

在所有評估的度量標準中,cFreD 達到了最高的排名準確率(91.1%),表明它與人類判斷有很強的相關性。

HPSv2 排名第二,達到了 88.9% 的排名準確率,而 FID 和 FDDINOv2 的分數也很接近,分別為 86.7%。雖然在人類偏好數據上訓練的度量標準通常與人類評估一致,但 cFreD 被證明是最強壯和最可靠的。

以下是第二輪測試的結果,使用 SDXLKandinsky 2Würstchen;和 Karlo V1.0 進行測試。

PartiPrompt 上使用統計度量標準(FID、FDDINOv2、CLIPScore、CMMD 和 cFreD)和人類偏好訓練度量標準(Aesthetic Score、ImageReward 和 MPS)的模型排名和分數。最佳結果以粗體顯示,次佳結果以下劃線顯示。

PartiPrompt 上使用統計度量標準(FID、FDDINOv2、CLIPScore、CMMD 和 cFreD)和人類偏好訓練度量標準(Aesthetic Score、ImageReward 和 MPS)的模型排名和分數。最佳結果以粗體顯示,次佳結果以下劃線顯示。

在這一輪中,研究人員指出:

‘在統計度量標準中,cFreD 達到了 0.73 的人類評估相關性,FID 和 FDDINOv2 分別達到了 0.70。相比之下,CLIP 分數與人類判斷相關性很低(0.12)。 ‘

‘在人類偏好訓練類別中,HPSv2 有最強的相關性,達到了 0.83 的相關性,其次是 ImageReward(0.81)和 MPS(0.65)。這些結果強調了 cFreD 作為實用、無需訓練的替代方案在基準測試文本到圖像生成方面的價值。 ‘

最後,作者在 COCO 數據集上使用九個現代文本到圖像模型進行了評估:FLUX.1[dev]Playgroundv2.5Janus Pro;和穩定擴散變體 SDv3.5-L Turbo、3.5-L、3-M、SDXL、2.1 和 1.5。

人類偏好排名來自 Text-to-Image Leaderboard,作為 ELO 分數給出:

在隨機抽取的 COCO 提示上使用自動化度量標準(FID、FDDINOv2、CLIPScore、CMMD 和 cFreD)和人類偏好訓練度量標準(Aesthetic Score、ImageReward、HPSv2 和 MPS)的模型排名。最佳結果以粗體顯示,次佳結果以下劃線顯示。

在隨機抽取的 COCO 提示上使用自動化度量標準(FID、FDDINOv2、CLIPScore、CMMD 和 cFreD)和人類偏好訓練度量標準(Aesthetic Score、ImageReward、HPSv2 和 MPS)的模型排名。最佳結果以粗體顯示,次佳結果以下劃線顯示。

關於這一輪,研究人員指出:

‘在統計度量標準中,cFreD 展示了 0.33 的相關性和 66.67% 的排名準確率。這使得 cFreD 成為第三個最為一致的度量標準,僅次於人類偏好訓練度量標準 ImageReward、HPSv2 和 MPS。 ‘

‘值得注意的是,所有其他統計度量標準都顯示出與 ELO 排名和人類判斷的相關性很弱,結果是排名準確率低於 0.5。 ‘

‘這些結果強調了 cFreD 對視覺忠實度和提示一致性的敏感性,從而強調了它作為基準測試文本到圖像生成的實用、無需訓練的替代方案的價值。 ‘

作者還測試了使用 Inception V3 作為骨幹,並指出它在文獻中的普遍性,但發現 InceptionV3 的表現尚可,但被基於變換器的骨幹(如 DINOv2-L/14 和 ViT-L/16)超越,這些骨幹更一致地與人類排名保持一致——並且認為這支持了在現代評估設置中用這些骨幹取代 InceptionV3。

贏得率,顯示每個圖像骨幹的排名與真實人類衍生排名在 COCO 數據集上匹配的頻率。

贏得率,顯示每個圖像骨幹的排名與真實人類衍生排名在 COCO 數據集上匹配的頻率。

結論

很明顯,人類在迴圈中的解決方案是開發度量標準和損失函數的最佳方法,但是這種方法所需的更新規模和頻率將使其在很長一段時間內仍然不切實際——也許直到公眾參與評估被普遍激勵;或者,正如在 CAPTCHAs 的情況下,強制執行。

作者的新系統的可信度仍然取決於它與人類判斷的相關性,儘管它與許多最近的人類參與方法相比,多了一層間接性;因此,cFreD 的合法性仍然取決於人類偏好數據(很明顯,因為如果沒有這種基準,則聲稱 cFreD 反映人類評估的說法將無法證實)。

將我們目前對「真實性」在生成輸出的標準編碼到度量函數中可能是一個長期的錯誤,因為這個概念目前正在受到新一波生成 AI 系統的挑戰,並且將在未來經常進行重大修訂。

 

* 在這個時候,我通常會包含一個示範性的示例視頻,可能來自最近的學術提交;但是,這將是惡意的——任何人如果花了超過 10-15 分鐘瀏覽 Arxiv 的生成 AI 輸出,都會遇到補充視頻,其主觀質量很差,表明相關提交不會被譽為里程碑式的論文。

實驗中使用了 46 個圖像骨幹模型,並非所有模型都在圖表結果中被考慮。請參考論文的附錄以获取完整的列表;表格和圖表中列出的模型已經被列出。

 

首次發表於 2025 年 4 月 1 日

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai