Góc nhìn Anderson

Tại Sao Sự Nhập Nhau Khái Niệm Có Nghĩa Là Bạn Không Thể Có Video ‘Theo Cách Của Bạn’

mm
AI-generated image (GPT-1.5) depicting a man trying to fit disparate Legos together.

Công cụ video AI hứa hẹn kiểm soát hoàn toàn, nhưng sự nhập nhau khái niệm ‘concept entanglement’ ẩn náu buộc các bản sắc, biểu cảm và hành vi gắn liền với nhau, buộc phải sử dụng các mẹo và thủ thuật template để phá vỡ huyền thoại về phép thuật GenAI không cần nỗ lực.

 

Ý Kiến Kể từ khi tôi lần cuối cùng thảo luận về chủ đề này một cách chi tiết năm năm trước, vấn đề về sự nhập nhau khái niệm trong các hệ thống AI được đào tạo đã mở rộng đến một phạm vi người dùng rộng lớn hơn, mà không thực sự được hiểu rõ hơn về mặt bản chất của nó.

Vào thời điểm đó, hệ thống autoencoder deepfake (tức là DeepFaceLab đã không còn tồn tại và FaceSwap, cả hai đều được bắt nguồn từ mã Reddit năm 2017 bị loại bỏ ngay lập tức) là những công cụ duy nhất để tạo ra các deepfake của người có độ phân giải khá cao.

Các hệ thống này dựa trên các tập dữ liệu đào tạo khuôn mặt rộng lớn được thiết kế để cung cấp cho mô hình AI thông tin về A) người đó trông như thế nào trong trạng thái nghỉ (một mã hóa tham chiếu) và B) người đó trông như thế nào trong các tình huống đa dạng mà một khuôn mặt có thể phản ánh, từ ngủ đến cười, kinh hoàng, chán nản, hoài nghi, buồn, v.v.

Bản sắc đến không chỉ đơn giản, mà cùng với biểu cảm khuôn mặt. Ngoài ra, một số cảm xúc có thể chỉ có sẵn dữ liệu khuôn mặt từ các góc cực đoan cụ thể, điều này sẽ liên kết góc với cảm xúc và ngược lại.

Bản sắc đến không chỉ đơn giản, mà cùng với biểu cảm khuôn mặt. Ngoài ra, một số cảm xúc có thể chỉ có sẵn dữ liệu khuôn mặt từ các góc cực đoan cụ thể, điều này sẽ liên kết góc với cảm xúc và ngược lại.

Vấn đề là bản sắc khuôn mặt thông thường phải được suy đoán từ các bức ảnh khuôn mặt không trung lập, vì vậy sự phân bố sẽ bị dịch chuyển theo hướng ‘mặc định cười’ do số lượng lớn ảnh chụp trên thảm đỏ trong dữ liệu đào tạo được thu thập từ web.

Nghĩa là hệ thống autoencoder sẽ phải cố gắng trích xuất một khái niệm bản sắc ‘trung lập’ từ hàng nghìn hình ảnh nơi các đặc điểm khuôn mặt bị biến dạng bởi biểu cảm khuôn mặt thông thường.

Nó cũng phải cố gắng tách các khái niệm khuôn mặt ngữ nghĩa của các cảm xúc khác nhau từ góc mà khuôn mặt được chụp. Điều này có nghĩa là nếu chỉ có ‘khuôn mặt sợ hãi’ được chụp từ góc nhìn ngang, hệ thống được đào tạo sẽ chỉ có thể tái tạo lại cảm xúc đó một cách tối ưu từ góc nhìn đó.

Hướng Tiếp Cận

Khi các phương pháp diffusion-based chiếm lĩnh sân chơi hình ảnh và video từ năm 2022, các hệ thống sinh tổng hợp đã trở nên tốt hơn trong việc ngoại suy các biểu cảm khuôn mặt chính xác khi được cung cấp dữ liệu khuôn mặt hạn chế.

Ngay cả thử thách tạo ra các góc nhìn ngang đáng tin cậy đã gần như được vượt qua, ở trạng thái hiện tại của công nghệ, trong khi dữ liệu biểu cảm đã được tách ra khỏi bản sắc một cách hiệu quả – đến mức loại DeepFaceLive đã tiên phong trong lĩnh vực phát trực tuyến deepfake thời gian thực đã có nhiều ứng dụng ngoại tuyến hiệu quả, với việc thực hiện thời gian thực có thể là một phát triển trong tương lai:

Nhấn để phát. Từ dự án ‘FlashPortrait’, các ví dụ đa dạng về việc điều khiển các hình đại diện thông qua video nguồn. Trong trường hợp này, không quan trọng bên nào là ‘thực tế’, nếu có. Nguồn 

Tuy nhiên, khi canvas của GenAI mở rộng và đầu ra trở nên tinh vi hơn, vấn đề về sự nhập nhau khái niệm chỉ đơn giản lan sang nhiều lĩnh vực khác – và hiện đang được ‘sửa’ bằng một số thủ thuật khá rẻ tiền và cũ. Nếu bạn không biết những thủ thuật đó là gì, bạn có thể có một cái nhìn tích cực hơn về tốc độ tiến bộ của video và hình ảnh AI và vượt qua những lỗi cũ của nó.

Mèo Chatter

Hy vọng đã rõ tại sao bản sắc và cảm xúc đã chứng minh là khó tách biệt đối với các hệ thống autoencoder cũ năm 2017. Đó là vì a) Có quá nhiều dữ liệu của một loại, HOẶC quá cụ thể một phiên bản của một loại dữ liệu quan trọng, bất kỳ điều nào trong số này sẽ gây ra sự thiên vị phân phối; và / hoặc B) kiến trúc mô hình không đủ khả năng tách biệt những phẩm chất này và có xu hướng ‘dán chúng lại với nhau’ tại thời điểm suy luận, trừ khi người dùng dành một lượng chăm sóc phi thường để đảm bảo sự cân bằng trong tập dữ liệu của họ.

Vì lý do tương tự, các vấn đề tương tự đã xuất hiện trong một số mô hình video mã nguồn mở và độc quyền trong những năm qua, mặc dù chúng đã bị lu mờ bởi mức độ chỉ trích cao hơn về ảo giác, thiếu kiểm duyệt, và nhiều chủ đề khác.

Ví dụ, trong hệ thống Wan2.+, nhiều người dùng đã tìm thấy rất khó khăn để ngăn chặn các nhân vật được tạo ra từ nói liên tục, và thường cũng khó để ngăn chặn chúng nhìn vào máy ảnh.

Vấn đề về việc nhìn vào máy ảnh (hoặc phá vỡ tường thứ tư) đã xuất hiện từ trước khi có các hệ thống tổng hợp video, vì nó đã xuất hiện trong các hệ thống khuếch tán chỉ hình ảnh, do sự phổ biến của ảnh ‘nhìn vào máy ảnh’ trong các tập dữ liệu được thu thập từ web như LAION.

Vấn đề về các nhân vật ‘nói nhiều’ xuất phát từ sự dồi dào của các video ‘người có ảnh hưởng’ trên YouTube, cung cấp hàng nghìn giờ phát trực tiếp, thường được thu thập vào các tập dữ liệu nơi các nhà khoa học có thể rửa dữ liệu thu thập từ web bằng cách cung cấp một ngữ cảnh học thuật.

Nhưng trừ khi những người tạo hoặc người thu thập sau đó dành chăm sóc để hạn chế số lượng video của loại này và cân bằng chúng với các loại footage khác, một thiên vị nghiêm trọng sẽ phát triển trong mô hình video, đòi hỏi phải có các biện pháp khắc phục dựa trên lời nhắc và các hệ thống phụ trợ của bên thứ ba.

Đối mặt với vấn đề ‘nói nhiều’ của Wan, người dùng Reddit u / Several-Estimate-681 đã tìm ra một biện pháp khắc phục tận dụng một cài đặt trong hệ thống Infinite Talk V2V – một khuôn khổ được thiết kế để khuyến khích sự nói nhiều theo kiểu người có ảnh hưởng – cho phép người dùng im lặng nhân vật được tạo:

Nhấn để phát: Chỉ nghe – một biện pháp khắc phục để đạt được sự chú ý của nhân vật trong Wan2.+. Nguồn 

Rõ ràng, các捷径 như vậy không đại diện cho các giải pháp kiến trúc cấp thấp; và, trong sự vắng mặt của các giải pháp thực sự được tìm thấy và thực hiện bởi những người tạo ra các mô hình cơ sở (vì những người đam mê thông thường không có hàng triệu đô la để tái tạo hoặc tinh chỉnh công việc như vậy), điều này có nghĩa là trò chơi ‘đập chuột’ về sự nhập nhau khái niệm có khả năng sẽ được đặt lại về không tại phiên bản tiếp theo.

Rẻ Và Dễ Gãy

Không có gì trong kiến trúc khuếch tán bản thân làm cho những vấn đề này trở nên không thể tránh khỏi; thực tế, nếu có cách nào để áp dụng việc kiểm duyệt, phân loại và chú thích chất lượng cao thực sự cho các tập dữ liệu siêu lớn với hàng triệu điểm dữ liệu, gần như tất cả những vấn đề này sẽ có khả năng biến mất.

Tuy nhiên, mức độ chăm sóc chi tiết như vậy sẽ tương đương với Dự án Manhattan về mặt hậu cần, phạm vi, tài nguyên cần thiết và nỗ lực lâu dài. Trong một khí hậu nơi một kiến trúc mới, hoặc thậm chí một phiên bản kiến trúc mới, có thể hủy bỏ mức độ nỗ lực như vậy, không có ý chí hiện tại để cam kết như vậy.

Do đó, miễn là phù hợp với việc có được các mô hình có thể sử dụng, các phương pháp rẻ nhất vẫn được ưa chuộng. Một ví dụ về ‘keo kiệt’ là tăng cường dữ liệu, khi được áp dụng một cách hào phóng và cho các loại videoclip trong tập dữ liệu, có thể có kết quả hài hước:

Bởi vì tăng cường dữ liệu thường đảo ngược hướng của video nguồn trong tập dữ liệu, mô hình AI có thể偶爾 học được một số ‘động作 không thể’.Nguồn

Tuy nhiên, trong tổng thể, những viên đá lăn lên đồi và những người phá vỡ nhân vật bằng cách bật ‘chế độ người có ảnh hưởng’ có xu hướng được coi là những thiệt hại附随 trong các hệ thống sinh tổng hợp có thể, mặc dù những lỗi và điểm yếu dai dẳng như vậy, vẫn có thể được điều khiển để tạo ra kết quả ấn tượng và đủ để khiến các tiêu đề bị sốc.

Giải Pháp Sẵn Có

Trong giai đoạn hiện tại, hàng trăm lĩnh vực video sinh tổng hợp, gần như tất cả đều vi phạm luật và phản hồi mới đối với GenAI, đang tận hưởng thời gian của chúng trước khi thực thi pháp luật, danh sách đen hoặc các hình thức loại bỏ nền tảng khác loại bỏ các dịch vụ thương mại này.

Các trang web lớn và nổi tiếng hơn thuộc loại này, như Kling và Grok, có xu hướng tuân thủ một số hình thức tự kiểm duyệt (cuối cùng), hoặc phản hồi với sự chỉ trích bằng cách thay đổi loại nội dung mà nền tảng của họ tạo điều kiện cho người dùng.

Nhưng sau những cái tên lớn là hàng trăm hoạt động bay đêm khác, luôn đáp ứng nhu cầu về các loại nội dung mới (và thường cực đoan hơn).

Loại cung cấp này ngăn cản chi phí và nỗ lực cao để đào tạo các mô hình cơ sở từ đầu. Thậm chí, ngay cả việc tinh chỉnh, đòi hỏi ít tốn kém hơn, cũng thường bị loại bỏ.

Do đó, những trang web này cung cấp ‘mẫu’, hoạt động 100% giống như LoRAs tùy chỉnh, đã được các nhà đam mê AI sử dụng hơn bốn năm nay, để đào tạo bất kỳ bản sắc, phong cách, đối tượng hoặc (trong trường hợp của video LoRAs) chuyển động hoặc hành động nào vào một phụ kiện LoRA chuyên dụng.

Với LoRA được đặt giữa người dùng và mô hình cơ sở, kết quả thu được sẽ rất cụ thể cho những gì LoRA được đào tạo, và thông thường, hiệu suất rộng lớn hơn của mô hình sẽ bị suy yếu bởi ảnh hưởng uốn cong trọng lượng của LoRA, sẽ tái tạo chủ đề của nó rất tốt, nhưng cũng sẽ xen chủ đề đó vào bất kỳ yêu cầu nào (nếu các trang web video GenAI bay đêm cho phép mức độ kiểm soát này – chúng không; chúng chỉ cung cấp một [HÀNH ĐỘNG CỦA BẠN CHỌN] mẫu và diễn giải đầu vào văn bản / hình ảnh / video của bạn theo cách có khả năng dẫn đến việc áp dụng mẫu thành công).

Đối với những lý do rõ ràng, tôi không thể nhúng mẫu trang web vào bài viết này; nhưng văn học nghiên cứu gần đây đã cung cấp một số ví dụ tương tự. Ví dụ, dự án EffectMaker cho thấy nguyên tắc hoạt động, theo đó một hành động cụ thể được áp dụng cho hình ảnh do người dùng cung cấp:

Nhấn để phát. Trong EffectMaker, các hiệu ứng cụ thể có thể được áp dụng cho đầu vào tùy chỉnh. Nguồn 

Ngay cả trong những hoàn cảnh được kiểm soát và nhắm mục tiêu cao như vậy, người dùng thường phàn nàn rằng cần phải thực hiện nhiều lần, tốn token, để có được kết quả tốt, và chúng ta không nên quy kết cho nhà cung cấp sự keo kiệt hoặc hành vi kinh doanh sắc sảo những gì có khả năng là lỗi của các khuôn khổ GenAI ‘hit-and-miss’ bẩm sinh.

Công chúng rộng lớn hơn có thể có ấn tượng về khả năng của GenAI từ các ví dụ được chọn lọc, không đại diện cho những gì một người dùng thông thường có thể đạt được. Nếu một người dùng tiêu tốn sáu lần thử mẫu (tức là một LoRA do trang web AI cung cấp), họ sẽ có xu hướng xuất bản và ca ngợi tốt nhất trong số này, tạo ấn tượng rằng có thể đạt được những kết quả như vậy bằng cách truy vấn mô hình cơ bản – và tạo ấn tượng rằng các mô hình cơ sở sinh tổng hợp thực sự linh hoạt hơn nhiều so với thực tế.

Kết Luận

Văn học tiếp tục xem xét vấn đề về sự nhập nhau khái niệm, lần đầu tiên được chú ý nghiêm túc vào năm 2020, trong hợp tác Nhìn một cách tỉnh táo về việc học không giám sát các biểu diễn tách biệt và đánh giá của chúng của Max Planck / Google.

Các hậu thân của Tách biệt qua tương phản (DisCo) xuất hiện định kỳ, và lĩnh vực vẫn sôi động với nhận thức về vấn đề vượt xa nhận thức công chúng về những gì AI không thể làm, trong những khía cạnh này.

Một nghiên cứu của Trung Quốc từ năm 2024 cho thấy rằng việc giải quyết sự nhập nhau khái niệm có thể không cần thiết để giải quyết các vấn đề mà nó gây ra. Lịch sử cho thấy điều này là đúng, vì nhiều vấn đề không thể giải quyết được trong thị giác máy tính đã được vượt qua không bằng cách giải quyết chúng, mà bằng cách được thay thế bằng các kỹ thuật và phương pháp hoàn toàn mới.

Cho đến khi một đối thủ rời rạc như vậy xuất hiện, dường như chúng ta sẽ tiếp tục phải áp dụng các bản vá và băng gạc cho những điểm yếu và hạn chế của GenAI, và chịu đựng sự đánh giá quá cao của công chúng về sự linh hoạt và độ dẻo của các mô hình cơ sở.

 

Được xuất bản lần đầu vào Thứ Hai, ngày 23 tháng 3 năm 2026

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]