Trí tuệ nhân tạo

OmniHuman-1: Công nghệ AI của ByteDance biến một bức ảnh thành người nói, cử chỉ và biểu diễn

mm

Hãy tưởng tượng bạn có thể chụp một bức ảnh của một người và trong vài giây, thấy họ nói, cử chỉ và thậm chí biểu diễn – mà không cần quay video thực sự. Đó là sức mạnh của OmniHuman-1 của ByteDance. Mô hình AI mới đây đã trở thành chủ đề nóng, nó mang lại sự sống cho hình ảnh tĩnh bằng cách tạo ra video cực kỳ thực tế, hoàn chỉnh với chuyển động môi đồng bộ, cử chỉ toàn thân và hoạt hình khuôn mặt biểu cảm, tất cả đều được điều khiển bởi một đoạn âm thanh.

Không giống như công nghệ deepfake truyền thống, chủ yếu tập trung vào việc hoán đổi khuôn mặt trong video, OmniHuman-1 tạo ra toàn bộ hình người, từ đầu đến chân. Cho dù đó là một chính trị gia phát biểu, một nhân vật lịch sử được đưa đến cuộc sống, hoặc một avatar được tạo ra bởi AI biểu diễn một bài hát, mô hình này khiến tất cả chúng ta phải suy nghĩ sâu sắc về việc tạo video. Và cùng với sự đổi mới này là một loạt các ý nghĩa – cả thú vị và đáng lo ngại.

Điều gì làm cho OmniHuman-1 nổi bật?

OmniHuman-1 thực sự là một bước nhảy vĩ đại về tính thực tế và chức năng, chính xác là lý do tại sao nó trở thành chủ đề nóng.

Dưới đây là một số lý do tại sao:

  • Không chỉ là đầu nói: Hầu hết các công nghệ AI tạo video và deepfake trước đây chỉ giới hạn ở hoạt hình khuôn mặt, thường tạo ra chuyển động cứng nhắc hoặc không tự nhiên. OmniHuman-1 tạo ra toàn bộ cơ thể, bắt giữ cử chỉ tự nhiên, tư thế và thậm chí cả tương tác với vật thể.
  • Hoàn hảo về lip-sync và cảm xúc tinh vi: Nó không chỉ làm cho miệng di chuyển một cách ngẫu nhiên; AI đảm bảo rằng chuyển động môi, biểu cảm khuôn mặt và ngôn ngữ cơ thể phù hợp với âm thanh đầu vào, khiến kết quả trở nên cực kỳ giống thật.
  • Thích nghi với các phong cách hình ảnh khác nhau: Cho dù đó là một bức ảnh chân dung độ phân giải cao, một bức ảnh chụp nhanh chất lượng thấp hơn, hoặc thậm chí là một hình minh họa được tạo kiểu, OmniHuman-1 thông minh thích nghi, tạo ra chuyển động mượt mà và đáng tin cậy bất kể chất lượng hình ảnh đầu vào.

Mức độ chính xác này có thể đạt được nhờ vào bộ dữ liệu video con người khổng lồ 18.700 giờ của ByteDance, cùng với mô hình chuyển đổi khuếch tán tiên tiến, học hỏi các chuyển động con người phức tạp. Kết quả là các video được tạo ra bởi AI mà gần như không thể phân biệt với video thực tế. Đây là điều tốt nhất tôi đã thấy cho đến nay.

Công nghệ đằng sau nó (Được giải thích một cách đơn giản)

Khi xem xét bài báo chính thức, OmniHuman-1 là một mô hình chuyển đổi khuếch tán, một khuôn khổ AI tiên tiến tạo ra chuyển động bằng cách dự đoán và tinh chỉnh mẫu chuyển động khung hình theo khung hình. Cách tiếp cận này đảm bảo chuyển tiếp mượt mà và động lực học cơ thể thực tế, một bước tiến lớn so với các mô hình deepfake truyền thống.

ByteDance đã đào tạo OmniHuman-1 trên một bộ dữ liệu video con người khổng lồ 18.700 giờ, cho phép mô hình hiểu được một loạt các chuyển động, biểu cảm khuôn mặt và cử chỉ. Bằng cách tiếp xúc với AI với một loạt các chuyển động thực tế không thể sánh được, nó tăng cường cảm giác tự nhiên của nội dung được tạo ra.

Một đổi mới quan trọng cần biết là chiến lược đào tạo “điều kiện toàn diện” của nó, nơi nhiều tín hiệu đầu vào – như đoạn âm thanh, văn bản và tham chiếu tư thế – được sử dụng đồng thời trong quá trình đào tạo. Phương pháp này giúp AI dự đoán chuyển động chính xác hơn, thậm chí trong các tình huống phức tạp liên quan đến cử chỉ tay, biểu cảm cảm xúc và góc máy khác nhau.

Tính năng Lợi thế của OmniHuman-1
Tạo chuyển động Sử dụng mô hình chuyển đổi khuếch tán để tạo chuyển động mượt mà và thực tế
Dữ liệu đào tạo 18.700 giờ video, đảm bảo độ trung thực cao
Học đa điều kiện Tích hợp âm thanh, văn bản và tư thế đầu vào để đồng bộ chính xác
Hoạt hình toàn thân Bắt giữ cử chỉ, tư thế cơ thể và biểu cảm khuôn mặt
Khả năng thích nghi Làm việc với các phong cách hình ảnh và góc máy khác nhau

Các vấn đề đạo đức và thực tiễn

Khi OmniHuman-1 thiết lập một tiêu chuẩn mới cho video được tạo ra bởi AI, nó cũng đặt ra các vấn đề đạo đức và an ninh đáng kể:

  • Rủi ro deepfake: Khả năng tạo ra video cực kỳ thực tế từ một bức ảnh đơn lẻ mở ra cánh cửa cho thông tin sai lệch, đánh cắp danh tính và giả mạo kỹ thuật số. Điều này có thể ảnh hưởng đến báo chí, chính trị và niềm tin công chúng vào truyền thông.
  • Sử dụng sai: Mô hình AI có thể được sử dụng theo những cách độc hại, bao gồm deepfake chính trị, gian lận tài chính và nội dung được tạo ra bởi AI không được đồng ý. Điều này làm cho việc quy định và tạo watermark trở thành những vấn đề quan trọng.
  • Trách nhiệm của ByteDance: Hiện tại, OmniHuman-1 không được phát hành cho công chúng, có lẽ là do những lo ngại về đạo đức. Nếu được phát hành, ByteDance sẽ cần phải thực hiện các biện pháp bảo vệ mạnh mẽ, chẳng hạn như tạo watermark kỹ thuật số, theo dõi tính xác thực của nội dung và có thể hạn chế việc sử dụng để ngăn chặn lạm dụng.
  • Thách thức quy định: Các chính phủ và tổ chức công nghệ đang vật lộn với cách quy định truyền thông được tạo ra bởi AI. Những nỗ lực như Đạo luật AI của EU và đề xuất của Mỹ về luật deepfake nhấn mạnh nhu cầu cấp thiết về giám sát.
  • Cuộc đua phát hiện và tạo ra: Khi các mô hình AI như OmniHuman-1 được cải tiến, các hệ thống phát hiện cũng phải được cải tiến. Các công ty như Google và OpenAI đang phát triển các công cụ phát hiện AI, nhưng việc theo kịp những khả năng AI đang di chuyển nhanh chóng này vẫn là một thách thức.

Tương lai của con người được tạo ra bởi AI?

Việc tạo ra con người được tạo ra bởi AI sẽ diễn ra rất nhanh, với OmniHuman-1 mở đường. Một trong những ứng dụng ngay lập tức cho mô hình này có thể là tích hợp nó vào các nền tảng như TikTok và CapCut, vì ByteDance là chủ sở hữu của những nền tảng này. Điều này sẽ cho phép người dùng tạo ra các avatar siêu thực, có thể nói, hát hoặc thực hiện các hành động với đầu vào tối thiểu. Nếu được thực hiện, nó có thể thay đổi nội dung được tạo ra bởi người dùng, cho phép các influencer, doanh nghiệp và người dùng hàng ngày tạo ra video được điều khiển bởi AI một cách dễ dàng.

Beyond các phương tiện truyền thông xã hội, OmniHuman-1 có những ý nghĩa quan trọng đối với Hollywood và điện ảnh, trò chơi và các influencer ảo. Ngành công nghiệp giải trí đang khám phá các nhân vật được tạo ra bởi AI, và khả năng của OmniHuman-1 trong việc cung cấp các buổi biểu diễn giống như thật có thể giúp thúc đẩy điều này.

Từ góc độ địa chính trị, sự tiến bộ của ByteDance một lần nữa đặt ra sự cạnh tranh AI ngày càng tăng giữa Trung Quốc và các gã khổng lồ công nghệ Mỹ như OpenAI và Google. Với việc Trung Quốc đầu tư mạnh mẽ vào nghiên cứu AI, OmniHuman-1 là một thách thức nghiêm trọng trong công nghệ truyền thông tạo ra. Khi ByteDance tiếp tục tinh chỉnh mô hình này, nó có thể đặt ra sân khấu cho một cuộc cạnh tranh rộng lớn hơn về lãnh đạo AI, ảnh hưởng đến cách các công cụ video AI được phát triển, quy định và áp dụng trên toàn thế giới.

Câu hỏi thường gặp (FAQ)

1. OmniHuman-1 là gì?

OmniHuman-1 là một mô hình AI được phát triển bởi ByteDance có thể tạo ra video thực tế từ một bức ảnh và một đoạn âm thanh, tạo ra các hoạt hình giống như thật của con người.

2. OmniHuman-1 khác với công nghệ deepfake truyền thống như thế nào?

Không giống như các deepfake truyền thống chỉ hoán đổi khuôn mặt, OmniHuman-1 tạo ra toàn bộ hình người, bao gồm cả cử chỉ toàn thân, chuyển động môi đồng bộ và biểu cảm khuôn mặt.

3. OmniHuman-1 có sẵn cho công chúng không?

Hiện tại, ByteDance chưa phát hành OmniHuman-1 cho công chúng.

4. Những rủi ro đạo đức liên quan đến OmniHuman-1 là gì?

Mô hình này có thể được sử dụng cho thông tin sai lệch, deepfake gian lận và nội dung được tạo ra bởi AI không được đồng ý, làm cho an ninh kỹ thuật số trở thành một vấn đề quan trọng.

5. Làm thế nào để phát hiện video được tạo ra bởi AI?

Các công ty công nghệ và nhà nghiên cứu đang phát triển các công cụ tạo watermark và phương pháp phân tích pháp y để giúp phân biệt video được tạo ra bởi AI với video thực tế.

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.