Trí tuệ tổng hợp nhân tạo

AI thế hệ video: Khám phá mô hình Sora đột phá của OpenAI

Được phát hành

2 tháng trước

1 Tháng ba, 2024

Sora, trình tạo văn bản thành video đột phá của OpenAI

OpenAI tiết lộ sản phẩm AI mới nhất của mình – Sora, một trình tạo văn bản thành video mang tính cách mạng có khả năng tạo ra các video mạch lạc, có độ trung thực cao, dài tối đa 1 phút từ các lời nhắc văn bản đơn giản. Sora đại diện cho một bước tiến vượt bậc trong lĩnh vực AI video tổng hợp, với khả năng vượt xa các mô hình tiên tiến nhất trước đây.

Trong bài đăng này, chúng tôi sẽ cung cấp thông tin kỹ thuật toàn diện về Sora – cách nó hoạt động sâu sắc, các kỹ thuật mới mà OpenAI tận dụng để đạt được khả năng tạo video đáng kinh ngạc của Sora, các điểm mạnh chính và những hạn chế hiện tại của nó cũng như tiềm năng to lớn mà Sora biểu thị cho tương lai của sự sáng tạo AI.

Tổng quan về Sora

Ở cấp độ cao, Sora lấy lời nhắc văn bản làm đầu vào (ví dụ: “hai con chó đang chơi trên cánh đồng”) và tạo video đầu ra phù hợp hoàn chỉnh với hình ảnh, chuyển động và âm thanh thực tế.

Một số khả năng chính của Sora bao gồm:

Tạo video dài tới 60 giây ở độ phân giải cao (1080p trở lên)
Sản xuất video có độ trung thực cao, mạch lạc với các đối tượng, kết cấu và chuyển động nhất quán
Hỗ trợ các kiểu video, tỷ lệ khung hình và độ phân giải đa dạng
Điều chỉnh hình ảnh và video để mở rộng, chỉnh sửa hoặc chuyển đổi giữa chúng
Thể hiện các khả năng mô phỏng nổi bật như tính nhất quán 3D và tính lâu dài của đối tượng

Dưới vỏ bọc, Sora kết hợp và mở rộng quy mô hai cải tiến AI quan trọng – mô hình khuếch tán và máy biến áp – để đạt được khả năng tạo video chưa từng có.

Nền tảng kỹ thuật của Sora

Sora xây dựng dựa trên hai kỹ thuật AI đột phá đã chứng tỏ thành công to lớn trong những năm gần đây – mô hình khuếch tán sâu và máy biến áp:

Mô hình khuếch tán

Các mô hình khuếch tán là một lớp các mô hình sinh sản sâu sắc có thể tạo ra các mô hình có tính thực tế cao hình ảnh và video tổng hợp. Họ làm việc bằng cách lấy dữ liệu đào tạo thực tế, thêm tiếng ồn để làm hỏng nó, sau đó huấn luyện một mạng lưới thần kinh để loại bỏ tiếng ồn đó theo từng bước để khôi phục dữ liệu gốc. Điều này đào tạo mô hình để tạo ra các mẫu đa dạng, có độ chính xác cao, nắm bắt các mẫu và chi tiết của dữ liệu hình ảnh trong thế giới thực.

Sora sử dụng một loại mô hình khuếch tán gọi là mô hình xác suất khuếch tán khử nhiễu (DDPM). DDPM chia quá trình tạo hình ảnh/video thành nhiều bước khử nhiễu nhỏ hơn, giúp huấn luyện mô hình để đảo ngược quá trình khuếch tán và tạo ra các mẫu rõ ràng dễ dàng hơn.

Cụ thể, Sora sử dụng một biến thể video của DDPM có tên DVD-DDPM được thiết kế để mô hình hóa video trực tiếp trong miền thời gian đồng thời đạt được tính nhất quán mạnh mẽ về thời gian giữa các khung. Đây là một trong những chìa khóa giúp Sora có khả năng tạo ra những video mạch lạc, có độ trung thực cao.

Máy biến áp

Transformers là một loại kiến trúc mạng thần kinh mang tính cách mạng đã thống trị quá trình xử lý ngôn ngữ tự nhiên trong những năm gần đây. Máy biến áp xử lý dữ liệu song song trên các khối dựa trên sự chú ý, cho phép chúng mô hình hóa các phần phụ thuộc tầm xa phức tạp theo trình tự.

Sora điều chỉnh các máy biến áp để hoạt động trên dữ liệu trực quan bằng cách chuyển các bản vá video được mã hóa thay vì mã thông báo văn bản. Điều này cho phép mô hình hiểu được mối quan hệ không gian và thời gian trên chuỗi video. Kiến trúc máy biến áp của Sora cũng cho phép kết hợp tầm xa, tính lâu dài của đối tượng và các khả năng mô phỏng mới nổi khác.

Bằng cách kết hợp hai kỹ thuật này – tận dụng DDPM để tổng hợp video có độ trung thực cao và bộ biến đổi để hiểu và gắn kết toàn cầu – Sora đã vượt qua ranh giới của những gì có thể có trong AI video tổng hợp.

Những hạn chế và thách thức hiện tại

Mặc dù có khả năng cao nhưng Sora vẫn có một số hạn chế chính:

Thiếu hiểu biết về thể chất – Sora không có hiểu biết bẩm sinh sâu sắc về vật lý và nhân quả. Ví dụ: các đồ vật bị vỡ có thể “chữa lành” trong suốt quá trình phát video.
Sự không mạch lạc trong thời gian dài – Hiện tượng giả hình và sự không nhất quán có thể tích tụ trong các mẫu dài hơn 1 phút. Việc duy trì sự mạch lạc hoàn hảo cho những video rất dài vẫn là một thách thức mở.
Lỗi đối tượng lẻ tẻ – Sora đôi khi tạo ra các video trong đó các đối tượng thay đổi vị trí một cách bất thường hoặc xuất hiện/biến mất một cách tự phát từ khung hình này sang khung hình khác.
Khó khăn với lời nhắc phân phối ngoài – Những lời nhắc có tính mới lạ nằm ngoài phạm vi phân phối đào tạo của Sora có thể dẫn đến các mẫu có chất lượng thấp. Khả năng của Sora mạnh nhất ở gần dữ liệu huấn luyện của nó.

Nhân rộng hơn nữa các mô hình, dữ liệu đào tạovà sẽ cần đến các kỹ thuật mới để giải quyết những hạn chế này. AI tạo video vẫn còn một chặng đường dài phía trước.

Phát triển có trách nhiệm về AI tạo video

Giống như bất kỳ công nghệ tiến bộ nhanh chóng nào, có những rủi ro tiềm ẩn cần xem xét bên cạnh những lợi ích:

Thông tin sai lệch tổng hợp – Sora giúp việc tạo video bị thao túng và giả mạo dễ dàng hơn bao giờ hết. Sẽ cần có các biện pháp bảo vệ để phát hiện các video được tạo và hạn chế việc lạm dụng có hại.
Xu hướng dữ liệu – Các mô hình như Sora phản ánh những thành kiến và hạn chế trong dữ liệu đào tạo của họ, cần phải đa dạng và mang tính đại diện.
Nội dung có hại – Nếu không có các biện pháp kiểm soát thích hợp, AI chuyển văn bản thành video có thể tạo ra nội dung bạo lực, nguy hiểm hoặc phi đạo đức. Chính sách kiểm duyệt nội dung chu đáo là cần thiết.
Những lo ngại về sở hữu trí tuệ – Việc đào tạo về dữ liệu có bản quyền mà không được phép sẽ đặt ra các vấn đề pháp lý xung quanh các tác phẩm phái sinh. Việc cấp phép dữ liệu cần phải được xem xét cẩn thận.

OpenAI sẽ cần phải hết sức cẩn thận trong việc giải quyết những vấn đề này khi triển khai Sora một cách công khai. Tuy nhiên, nhìn chung, được sử dụng một cách có trách nhiệm, Sora đại diện cho một công cụ cực kỳ mạnh mẽ cho sự sáng tạo, trực quan hóa, giải trí và hơn thế nữa.

Tương lai của AI thế hệ video

Sora chứng minh rằng những tiến bộ đáng kinh ngạc trong AI video tổng hợp đang dần xuất hiện. Dưới đây là một số hướng thú vị mà công nghệ này có thể hướng tới khi nó tiếp tục phát triển nhanh chóng:

Mẫu thời gian dài hơn – Các mô hình có thể sớm tạo ra hàng giờ video thay vì hàng phút trong khi vẫn duy trì tính mạch lạc. Điều này mở rộng các ứng dụng có thể rất nhiều.
Kiểm soát không thời gian đầy đủ – Ngoài văn bản và hình ảnh, người dùng có thể thao tác trực tiếp các không gian tiềm ẩn của video, mang lại khả năng chỉnh sửa video mạnh mẽ.
Mô phỏng có thể điều khiển – Các mô hình như Sora có thể cho phép thao túng thế giới mô phỏng thông qua các lời nhắc và tương tác bằng văn bản.
Video được cá nhân hóa – AI có thể tạo nội dung video được thiết kế riêng cho từng người xem hoặc bối cảnh riêng lẻ.
Hợp nhất đa phương thức – Tích hợp chặt chẽ hơn các phương thức như ngôn ngữ, âm thanh và video có thể mang lại trải nghiệm đa phương tiện có tính tương tác cao.
Tên miền chuyên ngành – Các mô hình video dành riêng cho miền có thể vượt trội ở các ứng dụng phù hợp như hình ảnh y tế, giám sát công nghiệp, công cụ chơi game, v.v.

Kết luận

Với Sora, OpenAI đã có một bước nhảy vọt bùng nổ trong lĩnh vực AI video tổng hợp, thể hiện những khả năng dường như chỉ cách đây hàng thập kỷ mới có vào năm ngoái. Mặc dù công việc vẫn là giải quyết những thách thức mở, nhưng điểm mạnh của Sora cho thấy tiềm năng to lớn của công nghệ này để một ngày nào đó có thể bắt chước và mở rộng trí tưởng tượng trực quan của con người ở quy mô lớn.

Các mô hình khác từ DeepMind, Google, Meta, v.v. cũng sẽ tiếp tục vượt qua các ranh giới trong không gian này. Tương lai của video do AI tạo ra có vẻ vô cùng tươi sáng. Chúng ta có thể kỳ vọng công nghệ này sẽ mở rộng khả năng sáng tạo và tìm ra những ứng dụng cực kỳ hữu ích trong những năm tới, đồng thời đòi hỏi phải có sự quản trị chu đáo để giảm thiểu rủi ro.

Đây là thời điểm thú vị đối với cả nhà phát triển và người thực hành AI khi những người mẫu tạo video như Sora mở ra những chân trời mới cho những gì có thể. Những tác động mà những tiến bộ này có thể gây ra đối với phương tiện truyền thông, giải trí, mô phỏng, trực quan hóa và hơn thế nữa mới bắt đầu lộ ra.

Chủ đề liên quan:LLM xử lý ngôn ngữ tự nhiên OpenAI Sora trình tạo văn bản thành video

Chúng ta có thể đạt được AGI trong vòng 5 năm không? Giám đốc điều hành NVIDIA Jensen Huang tin rằng điều đó là có thể

Đừng bỏ lỡ

Khám phá Gemini 1.5: Cách Mô hình AI đa phương thức mới nhất của Google nâng tầm bối cảnh AI vượt xa người tiền nhiệm của nó

Aayush Mittal

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.