Trí tuệ nhân tạo

Hollywood Nhìn Lại Vai Trò Của Mình Khi Veo 3 Xuất Hiện

Published May 27, 2025

Updated May 18, 2026

Alex McFarland

Mô hình Veo 3 mới được Google công bố đang làm thay đổi nghiêm túc những gì video được tạo ra bởi trí tuệ nhân tạo có thể làm. Được công bố tại Google I/O 2025, Veo 3 đang tạo ra các đoạn video clip rất thực tế mà hầu hết người xem đều khó phân biệt được với cảnh quay trực tiếp.

Veo 3 giới thiệu các khả năng – như tạo âm thanh bản địa và độ trung thực hình ảnh điện ảnh – giúp giảm đáng kể rào cản để sản xuất video chuyên nghiệp.

Đánh Thức “Thời Kỳ Im Lặng” Với Âm Thanh Tích Hợp

Lần đầu tiên, một bộ tạo video trí tuệ nhân tạo có âm thanh đi kèm. Veo 3 tạo ra hiệu ứng âm thanh, tiếng ồn xung quanh và thậm chí cả đối thoại của nhân vật để đi kèm với mỗi cảnh, tất cả đều được đồng bộ hóa với hành động. Giám đốc điều hành của Google DeepMind, Demis Hassabis, đã mô tả nó như là “đánh thức thời kỳ im lặng của việc tạo video”, nơi các nhà sáng tạo có thể yêu cầu Veo 3 không chỉ mô tả cảnh mà còn cách nó nên âm thanh.

Dưới cơ chế, mô hình phân tích các khung hình được tạo ra của chính nó và tự động đồng bộ hóa âm thanh phù hợp, vì vậy rằng tiếng bước chân, tiếng cửa creak, hoặc nhân vật nói chính xác khi và như thế nào họ nên. Khả năng âm thanh tích hợp này là một yếu tố thay đổi trò chơi – các mô hình tạo ra trước đó sản xuất cảnh quay im lặng, để lại cho người dùng phải thêm âm thanh thủ công. Ngược lại, Veo 3 có thể tạo ra một đoạn video clip hoàn chỉnh với âm thanh phong phú, xử lý hiệu quả vai trò của quay phim và thiết kế âm thanh trong một lần.

Sự bổ sung của âm thanh thực tế tăng cường đáng kể sự nhập vai và hữu ích cho các nhà sáng tạo. Tạo ra đối thoại đặc biệt nổi bật – cho Veo 3 một kịch bản hoặc để nó sáng tạo ra lời nói của nhân vật, và nó sẽ tạo ra giọng nói phù hợp với hình ảnh, môi di chuyển hoàn hảo theo nhịp. Tiếng ồn xung quanh và âm nhạc cũng được thể hiện, cho dù đó là tiếng chim hót trong một cảnh công viên hay một bản nhạc điện ảnh kịch tính sôi động tại cao trào.

Google cho biết Veo 3 được đào tạo để kết hợp các yếu tố này một cách mượt mà, được thông tin bởi nghiên cứu của DeepMind về mô hình video-sang-âm thanh. Về mặt thực tế, một nhà sáng tạo solo có thể gõ “một cơn bão biển với một thủy thủ hét lệnh” và nhận được một đoạn phim ngắn với sóng biển, gió rít, và giọng nói của thủy thủ có thể nghe thấy trên cơn bão – tất cả được tạo ra trong một lần. Quá trình tạo âm thanh-hình ảnh này loại bỏ một lớp chuyên môn khác cần thiết để sản xuất video chuyên nghiệp, giúp cho kết quả chất lượng cao trở nên dễ tiếp cận hơn với những người không có kỹ năng chỉnh sửa âm thanh.

Chất Lượng Điện Ảnh và Hiện Thực Không Thể Tin Được

Veo 3 mang lại cảnh quay của nó gần với chất lượng Hollywood hơn bao giờ hết. Mô hình này tạo ra video sắc nét hơn, chi tiết hơn (lên đến độ phân giải 4K) và thể hiện sự hiểu biết mạnh mẽ về vật lý và ánh sáng thế giới thực. Các ví dụ sớm đã làm cho người xem ngạc nhiên với vẻ ngoài giống như thật: các cảnh được tạo ra bởi Veo 3 thường không có dấu hiệu rõ ràng của việc được tổng hợp. Chuyển động mượt mà và nhất quán trên các khung hình – trí tuệ nhân tạo hiếm khi phá vỡ tính liên tục, có nghĩa bạn sẽ không thấy các hiện tượng jittery hoặc nhân vật biến dạng không thể đoán trước từ khoảnh khắc này sang khoảnh khắc khác.

Nếu một chiếc xe chạy quanh một góc, các đường bụi và bóng tối hành xử tự nhiên; nếu một người chạy, chuyển động của họ tôn trọng các định luật vật lý như động lượng và trọng lực. Sự tuân thủ này đối với thực tế thậm chí còn mở rộng đến các chi tiết khó khăn như tay và lời nói của con người. Những người trong Veo 3 có tỷ lệ tự nhiên (có 5 ngón tay trên mỗi tay) và chuyển động khuôn mặt của họ được đồng bộ hóa chính xác với âm thanh nói – một kỳ công làm cho đối thoại trên màn hình trở nên thuyết phục hơn.

Tất cả những cải tiến này là kết quả của cả một tập dữ liệu đào tạo lớn hơn và tối ưu hóa mô hình, cho phép Veo 3 dịch các yêu cầu chi tiết phức tạp thành video chân thực và sống động.

Điều quan trọng là, sự tập trung của mô hình vào chất lượng điện ảnh cho phép nó đạt được một chất lượng nghệ thuật mà trước đây không thể đạt được mà không cần một studio. Google tự hào về “sự hiện thực và trung thực cao hơn, bao gồm cả đầu ra 4K” của Veo 3, và thực sự, kết cấu, ánh sáng và độ sâu trường của ảnh trong các đoạn demo của nó gợi lên một vẻ ngoài chuyên nghiệp.

PJ Ace/X

Các Yêu Cầu Chính Xác và Kiểm Soát Sáng Tạo Dễ Dàng

Một trong những điểm mạnh vượt trội của Veo 3 là nó tuân theo tầm nhìn của đạo diễn như được mô tả trong một yêu cầu. Mô hình này excels tại việc giải thích các yêu cầu phức tạp, nhiều dòng – thậm chí cả một câu chuyện ngắn hoặc kịch bản – và dịch chúng thành một video hợp lý. Google báo cáo về sự cải thiện đáng kể trong việc tuân theo yêu cầu: Veo 3 có thể theo dõi một chuỗi hành động hoặc nhiều thay đổi cảnh được chỉ định trong văn bản và thể hiện chúng với thời gian và chi tiết chính xác.

Đối với các nhà sáng tạo, điều này có nghĩa là bạn có thể phác thảo một khái niệm hoàn chỉnh (“Cảnh 1: nhân vật vào một phòng tối… Cảnh 2: một vụ nổ bất ngờ gây ra sự hỗn loạn…”) trong một lần, và Veo 3 sẽ tạo ra một đoạn clip mà đánh dấu những điểm đó theo thứ tự. Sự hiểu biết này mở khóa một cách kể chuyện phức tạp hơn thông qua văn bản so với các mô hình tạo ra trước đó, những mô hình thường gặp khó khăn trong việc duy trì tính nhất quán trong vài giây video. Veo 3 đang hoạt động như một người vận hành máy quay, nhà thiết kế bối cảnh và biên tập viên hiểu kịch bản của bạn – theo dõi các chỉ dẫn về sân khấu về nhân vật và góc máy với độ chính xác mới.

Google đã tăng cường sức mạnh của yêu cầu này với các công cụ thân thiện với người dùng cho phép các nhà sáng tạo kiểm soát kết quả một cách tinh tế mà không cần chuyên môn về chỉnh sửa. Cùng với Veo 3, công ty đã giới thiệu Flow, một ứng dụng làm phim trí tuệ nhân tạo được tùy chỉnh để khai thác khả năng của mô hình.

Flow cung cấp một bộ tính năng – từ các “kiểm soát máy quay ảo” (để thiết lập các cảnh với các góc cụ thể hoặc các cảnh quay mượt mà) đến một “Trình Xây Dựng Cảnh” cho phép bạn mở rộng hoặc điều chỉnh một cảnh được tạo ra với chuyển động liên tục và nhân vật nhất quán. Ví dụ, bạn có thể yêu cầu Veo tạo ra một cảnh chợ ngoài trời, sau đó sử dụng Trình Xây Dựng Cảnh để mở rộng đoạn clip đó, tiết lộ thêm về môi trường hoặc chuyển đổi sang cảnh tiếp theo một cách mượt mà. Flow thậm chí cho phép chỉnh sửa cấp độ đối tượng: các nhà sáng tạo có thể thêm hoặc xóa các yếu tố trong một đoạn clip hoặc thay đổi tỷ lệ khung hình (ví dụ, chuyển đổi một video theo chiều dọc thành một màn hình rộng theo chiều ngang) với mô hình lấp đầy nền mới khi cần. Tất cả điều này được thực hiện thông qua các yêu cầu đơn giản hoặc các thanh trượt UI chứ không phải chỉnh sửa thủ công.

Kết quả là một quá trình sáng tạo lặp đi lặp lại, gần như không cần nỗ lực – bạn phác thảo một ý tưởng bằng lời, nhận được một video, sau đó tinh chỉnh nó bằng cách yêu cầu trí tuệ nhân tạo điều chỉnh “máy quay” hoặc “tái diễn” một đạo cụ, và nó vâng lời. Sự hợp tác chặt chẽ giữa con người và trí tuệ nhân tạo này có nghĩa là ngay cả những người mới làm quen với sản xuất video cũng có thể đạt được các cảnh quay và chỉnh sửa phức tạp mà thường đòi hỏi kỹ năng chuyên sâu hoặc một đội ngũ.

Đem Lại Sự Sản Xuất Video Chuyên Nghiệp Cho Mọi Người

Sự ra mắt của Veo 3 đánh dấu một kỷ nguyên mới nơi các giá trị sản xuất chuyên nghiệp của Hollywood nằm trong tầm tay của nhiều nhà sáng tạo và doanh nghiệp hơn. Bằng cách tự động hóa nhiều công việc nặng nhọc – quay phim, hiệu ứng đặc biệt, thậm chí cả thiết kế âm thanh – Veo 3 giảm đáng kể nguồn lực cần thiết để sản xuất một video bóng bẩy.

Một YouTuber cá nhân hoặc một công ty khởi nghiệp nhỏ có thể tạo ra cảnh quay trông và nghe giống như được làm bởi một đội ngũ studio đầy đủ. Điều này giảm đáng kể chi phí nhập cảnh để sản xuất các đoạn phim quảng cáo, trailer hoặc các phương tiện truyền thông quảng cáo khác. Trên thực tế, các nhà phân tích ngành công nghiệp lưu ý rằng các công cụ như Veo 3 có thể hữu ích cho nhiều công việc tiếp thị và truyền thông thương mại, cho phép quay lại và tạo nội dung nhanh chóng mà không cần đội ngũ lớn hoặc ngân sách. Cần một đoạn video quảng cáo phút cuối cho một chiến dịch? Thay vì thuê diễn viên và thuê thiết bị, một đội tiếp thị có thể tạo ra một đoạn clip thực tế từ một yêu cầu và có nó sẵn sàng trong cùng một ngày.

Đáng chú ý là tại thời điểm ra mắt, các tính năng tiên tiến nhất của Veo 3 (như tạo âm thanh) ban đầu có sẵn thông qua dịch vụ đăng ký AI Ultra của Google với giá 249 đô la/tháng và dịch vụ đám mây doanh nghiệp. Mặc dù việc truy cập premium này có thể hạn chế việc sử dụng của các nhà sáng tạo nghiệp dư trong thời gian ngắn, nhưng xu hướng là rõ ràng – những khả năng này sẽ trở nên dễ tiếp cận và chi phí hiệu quả hơn theo thời gian. Ngay cả bây giờ, chi phí đăng ký này là một phần nhỏ so với chi phí của một buổi quay phim chuyên nghiệp hoặc công việc hậu kỳ. Trong bức tranh lớn, Veo 3 là một bản xem trước của một đường ống sản xuất nội dung được hỗ trợ bởi trí tuệ nhân tạo, nơi chất lượng được mở rộng với chi phí tối thiểu, cơ bản thay đổi kinh tế của sản xuất video.

Một Biên Giới Sáng Tạo Mới – Và Trách Nhiệm Mới

Sự xuất hiện của Veo 3 chắc chắn là một điều may mắn cho sự sáng tạo và hiệu quả, nhưng nó cũng buộc ngành công nghiệp sáng tạo phải đối mặt với những ý nghĩa quan trọng. Một mặt, ranh giới giữa nội dung thực và tổng hợp đang trở nên mờ dần: internet đã tràn ngập các đoạn clip được tạo ra bởi Veo mà làm cho người xem ngạc nhiên với sự thực tế của chúng – và làm cho họ lo lắng về việc thực tế và trí tuệ nhân tạo có thể trở nên khó phân biệt như thế nào.

Các nhà làm phim và chuyên gia video đang đối mặt với một tương lai nơi trí tuệ nhân tạo có thể tạo ra cảnh quay thuyết phục theo yêu cầu. Điều này đặt ra câu hỏi về tính nguyên bản, tính xác thực và vai trò của kỹ năng con người. Một số nghệ sĩ và những người bảo thủ có lý do để lo lắng. Những người chỉ trích bác bỏ video trí tuệ nhân tạo là những thứ vô hồn, không quan tâm đến sự ấn tượng về mặt kỹ thuật, sợ một lượng lớn nội dung chất lượng thấp hoặc mất việc làm. Những lo ngại này lặp lại sự gián đoạn được thấy trong nhiếp ảnh và thiết kế với sự trỗi dậy của trí tuệ nhân tạo: khi sáng tạo được dân chủ hóa, nó thách thức các chuẩn mực hiện có về quyền sở hữu và lao động.

Mặt khác, những người ủng hộ cho rằng trí tuệ nhân tạo như Veo 3 chỉ là sự tiến hóa tiếp theo trong công nghệ sáng tạo – không phải là sự thay thế cho sự sáng tạo của con người, mà là một công cụ mạnh mẽ mới cho nó. Google đã xây dựng các biện pháp bảo vệ vào Veo 3 để giải quyết một số vấn đề, bao gồm cả việc đánh dấu nước không thể nhìn thấy (qua DeepMind’s SynthID) trên mỗi khung hình được tạo ra bởi trí tuệ nhân tạo để giúp phát hiện và dán nhãn video được tạo ra bởi trí tuệ nhân tạo. Mô hình này cũng có các rào cản nội dung: các tester đã tìm thấy nó từ chối các yêu cầu tạo ra thông tin sai lệch chính trị theo kiểu deepfake hoặc các cảnh có hại. Những biện pháp trí tuệ nhân tạo có trách nhiệm này sẽ rất quan trọng khi video trí tuệ nhân tạo siêu thực trở nên dễ tạo ra hơn.

Trong khi đó, nhiều nhà sáng tạo tiến bộ đang chấp nhận công cụ này, tập trung vào cách nó có thể tăng cường trí tưởng tượng của họ thay vì thay thế nó. Bằng cách hợp tác với các nhà làm phim trong quá trình phát triển, Google đã nhằm mục đích đảm bảo Veo 3 hỗ trợ các quy trình làm việc sáng tạo thay vì phá hoại chúng. Kết quả, lý tưởng, là một trí tuệ nhân tạo lấy trên mình các công việc sản xuất phức tạp, giải phóng các nhà sáng tạo con người tập trung vào việc kể chuyện, phong cách và ý tưởng.

Từ các studio nội dung đến các cơ quan quảng cáo, thông điệp là việc tạo video trí tuệ nhân tạo đang ở đây để ở – và nó chỉ trở nên mạnh mẽ hơn. Veo 3 thể hiện xu hướng này ở mức chất lượng cao nhất. Nó giảm các rào cản và chi phí, nhưng cũng thách thức các nhà sáng tạo phải phân biệt công việc của họ trong một thế giới nơi bất kỳ ai cũng có thể tạo ra hình ảnh đáng kinh ngạc.

Khi chúng ta đứng ở biên giới sáng tạo mới này, rõ ràng rằng các công cụ như Veo 3 sẽ đóng vai trò quan trọng trong tương lai của việc làm phim và truyền thông. Toàn bộ ngành công nghiệp sáng tạo sẽ cần phải thích nghi, thiết lập các chuẩn mực mới cho nội dung được hỗ trợ bởi trí tuệ nhân tạo. Theo quan điểm của Google, công nghệ này là một “trợ giúp, giúp một làn sóng các nhà làm phim mới có thể kể câu chuyện của họ dễ dàng hơn”, cuối cùng mở khóa những giọng nói và ý tưởng mới có thể không bao giờ được đưa lên màn hình nếu không. Trong những năm tới, những người kể chuyện sẽ thành công có thể là những người học cách sử dụng các mô hình trí tuệ nhân tạo như Veo 3 như một phần của bộ công cụ nghệ thuật của họ – tận dụng hiệu quả và quy mô của video được tạo ra bởi trí tuệ nhân tạo trong khi điều khiển nó với sự sáng tạo và tầm nhìn của con người một cách rõ ràng.