Kết nối với chúng tôi

Các nhà nghiên cứu phát triển mô hình máy tính JL2P để dịch kịch bản phim thành hoạt hình

Trí tuệ nhân tạo

Các nhà nghiên cứu phát triển mô hình máy tính JL2P để dịch kịch bản phim thành hoạt hình

mm

Các nhà nghiên cứu tại Đại học Carnegie Mellon đã phát triển một mô hình máy tính có khả năng dịch văn bản mô tả các chuyển động vật lý thành các hình ảnh động đơn giản do máy tính tạo ra. Những bước phát triển mới này có thể giúp phim và các hoạt ảnh khác có thể được tạo trực tiếp từ mô hình máy tính đọc kịch bản. 

Các nhà khoa học đã đạt được tiến bộ trong việc giúp máy tính hiểu cả ngôn ngữ tự nhiên và tạo ra các tư thế vật lý từ kịch bản. Mẫu máy tính mới này có thể là mối liên kết giữa chúng. 

Louis-Philippe Morency, phó giáo sư tại Viện công nghệ ngôn ngữ (LTI) và Chaitanya Ahuja, Tiến sĩ LTI. sinh viên, đã sử dụng một kiến ​​trúc thần kinh được gọi là Chung ngôn ngữ-to-Pose (JL2P). Mô hình JL2P có khả năng nhúng các câu và chuyển động vật lý cùng nhau. Điều này cho phép nó học cách ngôn ngữ được kết nối với hành động, cử chỉ và chuyển động. 

“Tôi nghĩ chúng tôi đang ở giai đoạn đầu của nghiên cứu này, nhưng xét về mặt mô hình hóa, trí tuệ nhân tạo và lý thuyết, đây là một khoảnh khắc rất thú vị,” Morency nói. “Hiện tại, chúng tôi đang nói về việc tạo hoạt ảnh cho các nhân vật ảo. Cuối cùng, mối liên hệ giữa ngôn ngữ và cử chỉ này có thể được áp dụng cho robot; chúng ta có thể chỉ cần nói với một robot trợ lý cá nhân những gì chúng ta muốn nó làm.

“Cuối cùng chúng tôi cũng có thể đi theo hướng khác — sử dụng liên kết này giữa ngôn ngữ và hình ảnh động để máy tính có thể mô tả những gì đang diễn ra trong video,” anh ấy nói thêm.

Mô hình Ngôn ngữ-to-Tư thế chung sẽ được Ahuja trình bày vào ngày 19 tháng 3 tại Hội nghị Quốc tế về Tầm nhìn XNUMXD. Hội nghị đó sẽ diễn ra tại Thành phố Quebec, Canada. 

Mô hình JL2P được tạo ra theo cách tiếp cận chương trình học. Bước quan trọng đầu tiên là để mô hình học các trình tự ngắn, dễ dàng. Đó sẽ là một cái gì đó giống như "Một người đi về phía trước." Sau đó, nó chuyển sang các chuỗi dài hơn và khó hơn, chẳng hạn như “Một người bước tới, sau đó quay lại và bước tiếp” hoặc “Một người nhảy qua chướng ngại vật khi đang chạy”. 

Khi mô hình đang sử dụng các trình tự, nó sẽ xem xét các động từ và trạng từ. Chúng mô tả hành động và tốc độ/tăng tốc của hành động. Sau đó, nó xem xét các danh từ và tính từ mô tả vị trí và phương hướng. Theo Ahuja, mục tiêu cuối cùng của mô hình là tạo hoạt ảnh cho các chuỗi phức tạp với nhiều hành động đang diễn ra đồng thời hoặc theo trình tự. 

Hiện tại, các hình ảnh động chỉ giới hạn ở các hình người que, nhưng các nhà khoa học sẽ tiếp tục phát triển mô hình. Theo Morency, một trong những điều phức tạp phát sinh là có rất nhiều thứ đang xảy ra cùng một lúc. Một số trong số chúng thậm chí còn xảy ra theo trình tự đơn giản. 

Morency nói: “Sự đồng bộ giữa các bộ phận cơ thể là rất quan trọng. “Mỗi khi bạn di chuyển chân, bạn cũng di chuyển cánh tay, thân mình và có thể cả đầu. Hoạt hình cơ thể cần phối hợp các thành phần khác nhau này, đồng thời đạt được các hành động phức tạp. Đưa câu chuyện bằng ngôn ngữ vào trong môi trường hoạt hình phức tạp này vừa thách thức vừa thú vị. Đây là con đường hướng tới sự hiểu biết tốt hơn về lời nói và cử chỉ.”

Nếu mô hình Joint Language-to-Pose có thể phát triển đến mức có thể tạo ra các hoạt ảnh và hành động phức tạp dựa trên ngôn ngữ, thì khả năng là rất lớn. Nó không chỉ có thể được sử dụng trong các lĩnh vực như phim ảnh và hoạt hình, mà còn giúp dẫn đến sự phát triển trong việc hiểu lời nói và cử chỉ. 

Chuyển sang trí tuệ nhân tạo, mô hình JL2P này có thể được sử dụng trên robot. Ví dụ, rô-bốt có thể được điều khiển và ra lệnh phải làm gì, đồng thời chúng có thể hiểu ngôn ngữ và phản hồi tương ứng. 

Những phát triển mới này sẽ tác động đến nhiều lĩnh vực khác nhau và mô hình sẽ tiếp tục có khả năng hiểu ngôn ngữ phức tạp hơn.

 

Alex McFarland là một nhà báo và nhà văn về AI đang khám phá những phát triển mới nhất về trí tuệ nhân tạo. Anh ấy đã cộng tác với nhiều công ty khởi nghiệp và ấn phẩm về AI trên toàn thế giới.