Trí tuệ nhân tạo
AniPortrait: Tổng hợp hoạt hình chân dung chân thực bằng âm thanh

Trong những năm qua, việc tạo ra các ảnh động chân dung chân thực và biểu cảm từ hình ảnh và âm thanh tĩnh đã tìm thấy nhiều ứng dụng, bao gồm chơi game, phương tiện kỹ thuật số, thực tế ảo, v.v. Bất chấp ứng dụng tiềm năng của nó, các nhà phát triển vẫn gặp khó khăn trong việc tạo ra các khung có khả năng tạo ra hoạt ảnh chất lượng cao, duy trì tính nhất quán về mặt thời gian và hấp dẫn về mặt hình ảnh. Nguyên nhân chính của sự phức tạp là nhu cầu phối hợp phức tạp giữa cử động môi, vị trí đầu và nét mặt để tạo ra hiệu ứng hấp dẫn về mặt thị giác.
Trong bài viết này, chúng ta sẽ nói về AniPortrait, một framework mới được thiết kế để tạo hoạt ảnh chất lượng cao được điều khiển bởi hình ảnh chân dung tham chiếu và mẫu âm thanh. Hoạt động của khung AniPortrait được chia thành hai giai đoạn. Đầu tiên, khung AniPortrait trích xuất các biểu diễn 3D trung gian từ các mẫu âm thanh và chiếu chúng thành một chuỗi các mốc trên khuôn mặt 2D. Theo đó, khung sử dụng mô hình khuếch tán mạnh mẽ kết hợp với mô-đun chuyển động để chuyển đổi các chuỗi mốc thành hoạt ảnh chân thực và nhất quán về mặt thời gian. Các kết quả thử nghiệm chứng minh tính ưu việt và khả năng của khung AniPortrait trong việc tạo ra hoạt ảnh chất lượng cao với chất lượng hình ảnh vượt trội, sự đa dạng về tư thế và sự tự nhiên của khuôn mặt, từ đó mang lại trải nghiệm nhận thức nâng cao và phong phú. Hơn nữa, khung AniPortrait có tiềm năng vượt trội về khả năng kiểm soát và tính linh hoạt, đồng thời có thể được áp dụng hiệu quả trong các lĩnh vực bao gồm tái hiện khuôn mặt, chỉnh sửa chuyển động khuôn mặt, v.v. Bài viết này nhằm mục đích trình bày chuyên sâu về khung AniPortrait và chúng tôi khám phá cơ chế, phương pháp, kiến trúc của khung này cùng với sự so sánh của nó với các khung hiện đại. Vậy hãy bắt đầu.
AniPortrait: Hoạt hình chân dung quang học
Tạo hoạt ảnh chân dung chân thực và biểu cảm từ lâu đã là trọng tâm của các nhà nghiên cứu nhờ tiềm năng đáng kinh ngạc và các ứng dụng trải rộng từ phương tiện kỹ thuật số và thực tế ảo đến trò chơi và hơn thế nữa. Bất chấp nhiều năm nghiên cứu và phát triển, việc tạo ra các hình ảnh động chất lượng cao, duy trì tính nhất quán về mặt thời gian và hấp dẫn về mặt thị giác vẫn là một thách thức đáng kể. Rào cản lớn đối với các nhà phát triển là nhu cầu phối hợp phức tạp giữa tư thế đầu, biểu cảm trực quan và cử động môi để tạo ra hiệu ứng hấp dẫn về mặt thị giác. Các phương pháp hiện tại đã không giải quyết được những thách thức này, chủ yếu vì phần lớn chúng dựa vào các công cụ tạo công suất hạn chế như NeRF, bộ giải mã dựa trên chuyển động và GAN để tạo nội dung trực quan. Các mạng này thể hiện khả năng khái quát hóa hạn chế và không ổn định trong việc tạo ra nội dung chất lượng cao. Tuy nhiên, sự xuất hiện gần đây của các mô hình khuếch tán đã tạo điều kiện thuận lợi cho việc tạo ra hình ảnh chất lượng cao và một số khung được xây dựng dựa trên các mô hình khuếch tán cùng với các mô-đun thời gian đã tạo điều kiện thuận lợi cho việc tạo ra các video hấp dẫn, cho phép các mô hình khuếch tán trở nên vượt trội.
Dựa trên những tiến bộ của mô hình phổ biến, khung AniPortrait nhằm mục đích tạo ra các bức chân dung hoạt hình chất lượng cao bằng cách sử dụng hình ảnh tham chiếu và mẫu âm thanh. Hoạt động của khung AniPortrait được chia thành hai giai đoạn. Trong giai đoạn đầu tiên, khung AniPortrait sử dụng các mô hình dựa trên máy biến áp để trích xuất một chuỗi lưới khuôn mặt và tư thế đầu 3D từ đầu vào âm thanh, sau đó chiếu chúng thành một chuỗi các điểm mốc trên khuôn mặt 2D. Giai đoạn đầu tiên tạo điều kiện cho hệ thống AniPortrait ghi lại chuyển động của môi và biểu cảm tinh tế từ âm thanh cũng như chuyển động của đầu đồng bộ hóa với nhịp điệu của mẫu âm thanh. Giai đoạn thứ hai, khung AniPortrait sử dụng mô hình khuếch tán mạnh mẽ và tích hợp nó với mô-đun chuyển động để chuyển đổi chuỗi điểm mốc trên khuôn mặt thành một bức chân dung hoạt hình chân thực và nhất quán theo thời gian. Cụ thể hơn, khung AniPortrait dựa trên kiến trúc mạng từ mô hình AnimateAnyone hiện có sử dụng Stable Diffusion 1.5, một công cụ mạnh mẽ. mô hình khuếch tán để tạo ra sự sống động và mượt mà dựa trên hình ảnh tham chiếu và chuỗi chuyển động của cơ thể. Điều đáng chú ý là khung AniPortrait không sử dụng mô-đun hướng dẫn tư thế trong mạng này như đã triển khai trong khung AnimateAnyone, nhưng nó thiết kế lại nó, cho phép khung AniPortrait không chỉ duy trì thiết kế gọn nhẹ mà còn thể hiện độ chính xác nâng cao trong việc tạo môi. sự di chuyển.
Kết quả thử nghiệm chứng minh tính ưu việt của khung AniPortrait trong việc tạo ảnh động với độ tự nhiên ấn tượng trên khuôn mặt, chất lượng hình ảnh xuất sắc và các tư thế đa dạng. Bằng cách sử dụng các biểu diễn khuôn mặt 3D làm tính năng trung gian, khung AniPortrait có được sự linh hoạt để sửa đổi các biểu diễn này theo yêu cầu của nó. Khả năng thích ứng giúp nâng cao đáng kể khả năng ứng dụng của khung AniPortrait trên các lĩnh vực bao gồm tái hiện khuôn mặt và chỉnh sửa chuyển động khuôn mặt.
AniPortrait: Làm việc và Phương pháp luận
Khung AniPortrait được đề xuất bao gồm hai mô-đun là Lmk2Video và Audio2Lmk. Mô-đun Audio2Lmk cố gắng trích xuất một chuỗi các điểm mốc ghi lại các chuyển động phức tạp của môi và nét mặt từ đầu vào âm thanh trong khi mô-đun Lmk2Video sử dụng chuỗi điểm mốc này để tạo ra các video chân dung chất lượng cao với độ ổn định theo thời gian. Hình dưới đây trình bày tổng quan về hoạt động của khung AniPortrait. Như có thể thấy, khung AniPortrait trước tiên sẽ trích xuất lưới khuôn mặt và tư thế đầu 3D từ âm thanh, sau đó chiếu hai yếu tố này thành các điểm chính 2D. Ở giai đoạn thứ hai, khung sử dụng mô hình khuếch tán để chuyển đổi các điểm chính 2D thành video dọc với hai giai đoạn được đào tạo đồng thời trong mạng.
Audio2Lmk
Đối với một chuỗi đoạn lời nói nhất định, mục tiêu chính của khung AniPortrait là dự đoán chuỗi lưới mặt 3D tương ứng với các biểu diễn vectơ dịch chuyển và xoay. Khung AniPortrait sử dụng phương pháp wav2vec được đào tạo trước để trích xuất các đặc điểm âm thanh và mô hình này thể hiện mức độ tổng quát hóa cao, đồng thời có khả năng nhận dạng ngữ điệu và cách phát âm từ âm thanh một cách chính xác, đóng vai trò quan trọng trong việc tạo ra hoạt hình khuôn mặt thực tế. Bằng cách tận dụng các tính năng giọng nói mạnh mẽ có được, khung AniPortrait có thể sử dụng hiệu quả kiến trúc đơn giản bao gồm hai lớp fc để chuyển đổi các tính năng này thành các lưới khuôn mặt 3D. Khung AniPortrait nhận thấy rằng thiết kế đơn giản này được mô hình triển khai không chỉ nâng cao hiệu quả của quá trình suy luận mà còn đảm bảo độ chính xác. Khi chuyển đổi âm thanh sang tư thế, khung AniPortrait sử dụng cùng mạng wav2vec làm mạng chính, mặc dù mô hình này không chia sẻ trọng số với mô-đun âm thanh sang lưới. Điều này chủ yếu là do thực tế là tư thế có liên quan nhiều hơn đến giai điệu và nhịp điệu có trong âm thanh, điều này có điểm nhấn khác khi so sánh với các tác vụ âm thanh và lưới. Để giải quyết tác động của các trạng thái trước đó, khung AniPortrait sử dụng bộ giải mã biến áp để giải mã chuỗi tư thế. Trong quá trình này, khung tích hợp các tính năng âm thanh vào bộ giải mã bằng cách sử dụng cơ chế chú ý chéo và đối với cả hai mô-đun, khung sẽ huấn luyện chúng bằng cách sử dụng tổn thất L1. Sau khi mô hình có được tư thế và trình tự lưới, nó sẽ sử dụng phép chiếu phối cảnh để chuyển đổi các trình tự này thành chuỗi 2D gồm các điểm mốc trên khuôn mặt, sau đó được sử dụng làm tín hiệu đầu vào cho giai đoạn tiếp theo.
Lmk2Video
Đối với hình ảnh chân dung tham chiếu nhất định và chuỗi các điểm mốc trên khuôn mặt, mô-đun Lmk2Video được đề xuất sẽ tạo hoạt ảnh dọc nhất quán theo thời gian và hoạt ảnh này căn chỉnh chuyển động với chuỗi điểm mốc và duy trì hình thức nhất quán với hình ảnh tham chiếu và cuối cùng , khung thể hiện hoạt ảnh dọc dưới dạng một chuỗi các khung dọc. Thiết kế cấu trúc mạng của Lmk2Video lấy cảm hứng từ khung AnimateAnyone hiện có. Khung AniPortrait sử dụng một Khuếch tán ổn định 1.5, một mô hình khuếch tán cực kỳ mạnh mẽ làm xương sống và kết hợp mô-đun chuyển động thời gian giúp chuyển đổi hiệu quả đầu vào nhiễu đa khung thành một chuỗi các khung hình video. Đồng thời, thành phần mạng ReferencenNet phản chiếu cấu trúc của Stable Diffusion 1.5 và sử dụng nó để trích xuất thông tin về hình thức từ hình ảnh tham chiếu và tích hợp nó vào xương sống. Thiết kế chiến lược đảm bảo rằng ID khuôn mặt vẫn nhất quán trong suốt video đầu ra. Khác biệt với khung AnimateAnyone, khung AniPortrait nâng cao độ phức tạp trong thiết kế của PoseGuider. Phiên bản gốc của khung AnimateAnyone chỉ bao gồm một số lớp tích chập mà các tính năng mốc hợp nhất với các lớp tiềm ẩn ở lớp đầu vào của xương sống. Khung AniPortrait phát hiện ra rằng thiết kế không thể ghi lại các chuyển động phức tạp của môi và để giải quyết vấn đề này, khung này áp dụng chiến lược đa quy mô của kiến trúc ConvNet và kết hợp các tính năng mang tính bước ngoặt của tỷ lệ tương ứng vào các khối khác nhau của khung. Hơn nữa, khung AniPortrait còn giới thiệu một cải tiến bổ sung bằng cách đưa các mốc của hình ảnh tham chiếu làm đầu vào bổ sung. Mô-đun thu hút sự chú ý chéo của thành phần PoseGuider tạo điều kiện thuận lợi cho sự tương tác giữa các mốc mục tiêu của từng khung hình và các mốc tham chiếu. Quá trình này cung cấp cho mạng các tín hiệu bổ sung để hiểu mối tương quan giữa diện mạo và các điểm nổi bật trên khuôn mặt, từ đó hỗ trợ tạo ra hoạt ảnh chân dung với chuyển động chính xác hơn.
AniPortrait: Thực hiện và kết quả
Đối với giai đoạn Audio2Lmk, khung AniPortrait sử dụng thành phần wav2vec2.0 làm xương sống và tận dụng kiến trúc MediaPipe để trích xuất các lưới 3D và tư thế 6D cho chú thích. Mô hình lấy dữ liệu đào tạo cho thành phần Audio2Mesh từ tập dữ liệu nội bộ bao gồm gần 60 phút dữ liệu giọng nói chất lượng cao được lấy từ một người nói. Để đảm bảo lưới 3D được trích xuất bởi thành phần MediaPipe ổn định, diễn viên lồng tiếng được hướng dẫn quay mặt về phía máy ảnh và duy trì vị trí đầu ổn định trong toàn bộ quá trình ghi. Đối với mô-đun Lmk2Video, khung AniPortrait triển khai phương pháp đào tạo hai giai đoạn. Trong giai đoạn đầu tiên, khung tập trung vào đào tạo ReferenceNet và PoseGuider, thành phần 2D của xương sống và loại bỏ mô-đun chuyển động. Ở bước thứ hai, khung AniPortrait sẽ đóng băng tất cả các thành phần khác và tập trung vào việc huấn luyện mô-đun chuyển động. Đối với giai đoạn này, khung sử dụng hai bộ dữ liệu video khuôn mặt chất lượng cao quy mô lớn để huấn luyện mô hình và xử lý tất cả dữ liệu bằng thành phần MediaPipe để trích xuất các mốc trên khuôn mặt 2D. Hơn nữa, để tăng cường độ nhạy của mạng đối với chuyển động của môi, mô hình AniPortrait phân biệt môi trên và môi dưới bằng các màu sắc riêng biệt khi hiển thị hình ảnh tư thế từ các mốc 2D.
Như được minh họa trong hình ảnh sau đây, khung AniPortrait tạo ra một loạt hoạt ảnh thể hiện chất lượng vượt trội cũng như tính chân thực.
Sau đó, khung này sử dụng biểu diễn 3D trung gian có thể được chỉnh sửa để xử lý đầu ra theo yêu cầu. Ví dụ: người dùng có thể trích xuất các mốc từ một nguồn nhất định và thay đổi ID của nó, do đó cho phép khung AniPortrait tạo hiệu ứng tái hiện khuôn mặt.
.
Trong bài viết này, chúng ta đã nói về AniPortrait, một framework mới được thiết kế để tạo hoạt ảnh chất lượng cao được điều khiển bởi hình ảnh chân dung tham chiếu và mẫu âm thanh. Chỉ cần nhập hình ảnh tham chiếu và clip âm thanh, khung AniPortrait có thể tạo ra video chân dung có chuyển động tự nhiên của đầu và chuyển động môi mượt mà. Bằng cách tận dụng khả năng khái quát hóa mạnh mẽ của mô hình khuếch tán, khung AniPortrait tạo ra các hoạt ảnh hiển thị chất lượng hình ảnh chân thực ấn tượng và chuyển động sống động như thật. Hoạt động của khung AniPortrait được chia thành hai giai đoạn. Đầu tiên, khung AniPortrait trích xuất các biểu diễn 3D trung gian từ các mẫu âm thanh và chiếu chúng thành một chuỗi các mốc trên khuôn mặt 2D. Theo đó, khung sử dụng mô hình khuếch tán mạnh mẽ kết hợp với mô-đun chuyển động để chuyển đổi các chuỗi mốc thành hoạt ảnh chân thực và nhất quán về mặt thời gian. Các kết quả thử nghiệm chứng minh tính ưu việt và khả năng của khung AniPortrait trong việc tạo ra hoạt ảnh chất lượng cao với chất lượng hình ảnh vượt trội, sự đa dạng về tư thế và sự tự nhiên của khuôn mặt, từ đó mang lại trải nghiệm nhận thức nâng cao và phong phú. Hơn nữa, khung AniPortrait có tiềm năng vượt trội về khả năng kiểm soát và tính linh hoạt, đồng thời có thể được áp dụng hiệu quả trong các lĩnh vực bao gồm tái hiện khuôn mặt, chỉnh sửa chuyển động khuôn mặt, v.v.