Trí tuệ nhân tạo

Các mô hình khuếch tán trong AI – Mọi thứ bạn cần biết

Được phát hành

1 năm trước

31 Tháng ba, 2023

Ảnh ghép khuôn mặt người được tạo bằng trình tạo hình ảnh AI

Trong hệ sinh thái AI, các mô hình khuếch tán đang thiết lập hướng và tốc độ tiến bộ công nghệ. Họ đang cách mạng hóa cách chúng ta tiếp cận phức hợp trí tuệ nhân tạo nhiệm vụ. Các mô hình này dựa trên toán học của các nguyên tắc gaussian, phương sai, phương trình vi phân và trình tự tổng quát. (Chúng tôi sẽ giải thích thuật ngữ kỹ thuật bên dưới)

Các sản phẩm và giải pháp hiện đại tập trung vào AI do Nvidia, Google, Adobe và OpenAI phát triển đã đưa các mô hình khuếch tán vào trung tâm của ánh đèn sân khấu. DALL.E 2, Khuếch tán ổn địnhvà midjourney là những ví dụ nổi bật về các mô hình khuếch tán đang gây xôn xao trên internet gần đây. Người dùng cung cấp lời nhắc văn bản đơn giản làm đầu vào và các mô hình này có thể chuyển đổi chúng thành hình ảnh thực tế, chẳng hạn như hình ảnh hiển thị bên dưới.

Một hình ảnh được tạo bằng Midjourney v5 bằng dấu nhắc đầu vào: hoa anh túc California rực rỡ. Nguồn: midjourney

Hãy khám phá các nguyên tắc hoạt động cơ bản của các mô hình khuếch tán và cách chúng thay đổi các hướng và chuẩn mực của thế giới như chúng ta thấy ngày nay.

Mô hình khuếch tán là gì?

Theo công bố nghiên cứu “Mô hình xác suất khuếch tán Denoising,” các mô hình khuếch tán được định nghĩa là:

“Mô hình khuếch tán hoặc mô hình khuếch tán xác suất là một chuỗi Markov được tham số hóa được đào tạo bằng cách sử dụng suy luận biến thiên để tạo ra các mẫu khớp với dữ liệu sau thời gian hữu hạn”

Nói một cách đơn giản, các mô hình khuếch tán có thể tạo ra dữ liệu tương tự như dữ liệu mà chúng được đào tạo. Nếu mô hình đào tạo trên hình ảnh của mèo, nó có thể tạo ra hình ảnh thực tế tương tự của mèo.

Bây giờ chúng ta hãy thử phá vỡ định nghĩa kỹ thuật được đề cập ở trên. Các mô hình khuếch tán lấy cảm hứng từ nguyên tắc làm việc và nền tảng toán học của một mô hình xác suất có thể phân tích và dự đoán hành vi của hệ thống thay đổi theo thời gian, chẳng hạn như dự đoán lợi nhuận của thị trường chứng khoán hoặc sự lây lan của đại dịch.

Định nghĩa nói rằng chúng là các chuỗi Markov được tham số hóa được đào tạo với suy luận biến phân. Chuỗi Markov là mô hình toán học xác định một hệ thống chuyển đổi giữa các trạng thái khác nhau theo thời gian. Trạng thái hiện có của hệ thống chỉ có thể xác định xác suất chuyển đổi sang một trạng thái cụ thể. Nói cách khác, trạng thái hiện tại của một hệ thống nắm giữ các trạng thái khả dĩ mà một hệ thống có thể theo dõi hoặc đạt được tại bất kỳ thời điểm nào.

Huấn luyện mô hình bằng cách sử dụng suy luận biến phân liên quan đến các phép tính phức tạp đối với các phân bố xác suất. Nó nhằm mục đích tìm ra các tham số chính xác của chuỗi Markov khớp với dữ liệu (đã biết hoặc thực tế) được quan sát sau một thời gian cụ thể. Quá trình này giảm thiểu giá trị của hàm mất mát của mô hình, đó là sự khác biệt giữa trạng thái dự đoán (chưa biết) và quan sát (đã biết).

Sau khi được đào tạo, mô hình có thể tạo các mẫu khớp với dữ liệu được quan sát. Các mẫu này đại diện cho các quỹ đạo có thể hoặc trạng thái mà hệ thống có thể theo dõi hoặc thu được theo thời gian và mỗi quỹ đạo có xác suất xảy ra khác nhau. Do đó, mô hình có thể dự đoán hành vi trong tương lai của hệ thống bằng cách tạo ra một loạt các mẫu và tìm xác suất tương ứng của chúng (khả năng xảy ra những sự kiện này).

Làm cách nào để diễn giải các mô hình khuếch tán trong AI?

Các mô hình khuếch tán là các mô hình tạo sâu hoạt động bằng cách thêm nhiễu (nhiễu Gauss) vào dữ liệu đào tạo có sẵn (còn được gọi là quy trình khuếch tán thuận) và sau đó đảo ngược quy trình (được gọi là quy trình khử nhiễu hoặc khuếch tán ngược) để khôi phục dữ liệu. Mô hình dần dần học cách loại bỏ tiếng ồn. Quá trình khử nhiễu đã học này tạo ra các hình ảnh mới, chất lượng cao từ các hạt ngẫu nhiên (hình ảnh nhiễu ngẫu nhiên), như trong hình minh họa bên dưới.

Quá trình khuếch tán ngược: Hình ảnh nhiễu được khử nhiễu để khôi phục hình ảnh gốc (hoặc tạo ra các biến thể của nó) thông qua mô hình khuếch tán được đào tạo. Nguồn: Mô hình xác suất khuếch tán Denoising

3 Danh mục mô hình khuếch tán

Có ba khung toán học cơ bản làm nền tảng cho khoa học đằng sau các mô hình khuếch tán. Cả ba đều hoạt động trên cùng một nguyên tắc là thêm tiếng ồn và sau đó loại bỏ nó để tạo ra các mẫu mới. Hãy thảo luận về chúng dưới đây.

Mô hình khuếch tán thêm và loại bỏ nhiễu khỏi hình ảnh. Nguồn: Các mô hình khuếch tán trong Tầm nhìn: Một cuộc khảo sát

1. Các mô hình xác suất khuếch tán khử nhiễu (DDPM)

Như đã giải thích ở trên, DDPM là các mô hình chung được sử dụng chủ yếu để loại bỏ nhiễu khỏi dữ liệu hình ảnh hoặc âm thanh. Họ đã cho thấy kết quả ấn tượng trên các tác vụ khử nhiễu hình ảnh và âm thanh khác nhau. Chẳng hạn, ngành làm phim sử dụng các công cụ xử lý hình ảnh và video hiện đại để cải thiện chất lượng sản xuất.

2. Các mô hình tạo dựa trên điểm có điều kiện về tiếng ồn (SGM)

SGM có thể tạo các mẫu mới từ một bản phân phối nhất định. Chúng hoạt động bằng cách tìm hiểu một hàm điểm ước tính có thể ước tính mật độ nhật ký của phân phối mục tiêu. Ước tính mật độ nhật ký đưa ra các giả định cho các điểm dữ liệu có sẵn là một phần của tập dữ liệu không xác định (tập kiểm tra). Hàm điểm số này sau đó có thể tạo ra các điểm dữ liệu mới từ phân phối.

Ví dụ, hàng giả sâu nổi tiếng với việc sản xuất video và âm thanh giả của những nhân vật nổi tiếng. Nhưng chúng chủ yếu được quy cho Mạng đối thủ chung (GAN). Tuy nhiên, các SGM có thể hiện khả năng tương tự – đôi khi vượt trội hơn – trong việc tạo ra những gương mặt nổi tiếng chất lượng cao. Ngoài ra, SGM có thể giúp mở rộng bộ dữ liệu chăm sóc sức khỏe, vốn không có sẵn với số lượng lớn do các quy định nghiêm ngặt và tiêu chuẩn ngành.

3. Phương trình vi phân ngẫu nhiên (SDE)

SDE mô tả những thay đổi trong các quá trình ngẫu nhiên liên quan đến thời gian. Chúng được sử dụng rộng rãi trong vật lý và thị trường tài chính liên quan đến các yếu tố ngẫu nhiên tác động đáng kể đến kết quả thị trường.

Ví dụ, giá cả hàng hóa rất biến động và bị ảnh hưởng bởi một loạt các yếu tố ngẫu nhiên. SDEs tính toán các công cụ phái sinh tài chính như hợp đồng tương lai (như hợp đồng dầu thô). Họ có thể mô hình hóa các biến động và tính toán giá thuận lợi một cách chính xác để mang lại cảm giác an toàn.

Các ứng dụng chính của mô hình khuếch tán trong AI

Hãy xem xét một số thực tiễn được điều chỉnh rộng rãi và việc sử dụng các mô hình khuếch tán trong AI.

Tạo video chất lượng cao

Tạo video cao cấp bằng cách sử dụng học kĩ càng là một thách thức vì nó đòi hỏi tính liên tục cao của các khung hình video. Đây là lúc các mô hình khuếch tán trở nên hữu ích vì chúng có thể tạo một tập hợp con các khung hình video để lấp đầy giữa các khung hình bị thiếu, tạo ra các video chất lượng cao và mượt mà không có độ trễ.

Các nhà nghiên cứu đã phát triển các Mô hình khuếch tán linh hoạt và khuếch tán video dư kỹ thuật phục vụ mục đích này. Các mô hình này cũng có thể tạo ra các video chân thực bằng cách thêm liền mạch các khung hình do AI tạo ra giữa các khung hình thực tế.

Các mô hình này có thể chỉ cần mở rộng FPS (khung hình trên giây) của video FPS thấp bằng cách thêm các khung hình giả sau khi tìm hiểu các mẫu từ các khung hình có sẵn. Hầu như không bị mất khung hình, các khung này có thể hỗ trợ thêm cho các mô hình dựa trên học sâu để tạo các video dựa trên AI từ đầu trông giống như các cảnh quay tự nhiên từ các thiết lập cam cao cấp.

Một loạt các đáng chú ý Trình tạo video AI ra mắt vào năm 2023 để giúp quá trình sản xuất và chỉnh sửa nội dung video trở nên nhanh chóng và đơn giản.

Tạo văn bản thành hình ảnh

Mô hình chuyển văn bản thành hình ảnh sử dụng lời nhắc đầu vào để tạo hình ảnh chất lượng cao. Ví dụ: nhập “quả táo đỏ trên đĩa” và tạo ra hình ảnh chân thực về quả táo trên đĩa. khuếch tán hỗn hợp và bỏ CLIP là hai ví dụ nổi bật về các mô hình như vậy có thể tạo ra hình ảnh chính xác và có liên quan cao dựa trên thông tin đầu vào của người dùng.

Cũng thế, GLIDE của OpenAI là một giải pháp được biết đến rộng rãi khác được phát hành vào năm 2021 để tạo ra hình ảnh chân thực bằng thông tin đầu vào của người dùng. Sau đó, OpenAI đã phát hành DALL.E-2, mô hình tạo hình ảnh tiên tiến nhất của nó.

Tương tự, Google cũng đã phát triển một mô hình tạo hình ảnh được gọi là Ảnh, sử dụng mô hình ngôn ngữ lớn để phát triển khả năng hiểu văn bản sâu sắc về văn bản đầu vào, sau đó tạo ra hình ảnh chân thực.

Chúng tôi đã đề cập đến các công cụ tạo hình ảnh phổ biến khác như Midjourney và Stable Diffusion (xưởng vẽ trong mơ) bên trên. Hãy xem hình ảnh được tạo bằng Khuếch tán ổn định bên dưới.

Ảnh ghép khuôn mặt người được tạo bằng Khuếch tán ổn định 1.5

Một hình ảnh được tạo bằng Stable Diffusion 1.5 bằng cách sử dụng lời nhắc sau: “ảnh ghép, siêu thực, nhiều biến thể, chân dung của thom yorke rất già, các biến thể trên khuôn mặt, ca sĩ-nhạc sĩ, hồ sơ (bên cạnh), các độ tuổi khác nhau, ống kính macro, không gian danh nghĩa, bởi lee bermejo, alphonse mucha và greg rutkowski, râu xám, khuôn mặt nhẵn nhụi, gò má cao”

Các mô hình khuếch tán trong AI – Điều gì sẽ xảy ra trong tương lai?

Các mô hình khuếch tán đã cho thấy tiềm năng đầy hứa hẹn như một cách tiếp cận mạnh mẽ để tạo các mẫu chất lượng cao từ các bộ dữ liệu hình ảnh và video phức tạp. Bằng cách cải thiện khả năng sử dụng và thao tác dữ liệu của con người, các mô hình khuếch tán có khả năng cách mạng hóa thế giới như chúng ta thấy ngày nay. Chúng ta có thể mong đợi thấy nhiều ứng dụng hơn nữa của các mô hình khuếch tán trở thành một phần không thể thiếu trong cuộc sống hàng ngày của chúng ta.

Phải nói rằng, các mô hình khuếch tán không phải là kỹ thuật AI sáng tạo duy nhất. Các nhà nghiên cứu cũng sử dụng Generative Adversarial Networks (GAN), Variational Tự động mã hóavà các mô hình tạo sâu dựa trên luồng để tạo nội dung AI. Hiểu được các đặc điểm cơ bản giúp phân biệt các mô hình khuếch tán với các mô hình tổng quát khác có thể giúp tạo ra các giải pháp hiệu quả hơn trong những ngày tới.

Để tìm hiểu thêm về các công nghệ dựa trên AI, hãy truy cập đoàn kết.ai. Kiểm tra các tài nguyên được tuyển chọn của chúng tôi về các công cụ AI tổng quát bên dưới.