AI 101
Mô hình khuếch tán trong Trí tuệ nhân tạo – Tất cả những gì bạn cần biết

Trong hệ sinh thái trí tuệ nhân tạo, các mô hình khuếch tán đang thiết lập hướng và tốc độ tiến bộ công nghệ. Chúng đang cách mạng hóa cách chúng ta tiếp cận các nhiệm vụ trí tuệ nhân tạo phức tạp tạo ra. Những mô hình này dựa trên toán học của các nguyên tắc Gaussian, phương sai, phương trình vi phân và chuỗi tạo ra. (Chúng tôi sẽ giải thích các thuật ngữ kỹ thuật dưới đây)
Các sản phẩm và giải pháp trí tuệ nhân tạo hiện đại được phát triển bởi Nvidia, Google, Adobe và OpenAI đã đặt các mô hình khuếch tán vào trung tâm của sự chú ý. DALL.E 2, Stable Diffusion và Midjourney là những ví dụ nổi bật về các mô hình khuếch tán đang làm tròn trên internet gần đây. Người dùng cung cấp một lời nhắc văn bản đơn giản làm đầu vào, và những mô hình này có thể chuyển đổi chúng thành hình ảnh thực tế, như hình ảnh được hiển thị dưới đây.

Một hình ảnh được tạo ra với Midjourney v5 sử dụng lời nhắc đầu vào: hoa poppy California sặc sỡ. Nguồn: Midjourney
Hãy cùng khám phá các nguyên tắc hoạt động cơ bản của các mô hình khuếch tán và cách chúng đang thay đổi hướng và chuẩn mực của thế giới như chúng ta thấy ngày nay.
Что là Mô hình khuếch tán?
Theo bài báo nghiên cứu “Mô hình khuếch tán xác suất Denoising,” các mô hình khuếch tán được định nghĩa là:
“Mô hình khuếch tán hoặc mô hình xác suất khuếch tán là một chuỗi Markov tham số hóa được đào tạo sử dụng suy luận biến thể để tạo ra mẫu phù hợp với dữ liệu sau một thời gian有限”
Đơn giản hóa, các mô hình khuếch tán có thể tạo ra dữ liệu tương tự như những gì chúng được đào tạo. Nếu mô hình được đào tạo trên hình ảnh của mèo, nó có thể tạo ra hình ảnh thực tế của mèo.
Bây giờ hãy thử phân tích định nghĩa kỹ thuật được đề cập ở trên. Các mô hình khuếch tán lấy cảm hứng từ nguyên tắc hoạt động và nền tảng toán học của một mô hình xác suất có thể phân tích và dự đoán hành vi của một hệ thống thay đổi theo thời gian, chẳng hạn như dự đoán lợi nhuận của thị trường chứng khoán hoặc sự lây lan của đại dịch.
Định nghĩa cho biết chúng là chuỗi Markov tham số hóa được đào tạo với suy luận biến thể. Chuỗi Markov là các mô hình toán học xác định một hệ thống chuyển đổi giữa các trạng thái khác nhau theo thời gian. Trạng thái hiện tại của hệ thống chỉ có thể xác định xác suất chuyển đổi sang một trạng thái cụ thể.
Đào tạo mô hình sử dụng suy luận biến thể liên quan đến các tính toán phức tạp cho phân phối xác suất. Nó nhằm tìm ra các tham số chính xác của chuỗi Markov phù hợp với dữ liệu quan sát (được biết hoặc thực tế) sau một thời gian nhất định. Quá trình này giảm thiểu giá trị của hàm mất mát của mô hình, đó là sự khác biệt giữa trạng thái dự đoán (không xác định) và trạng thái quan sát (được biết).
Khi được đào tạo, mô hình có thể tạo ra mẫu phù hợp với dữ liệu quan sát. Những mẫu này đại diện cho các軌跡 hoặc trạng thái có thể mà hệ thống có thể theo dõi hoặc đạt được theo thời gian, và mỗi軌跡 có một xác suất khác nhau xảy ra. Do đó, mô hình có thể dự đoán hành vi tương lai của hệ thống bằng cách tạo ra một loạt mẫu và tìm xác suất tương ứng (xác suất của các sự kiện này xảy ra).
Làm thế nào để giải thích Mô hình khuếch tán trong Trí tuệ nhân tạo?
Các mô hình khuếch tán là các mô hình tạo ra sâu sắc hoạt động bằng cách thêm nhiễu (nhiễu Gaussian) vào dữ liệu đào tạo có sẵn (còn được gọi là quá trình khuếch tán tiến) và sau đó đảo ngược quá trình (được gọi là quá trình khử nhiễu hoặc quá trình khuếch tán ngược) để phục hồi dữ liệu. Mô hình逐渐 học cách loại bỏ nhiễu. Quá trình khử nhiễu được học này tạo ra hình ảnh mới, chất lượng cao từ các hạt giống ngẫu nhiên (hình ảnh nhiễu ngẫu nhiên), như được hiển thị trong hình minh họa dưới đây.

Quá trình khuếch tán ngược: Một hình ảnh nhiễu được khử nhiễu để phục hồi hình ảnh gốc (hoặc tạo ra các biến thể của nó) thông qua một mô hình khuếch tán được đào tạo. Nguồn: Mô hình xác suất Denoising Diffusion
3 Loại Mô hình khuếch tán
Có ba khuôn khổ toán học cơ bản dướipin khoa học đằng sau các mô hình khuếch tán. Tất cả ba đều hoạt động trên cùng một nguyên tắc thêm nhiễu và sau đó loại bỏ nó để tạo ra mẫu mới. Hãy thảo luận về chúng dưới đây.

Một mô hình khuếch tán thêm và loại bỏ nhiễu từ một hình ảnh. Nguồn: Khảo sát Mô hình khuếch tán trong tầm nhìn
1. Mô hình xác suất Denoising Diffusion (DDPMs)
Như đã giải thích ở trên, DDPMs là các mô hình tạo ra chủ yếu được sử dụng để loại bỏ nhiễu từ dữ liệu hình ảnh hoặc âm thanh. Chúng đã cho thấy kết quả ấn tượng trên các nhiệm vụ loại bỏ nhiễu hình ảnh và âm thanh. Ví dụ, ngành công nghiệp làm phim sử dụng các công cụ xử lý hình ảnh và video hiện đại để cải thiện chất lượng sản xuất.
2. Mô hình tạo ra dựa trên điểm số nhiễu (SGMs)
SGMs có thể tạo ra mẫu mới từ một phân phối đã cho. Chúng hoạt động bằng cách học một hàm điểm số ước tính có thể ước tính log mật độ của phân phối mục tiêu. Ước tính log mật độ đưa ra giả định về các điểm dữ liệu có sẵn rằng chúng là một phần của một tập dữ liệu không xác định (tập kiểm tra). Hàm điểm số này sau đó có thể tạo ra điểm dữ liệu mới từ phân phối.
Ví dụ, deep fake là nổi tiếng vì tạo ra video và âm thanh giả của các nhân vật nổi tiếng. Nhưng chúng chủ yếu được quy cho Mạng đối lập tạo ra (GANs). Tuy nhiên, SGMs đã cho thấy khả năng tương tự – đôi khi vượt trội – trong việc tạo ra khuôn mặt nổi tiếng chất lượng cao. Ngoài ra, SGMs có thể giúp mở rộng tập dữ liệu chăm sóc sức khỏe, không dễ dàng có sẵn với số lượng lớn do các quy định và tiêu chuẩn ngành nghiêm ngặt.
3. Phương trình vi phân ngẫu nhiên (SDEs)
SDEs mô tả sự thay đổi trong các quá trình ngẫu nhiên liên quan đến thời gian. Chúng được sử dụng rộng rãi trong vật lý và thị trường tài chính liên quan đến các yếu tố ngẫu nhiên có tác động đáng kể đến kết quả thị trường.
Ví dụ, giá của các hàng hóa là rất động và bị ảnh hưởng bởi một loạt các yếu tố ngẫu nhiên. SDEs tính toán các phái sinh tài chính như hợp đồng tương lai (như hợp đồng dầu thô). Chúng có thể mô hình hóa sự biến động và tính toán giá thuận lợi một cách chính xác để mang lại cảm giác an toàn.
Ứng dụng chính của Mô hình khuếch tán trong Trí tuệ nhân tạo
Hãy cùng xem một số ứng dụng rộng rãi và sử dụng của các mô hình khuếch tán trong trí tuệ nhân tạo.
Tạo ra video chất lượng cao
Tạo video chất lượng cao sử dụng học sâu là một thách thức vì nó yêu cầu sự liên tục cao của các khung hình video. Đây là nơi các mô hình khuếch tán trở nên hữu ích vì chúng có thể tạo ra một tập hợp con của các khung hình video để lấp đầy các khung hình bị thiếu, dẫn đến video chất lượng cao và mượt mà với không có độ trễ.
Các nhà nghiên cứu đã phát triển Mô hình khuếch tán linh hoạt và khuếch tán video dư để phục vụ mục đích này. Những mô hình này cũng có thể tạo ra video thực tế bằng cách thêm khung hình được tạo ra bởi AI vào giữa các khung hình thực, một cách mượt mà.
Những mô hình này có thể đơn giản mở rộng tốc độ khung hình (khung hình mỗi giây) của một video có tốc độ khung hình thấp bằng cách thêm khung hình giả sau khi học các mẫu từ các khung hình có sẵn. Với gần như không có mất khung hình, những khuôn khổ này có thể hỗ trợ thêm các mô hình học sâu dựa trên việc tạo ra video dựa trên AI từ đầu mà trông giống như các shot tự nhiên từ các bộ thiết lập máy ảnh cao cấp.
Một loạt các trình tạo video AI đáng chú ý có sẵn vào năm 2023 để làm cho sản xuất và chỉnh sửa nội dung video trở nên nhanh chóng và đơn giản.
Tạo hình ảnh từ văn bản
Mô hình tạo hình ảnh từ văn bản sử dụng lời nhắc đầu vào để tạo ra hình ảnh chất lượng cao. Ví dụ, đưa ra lời nhắc “quả táo đỏ trên một đĩa” và tạo ra một hình ảnh thực tế của một quả táo trên một đĩa. Khuếch tán trộn và unCLIP là hai ví dụ nổi bật về những mô hình này có thể tạo ra hình ảnh chính xác và相关 dựa trên đầu vào của người dùng.
Ngoài ra, GLIDE của OpenAI là một giải pháp khác được biết đến rộng rãi được phát hành vào năm 2021 tạo ra hình ảnh thực tế sử dụng đầu vào của người dùng. Sau đó, OpenAI phát hành DALL.E-2, mô hình tạo hình ảnh tiên tiến nhất của họ.
Tương tự, Google cũng đã phát triển một mô hình tạo hình ảnh được gọi là Imagen, sử dụng một mô hình ngôn ngữ lớn để phát triển một sự hiểu biết sâu sắc về văn bản đầu vào và sau đó tạo ra hình ảnh thực tế.
Chúng tôi đã đề cập đến các công cụ tạo hình ảnh phổ biến khác như Midjourney và Stable Diffusion (DreamStudio) ở trên. Hãy xem một hình ảnh được tạo ra sử dụng Stable Diffusion dưới đây.

Một hình ảnh được tạo ra với Stable Diffusion 1.5 sử dụng lời nhắc đầu vào: “tập hợp, siêu thực tế, nhiều biến thể chân dung của thom yorke già, biến thể khuôn mặt, ca sĩ – nhạc sĩ, (bên) hồ sơ, các độ tuổi khác nhau, ống kính macro, không gian giới hạn, bởi lee bermejo, alphonse mucha và greg rutkowski, râu xám, khuôn mặt mịn, gò má”
Mô hình khuếch tán trong Trí tuệ nhân tạo – Điều gì để mong đợi trong tương lai?
Các mô hình khuếch tán đã tiết lộ tiềm năng đầy hứa hẹn như một cách tiếp cận mạnh mẽ để tạo ra mẫu chất lượng cao từ các tập dữ liệu hình ảnh và video phức tạp. Bằng cách cải thiện khả năng của con người trong việc sử dụng và thao tác dữ liệu, các mô hình khuếch tán có thể có khả năng cách mạng hóa thế giới như chúng ta thấy ngày nay. Chúng ta có thể mong đợi thấy nhiều ứng dụng hơn của các mô hình khuếch tán trở thành một phần không thể thiếu trong cuộc sống hàng ngày của chúng ta.
Tuy nhiên, các mô hình khuếch tán không phải là kỹ thuật tạo ra duy nhất. Các nhà nghiên cứu cũng sử dụng Mạng đối lập tạo ra (GANs), Máy tự mã hóa biến thể và mô hình tạo ra sâu dựa trên dòng chảy để tạo ra nội dung AI. Việc hiểu các đặc điểm cơ bản phân biệt các mô hình khuếch tán với các mô hình tạo ra khác có thể giúp tạo ra các giải pháp hiệu quả hơn trong những ngày tới.
Để tìm hiểu thêm về các công nghệ dựa trên AI, hãy truy cập Unite.ai. Kiểm tra các tài nguyên được biên soạn của chúng tôi về các công cụ tạo ra AI dưới đây.










