AI 101

Các Mô Hình Khuyếch Tán Trong Trí Tuệ Nhân Tạo – Tất Cả Những Gì Bạn Cần Biết

mm
A collage of human faces created using AI image generator

Trong hệ sinh thái trí tuệ nhân tạo, các mô hình khuyếch tán đang thiết lập hướng và tốc độ tiến bộ công nghệ. Chúng đang cách mạng hóa cách chúng ta tiếp cận các nhiệm vụ trí tuệ nhân tạo tạo sinh phức tạp. Những mô hình này dựa trên toán học của các nguyên tắc Gaussian, phương sai, phương trình vi phân và chuỗi tạo sinh. (Chúng tôi sẽ giải thích các thuật ngữ kỹ thuật dưới đây)

Các sản phẩm và giải pháp trí tuệ nhân tạo hiện đại được phát triển bởi Nvidia, Google, Adobe và OpenAI đã đặt các mô hình khuyếch tán vào trung tâm của sự chú ý. DALL.E 2, Stable DiffusionMidjourney là những ví dụ nổi bật về các mô hình khuyếch tán đang làm tròn trên internet gần đây. Người dùng cung cấp một lời nhắc văn bản đơn giản làm đầu vào, và những mô hình này có thể chuyển đổi chúng thành hình ảnh thực tế, như hình ảnh được hiển thị dưới đây.

Một hình ảnh được tạo ra với Midjourney v5 sử dụng lời nhắc đầu vào: hoa California poppies sặc sỡ.

Một hình ảnh được tạo ra với Midjourney v5 sử dụng lời nhắc đầu vào: hoa California poppies sặc sỡ. Nguồn: Midjourney

Hãy cùng khám phá các nguyên tắc hoạt động cơ bản của các mô hình khuyếch tán và cách chúng đang thay đổi hướng và chuẩn mực của thế giới như chúng ta thấy ngày nay.

Các Mô Hình Khuyếch Tán Là Gì?

Theo bài báo nghiên cứu “Các Mô Hình Khuyếch Tán Tạo Sinh Xác Suất,” các mô hình khuyếch tán được định nghĩa là:

“Một mô hình khuyếch tán hoặc mô hình khuyếch tán tạo sinh xác suất là một chuỗi Markov được tham số hóa được đào tạo sử dụng suy luận biến phân để tạo ra các mẫu khớp với dữ liệu sau một thời gian有限”

Nói một cách đơn giản, các mô hình khuyếch tán có thể tạo ra dữ liệu tương tự như những gì chúng được đào tạo. Nếu mô hình được đào tạo trên hình ảnh của mèo, nó có thể tạo ra hình ảnh thực tế của mèo.

Bây giờ hãy cố gắng phân tích định nghĩa kỹ thuật được đề cập ở trên. Các mô hình khuyếch tán lấy cảm hứng từ nguyên tắc hoạt động và nền tảng toán học của một mô hình tạo sinh xác suất có thể phân tích và dự đoán hành vi của một hệ thống thay đổi theo thời gian, chẳng hạn như dự đoán lợi nhuận của thị trường chứng khoán hoặc sự lây lan của đại dịch.

Định nghĩa cho biết chúng là các chuỗi Markov được tham số hóa được đào tạo bằng suy luận biến phân. Các chuỗi Markov là các mô hình toán học mô tả một hệ thống có thể chuyển đổi giữa các trạng thái khác nhau theo thời gian. Trạng thái hiện tại của hệ thống chỉ có thể xác định xác suất chuyển đổi sang một trạng thái cụ thể. Nói cách khác, trạng thái hiện tại của một hệ thống nắm giữ các trạng thái có thể mà hệ thống có thể theo dõi hoặc đạt được tại bất kỳ thời điểm nào.

Đào tạo mô hình bằng suy luận biến phân liên quan đến các tính toán phức tạp về phân phối xác suất. Mục tiêu là tìm các tham số chính xác của chuỗi Markov khớp với dữ liệu quan sát (biết hoặc thực tế) sau một thời gian cụ thể. Quá trình này tối thiểu hóa giá trị của hàm mất mát của mô hình, đó là sự khác biệt giữa trạng thái dự đoán (không biết) và trạng thái quan sát (biết).

Khi được đào tạo, mô hình có thể tạo ra các mẫu khớp với dữ liệu quan sát. Những mẫu này đại diện cho các đường dẫn hoặc trạng thái có thể mà hệ thống có thể theo dõi hoặc đạt được theo thời gian, và mỗi đường dẫn có một xác suất khác nhau xảy ra. Do đó, mô hình có thể dự đoán hành vi tương lai của hệ thống bằng cách tạo ra một loạt các mẫu và tìm xác suất tương ứng của chúng (xác suất của các sự kiện này xảy ra).

Làm Thế Nào Để Diễn Giải Các Mô Hình Khuyếch Tán Trong Trí Tuệ Nhân Tạo?

Các mô hình khuyếch tán là các mô hình tạo sinh sâu mà hoạt động bằng cách thêm nhiễu (nhiễu Gaussian) vào dữ liệu đào tạo có sẵn (còn được gọi là quá trình khuyếch tán thuận) và sau đó đảo ngược quá trình (còn được gọi là quá trình khuyếch tán ngược) để phục hồi dữ liệu. Mô hình dần dần học cách loại bỏ nhiễu. Quá trình khử nhiễu đã học này tạo ra hình ảnh mới, chất lượng cao từ các hạt giống ngẫu nhiên (hình ảnh nhiễu ngẫu nhiên), như được minh họa trong hình dưới đây.

Quá trình khuyếch tán ngược: Một hình ảnh nhiễu được khử nhiễu để phục hồi hình ảnh gốc (hoặc tạo ra các biến thể của nó) thông qua một mô hình khuyếch tán được đào tạo.

Quá trình khuyếch tán ngược: Một hình ảnh nhiễu được khử nhiễu để phục hồi hình ảnh gốc (hoặc tạo ra các biến thể của nó) thông qua một mô hình khuyếch tán được đào tạo. Nguồn: Các Mô Hình Khuyếch Tán Tạo Sinh Xác Suất

3 Loại Mô Hình Khuyếch Tán

ba khuôn khổ toán học cơ bản mà dướipin khoa học đằng sau các mô hình khuyếch tán. Tất cả ba đều hoạt động trên cùng một nguyên tắc của việc thêm nhiễu và sau đó loại bỏ nó để tạo ra các mẫu mới. Hãy thảo luận về chúng dưới đây.

Một mô hình khuyếch tán thêm và loại bỏ nhiễu từ một hình ảnh.

Một mô hình khuyếch tán thêm và loại bỏ nhiễu từ một hình ảnh. Nguồn: Khảo Sát Mô Hình Khuyếch Tán Trong Tầm Nhìn

1. Các Mô Hình Khuyếch Tán Tạo Sinh Xác Suất (DDPMs)

Như đã giải thích ở trên, DDPMs là các mô hình tạo sinh chủ yếu được sử dụng để loại bỏ nhiễu từ dữ liệu hình ảnh hoặc âm thanh. Chúng đã cho thấy kết quả ấn tượng trên các nhiệm vụ loại bỏ nhiễu hình ảnh và âm thanh. Ví dụ, ngành công nghiệp làm phim sử dụng các công cụ xử lý hình ảnh và video hiện đại để cải thiện chất lượng sản xuất.

2. Các Mô Hình Tạo Sinh Căn Cứ Nhiễu (SGMs)

SGMs có thể tạo ra các mẫu mới từ một phân phối đã cho. Chúng hoạt động bằng cách học một hàm ước tính điểm số có thể ước tính mật độ log của phân phối mục tiêu. Ước tính mật độ log đưa ra giả định về các điểm dữ liệu có sẵn mà nó là một phần của một tập dữ liệu không xác định (tập kiểm tra). Hàm điểm số này sau đó có thể tạo ra các điểm dữ liệu mới từ phân phối.

Ví dụ, deep fakes là nổi tiếng với việc sản xuất video và âm thanh giả mạo của các nhân vật nổi tiếng. Nhưng chúng chủ yếu được quy cho Mạng Đối Nghịch Tạo Sinh (GANs). Tuy nhiên, SGMs đã cho thấy khả năng tương tự – đôi khi vượt trội – trong việc tạo ra các khuôn mặt nổi tiếng chất lượng cao. Ngoài ra, SGMs có thể giúp mở rộng các tập dữ liệu y tế, vốn không có sẵn với số lượng lớn do các quy định và tiêu chuẩn ngành nghiêm ngặt.

3. Các Phương Trình Vi Phân Ngẫu Nhiên (SDEs)

SDEs mô tả sự thay đổi trong các quá trình ngẫu nhiên liên quan đến thời gian. Chúng được sử dụng rộng rãi trong vật lý và thị trường tài chính liên quan đến các yếu tố ngẫu nhiên có ảnh hưởng đáng kể đến kết quả thị trường.

Ví dụ, giá của các hàng hóa là rất động và bị ảnh hưởng bởi một loạt các yếu tố ngẫu nhiên. SDEs tính toán các phái sinh tài chính như hợp đồng tương lai (như hợp đồng dầu thô). Chúng có thể mô hình hóa sự biến động và tính toán giá thuận lợi một cách chính xác để cung cấp một ý niệm về bảo mật.

Các Ứng Dụng Chính Của Các Mô Hình Khuyếch Tán Trong Trí Tuệ Nhân Tạo

Hãy cùng xem một số ứng dụng rộng rãi và phổ biến của các mô hình khuyếch tán trong trí tuệ nhân tạo.

Sự Tạo Ra Video Chất Lượng Cao

Tạo video chất lượng cao sử dụng học sâu là một thách thức vì nó yêu cầu sự liên tục cao của các khung hình video. Đây là nơi các mô hình khuyếch tán trở nên hữu ích vì chúng có thể tạo ra một tập hợp con của các khung hình video để lấp đầy các khung hình bị thiếu, dẫn đến video chất lượng cao và mượt mà mà không có độ trễ.

Các nhà nghiên cứu đã phát triển Mô Hình Khuyếch Tán Linh Hoạt và Khuyếch Tán Video Dư để phục vụ mục đích này. Những mô hình này cũng có thể tạo ra video thực tế bằng cách thêm các khung hình được tạo bởi AI một cách mượt mà giữa các khung hình thực tế.

Các mô hình này có thể đơn giản mở rộng tốc độ khung hình (FPS) của một video có tốc độ khung hình thấp bằng cách thêm các khung hình giả sau khi học các mẫu từ các khung hình có sẵn. Với hầu như không có mất khung hình, những khuôn khổ này có thể hỗ trợ thêm các mô hình học sâu dựa trên AI để tạo ra video dựa trên AI từ đầu mà trông giống như các cảnh quay tự nhiên từ các thiết lập máy quay cao cấp.

Một loạt các trình tạo video AI đáng chú ý có sẵn vào năm 2023 để làm cho việc sản xuất và chỉnh sửa nội dung video trở nên nhanh chóng và đơn giản.

Sự Tạo Ra Hình Ảnh Từ Văn Bản

Các mô hình hình ảnh từ văn bản sử dụng lời nhắc đầu vào để tạo ra hình ảnh chất lượng cao. Ví dụ, đưa ra lời nhắc “quả táo đỏ trên đĩa” và tạo ra một hình ảnh thực tế của quả táo trên đĩa. Khuyếch Tán TrộnunCLIP là hai ví dụ nổi bật về các mô hình như vậy có thể tạo ra hình ảnh liên quan và chính xác cao dựa trên đầu vào của người dùng.

Cũng, GLIDE của OpenAI là một giải pháp khác được biết đến rộng rãi được phát hành vào năm 2021, tạo ra hình ảnh thực tế bằng cách sử dụng đầu vào của người dùng. Sau đó, OpenAI đã phát hành DALL.E-2, mô hình tạo hình ảnh tiên tiến nhất của họ.

Tương tự, Google cũng đã phát triển một mô hình tạo hình ảnh được gọi là Imagen, sử dụng một mô hình ngôn ngữ lớn để phát triển một sự hiểu biết sâu về văn bản đầu vào và sau đó tạo ra hình ảnh thực tế.

Chúng tôi đã đề cập đến các công cụ tạo hình ảnh phổ biến khác như Midjourney và Stable Diffusion (DreamStudio) ở trên. Hãy xem một hình ảnh được tạo ra bằng Stable Diffusion dưới đây.

Một hình ảnh được tạo ra với Stable Diffusion 1.5

Một hình ảnh được tạo ra với Stable Diffusion 1.5 sử dụng lời nhắc đầu vào: “họa, siêu thực, nhiều biến thể chân dung của thom yorke già, khuôn mặt, ca sĩ – nhạc sĩ, (bên) hồn, các độ tuổi khác nhau, ống kính macro, không gian liminal, bởi lee bermejo, alphonse mucha và greg rutkowski, râu bạc, khuôn mặt mịn, gò má”

Các Mô Hình Khuyếch Tán Trong Trí Tuệ Nhân Tạo – Điều Gì Để Mong Chờ Trong Tương Lai?

Các mô hình khuyếch tán đã cho thấy tiềm năng đầy hứa hẹn như một cách tiếp cận mạnh mẽ để tạo ra các mẫu chất lượng cao từ các tập dữ liệu hình ảnh và video phức tạp. Bằng cách cải thiện khả năng của con người trong việc sử dụng và thao tác dữ liệu, các mô hình khuyếch tán có thể cách mạng hóa thế giới như chúng ta thấy ngày nay. Chúng ta có thể mong đợi thấy nhiều ứng dụng hơn của các mô hình khuyếch tán trở thành một phần không thể thiếu trong cuộc sống hàng ngày của chúng ta.

Như đã nói, các mô hình khuyếch tán không phải là kỹ thuật tạo sinh duy nhất. Các nhà nghiên cứu cũng sử dụng Mạng Đối Nghịch Tạo Sinh (GANs), Tự Mã Hóa Biến Phân và các mô hình tạo sinh sâu dựa trên dòng chảy để tạo ra nội dung AI. Việc hiểu các đặc điểm cơ bản phân biệt các mô hình khuyếch tán với các mô hình tạo sinh khác có thể giúp tạo ra các giải pháp hiệu quả hơn trong những ngày tới.

Để tìm hiểu thêm về các công nghệ dựa trên AI, hãy truy cập Unite.ai. Xem các tài nguyên được biên soạn của chúng tôi về các công cụ AI tạo sinh dưới đây.

Haziqa là một Nhà khoa học dữ liệu với kinh nghiệm rộng rãi trong việc viết nội dung kỹ thuật cho các công ty AI và SaaS.