Connect with us

Tương lai của Tạo hình ảnh tăng cường RAG

Góc nhìn Anderson

Tương lai của Tạo hình ảnh tăng cường RAG

mm
ChatGPT-4o: ‘Decades ago photos were a photochemical process, and typically photographic prints were done in a darkroom, with the wet prints hung from a line like clothes. Show me that environment, with 10 photos drying on a line in darkroom, and a white-coated scientist picking one of them off the line. Bokeh focus, 1792x1024’

Các mô hình khuếch tán tạo sinh như Stable Diffusion, Flux và các mô hình video như Hunyuan phụ thuộc vào kiến thức thu được trong một phiên đào tạo duy nhất, tốn nhiều tài nguyên, sử dụng tập dữ liệu cố định. Bất kỳ khái niệm nào được giới thiệu sau phiên đào tạo này – được gọi là điểm cắt kiến thức – sẽ vắng mặt trong mô hình trừ khi được bổ sung thông qua tinh chỉnh hoặc các kỹ thuật thích nghi bên ngoài như Thích nghi hạng thấp (LoRA).

Do đó, sẽ lý tưởng nếu một hệ thống tạo sinh có thể truy cập vào các nguồn trực tuyến và đưa chúng vào quá trình tạo sinh khi cần. Ví dụ, một mô hình khuếch tán không biết gì về sản phẩm mới nhất của Apple hoặc Tesla vẫn có thể tạo ra hình ảnh chứa các sản phẩm mới này.

Về các mô hình ngôn ngữ, hầu hết chúng ta đều quen thuộc với các hệ thống như Perplexity, Notebook LM và ChatGPT-4o, có thể kết hợp thông tin bên ngoài mới vào một mô hình Tạo sinh tăng cường Retrieval (RAG).

Quá trình RAG làm cho phản hồi của ChatGPT 4o trở nên liên quan hơn. Nguồn: https://chatgpt.com/

Quá trình RAG làm cho phản hồi của ChatGPT 4o trở nên liên quan hơn. Nguồn: https://chatgpt.com/

Tuy nhiên, đây là một tính năng không phổ biến khi nói đến việc tạo hình ảnh, và ChatGPT sẽ thừa nhận những hạn chế của nó trong khía cạnh này:

ChatGPT 4o đã đưa ra một ước đoán tốt về việc hình ảnh hóa một sản phẩm đồng hồ mới, dựa trên dòng sản phẩm chung và các mô tả mà nó đã giải thích; nhưng nó không thể ‘hấp thụ’ và tích hợp hình ảnh mới vào một quá trình tạo sinh dựa trên DALL-E.

ChatGPT 4o đã đưa ra một ước đoán tốt về việc hình ảnh hóa một sản phẩm đồng hồ mới, dựa trên dòng sản phẩm chung và các mô tả mà nó đã giải thích; nhưng nó không thể ‘hấp thụ’ và tích hợp hình ảnh mới vào một quá trình tạo sinh dựa trên DALL-E.

Việc kết hợp dữ liệu được truy xuất từ bên ngoài vào một hình ảnh được tạo sinh là một thách thức vì hình ảnh đến phải được chia nhỏ thành các token và bản nhúng, sau đó được ánh xạ đến kiến thức về miền đã được đào tạo gần nhất của mô hình.

Mặc dù quá trình này hoạt động hiệu quả cho các công cụ hậu đào tạo như ControlNet, nhưng những thao tác này vẫn còn hạn chế về mặt bề mặt, về cơ bản là đưa hình ảnh được truy xuất qua một đường ống kết xuất, nhưng không tích hợp sâu nó vào đại diện nội bộ của mô hình.

Kết quả là mô hình thiếu khả năng tạo ra các quan điểm mới theo cách mà các hệ thống kết xuất thần kinh như NeRF có thể, những hệ thống này xây dựng các cảnh với sự hiểu biết không gian và cấu trúc thực sự.

Đ逕辑 trưởng thành

Một hạn chế tương tự áp dụng cho các truy vấn dựa trên RAG trong các Mô hình Ngôn ngữ Lớn (LLM), như Perplexity. Khi một mô hình như vậy xử lý dữ liệu được truy xuất từ bên ngoài, nó hoạt động nhiều như một người trưởng thành dựa trên kiến thức suốt đời để suy ra xác suất về một chủ đề.

Tuy nhiên, giống như một người không thể tích hợp thông tin mới vào khuôn khổ nhận thức đã định hình thế giới quan cơ bản của họ – khi những thành kiến và quan niệm của họ vẫn đang hình thành – một LLM không thể hợp nhất triệt để kiến thức mới vào cấu trúc đã được đào tạo trước của nó.

Thay vào đó, nó chỉ có thể ‘tác động’ hoặc đặt dữ liệu mới lên kiến thức nội bộ đã được nội hóa của nó, sử dụng các nguyên tắc đã học để phân tích và suy đoán chứ không phải tổng hợp ở mức cơ bản.

Sự thiếu tương đương giữa đặt cạnh nhaunội hóa tạo sinh này có khả năng sẽ rõ ràng hơn trong một hình ảnh được tạo sinh so với tạo sinh dựa trên ngôn ngữ: các kết nối mạng sâu hơn và sự sáng tạo tăng lên của ‘tạo sinh bản địa’ (thay vì dựa trên RAG) đã được thiết lập trong các nghiên cứu khác nhau.

Rủi ro ẩn của Tạo hình ảnh có khả năng RAG

Ngay cả khi việc tích hợp mượt mà hình ảnh internet vào hình ảnh được tổng hợp mới theo cách RAG là khả thi về mặt kỹ thuật, các hạn chế liên quan đến an toàn sẽ đưa ra một thách thức bổ sung.

Nhiều tập dữ liệu được sử dụng để đào tạo các mô hình tạo sinh đã được biên soạn để giảm thiểu sự hiện diện của nội dung rõ ràng, phân biệt chủng tộc hoặc bạo lực, trong số các loại nội dung nhạy cảm khác. Tuy nhiên, quá trình này không hoàn hảo và các liên kết dư còn tồn tại. Để giảm thiểu điều này, các hệ thống như DALL·E và Adobe Firefly dựa vào các cơ chế lọc thứ cấp sàng lọc cả lời nhắc nhập và đầu ra được tạo sinh cho nội dung bị cấm.

Do đó, một bộ lọc NSFW đơn giản – chủ yếu chặn nội dung rõ ràng – sẽ không đủ để đánh giá tính chấp nhận của dữ liệu RAG dựa trên truy xuất. Nội dung như vậy vẫn có thể gây khó chịu hoặc có hại theo những cách nằm ngoài các tham số điều tiết được định nghĩa trước của mô hình, có khả năng giới thiệu vật liệu mà AI thiếu nhận thức ngữ cảnh để đánh giá đúng.

RAG cho Tạo hình ảnh

Mặc dù những thách thức và khía cạnh chính trị phức tạp, một số dự án đã xuất hiện nhằm sử dụng các phương pháp RAG để kết hợp dữ liệu mới vào các tạo sinh trực quan.

ReDi

Dự án Retrieval-based Diffusion (ReDi) năm 2023 là một khuôn khổ học không cần đào tạo giúp tăng tốc độ suy luận của mô hình khuếch tán bằng cách truy xuất đường dẫn tương tự từ một cơ sở kiến thức đã được tính trước.

Các giá trị từ một tập dữ liệu có thể được ‘mượn’ cho một tạo sinh mới trong ReDi. Nguồn: https://arxiv.org/pdf/2302.02285

Các giá trị từ một tập dữ liệu có thể được ‘mượn’ cho một tạo sinh mới trong ReDi. Nguồn: https://arxiv.org/pdf/2302.02285

Trong bối cảnh của các mô hình khuếch tán, một đường dẫn là con đường bước từng bước mà mô hình thực hiện để tạo ra một hình ảnh từ tiếng ồn thuần túy. Thông thường, quá trình này diễn ra逐渐 qua nhiều bước, với mỗi bước tinh chỉnh hình ảnh một chút.

ReDi tăng tốc quá trình này bằng cách bỏ qua một số bước đó. Thay vì tính toán từng bước một, nó truy xuất một đường dẫn trong quá khứ tương tự từ cơ sở dữ liệu và nhảy đến một điểm sau trong quá trình. Điều này giảm số lượng tính toán cần thiết, làm cho tạo sinh hình ảnh dựa trên khuếch tán nhanh hơn nhiều, đồng thời vẫn giữ chất lượng cao.

ReDi không sửa đổi trọng số của mô hình khuếch tán, mà thay vào đó sử dụng cơ sở kiến thức để bỏ qua các bước trung gian, do đó giảm số lượng ước tính hàm cần thiết cho việc lấy mẫu.

Tất nhiên, điều này không giống như kết hợp cụ thể hình ảnh vào một yêu cầu tạo sinh theo cách RAG; nhưng nó liên quan đến các loại tạo sinh tương tự.

Được phát hành vào năm 2022, năm mà các mô hình khuếch tán tiềm ẩn chiếm được trí tưởng tượng của công chúng, ReDi dường như là một trong những cách tiếp cận khuếch tán đầu tiên dựa trên phương pháp RAG.

Mặc dù nó nên được đề cập rằng vào năm 2021, Nghiên cứu Facebook đã phát hành Instance-Conditioned GAN, nhằm điều kiện GAN hình ảnh trên các đầu vào hình ảnh mới, loại đường chiếu này vào không gian tiềm ẩn là cực kỳ phổ biến trong tài liệu, cả cho GAN và mô hình khuếch tán; thách thức là làm cho quá trình này không cần đào tạo và hoạt động trong thời gian thực, như các phương pháp RAG tập trung vào LLM.

RDM

Một nỗ lực đầu tiên khác trong tạo hình ảnh tăng cường RAG là Retrieval-Augmented Diffusion Models (RDM), giới thiệu một cách tiếp cận bán tham số cho tổng hợp hình ảnh tạo sinh. Trong khi các mô hình khuếch tán truyền thống lưu trữ tất cả kiến thức thị giác đã học trong các tham số mạng nơ-ron, RDM dựa vào một cơ sở dữ liệu hình ảnh bên ngoài:

Các láng giềng gần nhất được truy xuất trong một truy vấn giả trong RDM*.

Các láng giềng gần nhất được truy xuất trong một truy vấn giả trong RDM*.

Trong quá trình đào tạo, mô hình truy xuất láng giềng gần nhất (hình ảnh tương tự về mặt trực quan hoặc ngữ nghĩa) từ cơ sở dữ liệu bên ngoài, để hướng dẫn quá trình tạo sinh. Điều này cho phép mô hình điều kiện đầu ra của nó trên các thể hiện trực quan trong thế giới thực.

Quá trình truy xuất được cung cấp bởi CLIP bản nhúng, được thiết kế để buộc các hình ảnh được truy xuất phải chia sẻ những điểm tương đồng có ý nghĩa với truy vấn, và cũng để cung cấp thông tin mới để cải thiện tạo sinh.

Cách tiếp cận RDM hỗ trợ sửa đổi hậu kỳ: các nhà nghiên cứu có thể thay thế cơ sở dữ liệu tại thời điểm suy luận, cho phép thích nghi không có dấu vết với các phong cách, miền hoặc thậm chí các nhiệm vụ hoàn toàn khác như tạo sinh có điều kiện theo lớp hoặc tổng hợp.

Ở các hàng dưới, chúng ta thấy các láng giềng gần nhất được kéo vào quá trình khuếch tán trong RDM*.

Ở các hàng dưới, chúng ta thấy các láng giềng gần nhất được kéo vào quá trình khuếch tán trong RDM*.

Một lợi thế chính của RDM là khả năng cải thiện tạo hình ảnh mà không cần đào tạo lại mô hình. Bằng cách thay đổi cơ sở dữ liệu truy xuất, mô hình có thể tổng quát hóa sang các khái niệm mới mà nó chưa từng được đào tạo rõ ràng. Điều này đặc biệt hữu ích cho các ứng dụng mà chuyển đổi miền xảy ra, chẳng hạn như tạo ra hình ảnh y tế dựa trên các tập dữ liệu đang phát triển, hoặc thích nghi các mô hình văn bản-sang-hình ảnh cho các ứng dụng sáng tạo.

Tuy nhiên, các phương pháp dựa trên truy xuất như vậy phụ thuộc vào chất lượng và tính liên quan của cơ sở dữ liệu bên ngoài, điều này làm cho việc chăm sóc dữ liệu trở thành một yếu tố quan trọng trong việc đạt được tạo sinh chất lượng cao; và cách tiếp cận này vẫn còn xa so với một tương đương tạo sinh hình ảnh của loại RAG dựa trên tương tác điển hình trong LLM thương mại.

ReMoDiffuse

ReMoDiffuse là một mô hình khuếch tán chuyển động tăng cường truy xuất được thiết kế cho tạo sinh chuyển động con người 3D. Không giống như các mô hình tạo sinh chuyển động truyền thống chỉ dựa vào các biểu diễn đã học, ReMoDiffuse truy xuất các mẫu chuyển động liên quan từ một tập dữ liệu chuyển động lớn và tích hợp chúng vào quá trình làm sạch tiếng ồn, trong một lược đồ tương tự như RDM (xem trên).

So sánh ReMoDiffuse tăng cường RAG (phải nhất) với các phương pháp trước đó. Nguồn: https://arxiv.org/pdf/2304.01116

So sánh ReMoDiffuse tăng cường RAG (phải nhất) với các phương pháp trước đó. Nguồn: https://arxiv.org/pdf/2304.01116

Điều này cho phép mô hình tạo ra các chuỗi chuyển động được thiết kế để trở nên tự nhiên và đa dạng hơn, cũng như trung thành về mặt ngữ nghĩa với các lời nhắc văn bản của người dùng.

ReMoDiffuse sử dụng một cơ chế truy xuất lai ghép sáng tạo, chọn các chuỗi chuyển động dựa trên cả sự tương đồng về ngữ nghĩa và động học, với ý định đảm bảo rằng các chuyển động được truy xuất không chỉ có liên quan về chủ đề mà còn có khả năng vật lý khi tích hợp vào tạo sinh mới.

Mô hình sau đó tinh chỉnh các mẫu được truy xuất này bằng cách sử dụng Transformer điều chế ngữ nghĩa, chọn lọc kiến thức từ các chuyển động được truy xuất trong khi duy trì các đặc điểm đặc trưng của chuỗi tạo sinh:

Lược đồ đường ống của ReMoDiffuse.

Lược đồ đường ống của ReMoDiffuse.

Kỹ thuật Hỗn hợp điều kiện của dự án tăng cường khả năng tổng quát hóa của mô hình trên các lời nhắc và điều kiện truy xuất khác nhau, cân bằng mẫu chuyển động được truy xuất với lời nhắc văn bản trong quá trình tạo sinh và điều chỉnh trọng số mà mỗi nguồn nhận được tại mỗi bước.

Điều này có thể giúp ngăn chặn đầu ra không thực tế hoặc lặp lại, ngay cả đối với các lời nhắc hiếm. Nó cũng giải quyết vấn đề nhạy cảm với quy mô thường phát sinh trong các kỹ thuật hướng dẫn phân loại miễn phí thường được sử dụng trong các mô hình khuếch tán.

RA-CM3

Năm 2023, bài báo Retrieval-Augmented Multimodal Language Modeling (RA-CM3) của Stanford cho phép hệ thống truy cập thông tin thế giới thực tại thời điểm suy luận:

Mô hình Retrieval-Augmented Multimodal Language Modeling (RA-CM3) của Stanford sử dụng hình ảnh được truy xuất từ internet để tăng cường quá trình tạo sinh, nhưng vẫn là một nguyên mẫu không có quyền truy cập công khai. Nguồn: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

Mô hình Retrieval-Augmented Multimodal Language Modeling (RA-CM3) của Stanford sử dụng hình ảnh được truy xuất từ internet để tăng cường quá trình tạo sinh, nhưng vẫn là một nguyên mẫu không có quyền truy cập công khai. Nguồn: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

RA-CM3 tích hợp văn bản và hình ảnh được truy xuất vào đường ống tạo sinh, tăng cường cả tổng hợp hình ảnh từ văn bản và văn bản từ hình ảnh. Sử dụng CLIP cho việc truy xuất và Transformer làm trình tạo, mô hình tham khảo các tài liệu đa phương tiện liên quan trước khi tạo ra đầu ra.

Các điểm chuẩn trên MS-COCO cho thấy sự cải thiện đáng kể so với DALL-E và các hệ thống tương tự, đạt được giảm 12 điểm Fréchet Inception Distance (FID), với chi phí tính toán thấp hơn nhiều.

Tuy nhiên, giống như các phương pháp tăng cường truy xuất khác, RA-CM3 không internalize triệt để kiến thức được truy xuất của nó. Thay vào đó, nó chồng lên kiến thức mới đối với mạng đã được đào tạo trước của nó, giống như một LLM tăng cường phản hồi với kết quả tìm kiếm. Mặc dù phương pháp này có thể cải thiện độ chính xác về mặt事 thực, nhưng nó không thay thế nhu cầu cập nhật đào tạo trong các lĩnh vực mà tổng hợp sâu là cần thiết.

Hơn nữa, một triển khai thực tế của hệ thống này dường như không được phát hành, ngay cả trên một nền tảng dựa trên API.

RealRAG

Một phát hành mới từ Trung Quốc, và cũng là lý do cho việc xem xét các hệ thống tạo hình ảnh tăng cường RAG, được gọi là Tạo hình ảnh Thực tế tăng cường Retrieval (RealRAG).

Hình ảnh bên ngoài được kéo vào RealRAG (giữa dưới). Nguồn: https://arxiv.o7rg/pdf/2502.00848

Hình ảnh bên ngoài được kéo vào RealRAG (giữa dưới). Nguồn: https://arxiv.o7rg/pdf/2502.00848

RealRAG truy xuất hình ảnh thực của các đối tượng liên quan từ một cơ sở dữ liệu được biên soạn từ các tập dữ liệu công khai như ImageNet, Stanford Cars, Stanford DogsOxford Flowers. Sau đó, nó tích hợp các hình ảnh được truy xuất vào quá trình tạo sinh, giải quyết các khoảng trống kiến thức trong mô hình.

Một thành phần chính của RealRAG là học tương phản tự phản chiếu, đào tạo một mô hình truy xuất để tìm hình ảnh tham chiếu thông tin, thay vì chỉ chọn giống về mặt trực quan.

Các tác giả tuyên bố:

‘Điểm sáng kiến chính của chúng tôi là đào tạo một mô hình truy xuất mà truy xuất hình ảnh nằm ngoài không gian tạo sinh của trình tạo, nhưng lại gần với biểu diễn của lời nhắc văn bản.

‘Để làm điều này, chúng tôi đầu tiên tạo hình ảnh từ các lời nhắc văn bản đã cho và sau đó sử dụng hình ảnh được tạo để truy xuất các hình ảnh liên quan nhất trong cơ sở dữ liệu dựa trên đối tượng thực. Những hình ảnh liên quan nhất này được sử dụng làm tiêu cực phản chiếu.’

Cách tiếp cận này đảm bảo rằng các hình ảnh được truy xuất đóng góp kiến thức bị thiếu vào quá trình tạo sinh, thay vì củng cố các thành kiến hiện có trong mô hình.

Trái nhất, hình ảnh tham chiếu được truy xuất; trung tâm, không có RAG; phải nhất, với việc sử dụng hình ảnh được truy xuất.

Trái nhất, hình ảnh tham chiếu được truy xuất; trung tâm, không có RAG; phải nhất, với việc sử dụng hình ảnh được truy xuất.

Tuy nhiên, sự phụ thuộc vào chất lượng truy xuất và phạm vi cơ sở dữ liệu có nghĩa là hiệu quả của nó có thể thay đổi tùy thuộc vào sự sẵn có của các hình ảnh tham chiếu chất lượng cao. Nếu một hình ảnh liên quan không tồn tại trong tập dữ liệu, mô hình có thể vẫn gặp khó khăn với các khái niệm không quen thuộc.

RealRAG là một kiến trúc mô-đun, cung cấp khả năng tương thích với nhiều kiến trúc tạo sinh khác nhau, bao gồm mô hình dựa trên U-Net, DiT và tự hồi quy.

Nói chung, việc truy xuất và xử lý hình ảnh bên ngoài thêm gánh nặng tính toán, và hiệu suất của hệ thống phụ thuộc vào cách cơ chế truy xuất tổng quát hóa trên các nhiệm vụ và tập dữ liệu khác nhau.

Kết luận

Đây là một cái nhìn tổng quan về các hệ thống tạo sinh đa phương tiện có khả năng truy xuất hình ảnh. Một số hệ thống thuộc loại này sử dụng truy xuất chỉ để cải thiện hiểu biết về thị giác hoặc chăm sóc dữ liệu, trong số các động cơ đa dạng khác, thay vì nhằm tạo ra hình ảnh. Một ví dụ là Internet Explorer.

Nhiều dự án RAG tích hợp khác trong tài liệu vẫn chưa được phát hành. Các nguyên mẫu, với chỉ nghiên cứu được xuất bản, bao gồm Re-Imagen, có thể chỉ truy cập hình ảnh từ một cơ sở dữ liệu tùy chỉnh cục bộ.

Ngoài ra, vào tháng 11 năm 2024, Baidu đã công bố Tạo hình ảnh tăng cường Retrieval (iRAG), một nền tảng mới sử dụng hình ảnh được truy xuất ‘từ một cơ sở dữ liệu’. Mặc dù iRAG được báo cáo là có sẵn trên nền tảng Ernie, nhưng dường như không có thêm thông tin về quá trình truy xuất này, dường như dựa vào một cơ sở dữ liệu cục bộ (tức là cục bộ cho dịch vụ và không trực tiếp truy cập được bởi người dùng).

Hơn nữa, bài báo năm 2024 Tổng hợp và Truy xuất Hình ảnh Văn bản cung cấp một phương pháp RAG khác để sử dụng hình ảnh bên ngoài để tăng cường kết quả tại thời điểm tạo sinh – một lần nữa, từ một cơ sở dữ liệu cục bộ chứ không phải từ nguồn internet ad hoc.

Sự phấn khích xung quanh việc tăng cường RAG trong tạo hình ảnh có khả năng tập trung vào các hệ thống có thể kết hợp hình ảnh từ internet hoặc tải lên bởi người dùng trực tiếp vào quá trình tạo sinh và cho phép người dùng tham gia vào việc lựa chọn hoặc nguồn của hình ảnh.

Tuy nhiên, đây là một thách thức đáng kể vì ít nhất hai lý do; trước hết, vì hiệu quả của các hệ thống như vậy thường phụ thuộc vào các mối quan hệ sâu sắc được hình thành trong quá trình đào tạo tốn nhiều tài nguyên; và thứ hai, vì lo ngại về an toàn, pháp lý và hạn chế bản quyền, như đã lưu ý trước đó, làm cho tính năng này không thể có cho một dịch vụ web dựa trên API và triển khai thương mại nói chung.

 

* Nguồn: https://proceedings.neurips.cc/paper_files/paper/2022/file/62868cc2fc1eb5cdf321d05b4b88510c-Paper-Conference.pdf

Được xuất bản lần đầu vào Thứ Ba, ngày 4 tháng 2 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]