Kết nối với chúng tôi

Tương lai của thế hệ hình ảnh tăng cường RAG

Góc của Anderson

Tương lai của thế hệ hình ảnh tăng cường RAG

mm
ChatGPT-4o: 'Nhiều thập kỷ trước, ảnh là một quá trình quang hóa, và thông thường các bản in ảnh được thực hiện trong phòng tối, với các bản in ướt được treo trên một sợi dây như quần áo. Hãy cho tôi xem môi trường đó, với 10 bức ảnh đang phơi trên một sợi dây trong phòng tối, và một nhà khoa học mặc áo khoác trắng đang lấy một bức ảnh ra khỏi dây. Tiêu điểm Bokeh, 1792x1024'

Các mô hình khuếch tán tạo sinh như Stable Diffusion, Flux và các mô hình video như Hunyuan dựa vào kiến ​​thức thu được trong một phiên đào tạo chuyên sâu về tài nguyên duy nhất bằng cách sử dụng một tập dữ liệu cố định. Bất kỳ khái niệm nào được giới thiệu sau khóa đào tạo này – được gọi là cắt kiến ​​thức – không có trong mô hình trừ khi được bổ sung thông qua tinh chỉnh hoặc các kỹ thuật thích ứng bên ngoài như Thích ứng hạng thấp (LoRA).

Do đó, sẽ lý tưởng nếu một hệ thống tạo ra hình ảnh hoặc video có thể tiếp cận các nguồn trực tuyến và đưa chúng vào quá trình tạo ra khi cần thiết. Theo cách này, ví dụ, một mô hình khuếch tán không biết gì về bản phát hành mới nhất của Apple hoặc Tesla vẫn có thể tạo ra hình ảnh chứa các sản phẩm mới này.

Về các mô hình ngôn ngữ, hầu hết chúng ta đều quen thuộc với các hệ thống như Perplexity, Notebook LM và ChatGPT-4o, có thể kết hợp thông tin bên ngoài mới lạ trong Truy xuất thế hệ tăng cường Mô hình (RAG).

Các quy trình RAG làm cho phản hồi của ChatGPT 4o có liên quan hơn. Nguồn: https://chatgpt.com/

Quy trình RAG giúp phản hồi của ChatGPT 4o trở nên phù hợp hơn. Nguồn: https://chatgpt.com/

Tuy nhiên, đây là một tiện ích không phổ biến khi nói đến việc tạo hình ảnh và ChatGPT sẽ thừa nhận những hạn chế của riêng mình về mặt này:

ChatGPT 4o đã đưa ra dự đoán khá chính xác về hình ảnh trực quan của một mẫu đồng hồ mới ra mắt, dựa trên dòng chung và các mô tả mà nó đã diễn giải; nhưng nó không thể 'hấp thụ' và tích hợp hình ảnh mới vào thế hệ dựa trên DALL-E.

ChatGPT 4o đã đưa ra dự đoán khá chính xác về hình ảnh trực quan của một mẫu đồng hồ mới ra mắt, dựa trên dòng chung và các mô tả mà nó đã diễn giải; nhưng nó không thể 'hấp thụ' và tích hợp hình ảnh mới vào thế hệ dựa trên DALL-E.

Việc kết hợp dữ liệu thu thập bên ngoài vào hình ảnh được tạo ra là một thách thức vì hình ảnh đầu vào trước tiên phải được chia thành các mã thông báo và nhúng, sau đó được ánh xạ tới kiến ​​thức miền được đào tạo gần nhất của mô hình về chủ đề này.

Trong khi quá trình này hoạt động hiệu quả đối với các công cụ sau đào tạo như Kiểm soátNet, những thao tác như vậy phần lớn vẫn mang tính hời hợt, về cơ bản là đưa hình ảnh thu được qua một đường ống kết xuất, nhưng không tích hợp sâu vào biểu diễn bên trong của mô hình.

Kết quả là, mô hình thiếu khả năng tạo ra các góc nhìn mới lạ theo cách mà các hệ thống kết xuất thần kinh như NeRF có thể xây dựng các cảnh với sự hiểu biết thực sự về không gian và cấu trúc.

Logic trưởng thành

Một hạn chế tương tự áp dụng cho các truy vấn dựa trên RAG trong Mô hình ngôn ngữ lớn (LLM), chẳng hạn như Perplexity. Khi một mô hình loại này xử lý dữ liệu được truy xuất bên ngoài, nó hoạt động giống như một người lớn dựa vào kiến ​​thức cả đời để suy ra xác suất về một chủ đề.

Tuy nhiên, giống như một người không thể tích hợp thông tin mới một cách hồi tố vào khuôn khổ nhận thức đã hình thành nên thế giới quan cơ bản của họ - khi thành kiến ​​và quan niệm trước đây của họ vẫn đang hình thành - LLM không thể kết hợp liền mạch kiến ​​thức mới vào cấu trúc đã được đào tạo trước của mình.

Thay vào đó, nó chỉ có thể 'tác động' hoặc đối chiếu dữ liệu mới với kiến ​​thức nội tại hiện có của nó, sử dụng các nguyên tắc đã học để phân tích và suy đoán thay vì tổng hợp ở cấp độ cơ bản.

Sự thiếu hụt này trong sự tương đương giữa xếp cạnh nhaunội bộ hóa thế hệ có khả năng rõ ràng hơn trong một hình ảnh được tạo ra hơn là trong một thế hệ dựa trên ngôn ngữ: các kết nối mạng sâu hơn và sự sáng tạo gia tăng của thế hệ 'bản địa' (thay vì dựa trên RAG) đã được thiết lập trong nhiều nghiên cứu.

Rủi ro tiềm ẩn của việc tạo hình ảnh có khả năng RAG

Ngay cả khi khả thi về mặt kỹ thuật để tích hợp liền mạch các hình ảnh thu thập được từ internet vào các hình ảnh mới tổng hợp theo cách giống RAG, thì những hạn chế liên quan đến an toàn vẫn sẽ là một thách thức bổ sung.

Nhiều tập dữ liệu được sử dụng để đào tạo các mô hình tạo ra đã được quản lý để giảm thiểu sự hiện diện của nội dung rõ ràng, phân biệt chủng tộc hoặc bạo lực, trong số các danh mục nhạy cảm khác. Tuy nhiên, quy trình này không hoàn hảo và các liên kết còn sót lại có thể vẫn tồn tại. Để giảm thiểu điều này, các hệ thống như DALL·E và Adobe Firefly dựa vào các cơ chế lọc thứ cấp sàng lọc cả lời nhắc nhập và đầu ra được tạo ra để tìm nội dung bị cấm.

Do đó, một bộ lọc NSFW đơn giản – chủ yếu chặn nội dung quá rõ ràng – sẽ không đủ để đánh giá tính chấp nhận được của dữ liệu dựa trên RAG đã truy xuất. Nội dung như vậy vẫn có thể gây khó chịu hoặc có hại theo những cách nằm ngoài các tham số kiểm duyệt được xác định trước của mô hình, có khả năng đưa vào tài liệu mà AI không có nhận thức theo ngữ cảnh để đánh giá đúng.

Phát hiện ra một lỗ hổng gần đây trong DeepSeek do ĐCSTQ sản xuất, được thiết kế để ngăn chặn các cuộc thảo luận về nội dung chính trị bị cấm, đã nêu bật cách các đường dẫn đầu vào thay thế có thể được khai thác để vượt qua các biện pháp bảo vệ đạo đức của mô hình; có thể nói, điều này cũng áp dụng cho dữ liệu mới tùy ý được lấy từ internet, khi dữ liệu đó có ý định được đưa vào thế hệ hình ảnh mới.

RAG để tạo hình ảnh

Bất chấp những thách thức và khía cạnh chính trị gai góc này, một số dự án đã xuất hiện nhằm sử dụng các phương pháp dựa trên RAG để kết hợp dữ liệu mới vào các thế hệ hình ảnh.

ReDi

Các 2023 Sự khuếch tán dựa trên truy xuất Dự án (ReDi) là một khuôn khổ không cần học tập giúp tăng tốc suy luận mô hình khuếch tán bằng cách truy xuất các dữ liệu tương tự quỹ đạo từ cơ sở kiến ​​thức được tính toán trước.

Các giá trị từ một tập dữ liệu có thể được 'mượn' để tạo ra một thế hệ mới trong ReDi. Nguồn: https://arxiv.org/pdf/2302.02285

Các giá trị từ một tập dữ liệu có thể được 'mượn' để tạo ra thế hệ mới trong ReDi. Nguồn: https://arxiv.org/pdf/2302.02285

Trong bối cảnh của các mô hình khuếch tán, một quỹ đạo là con đường từng bước mà mô hình thực hiện để tạo ra một hình ảnh từ tiếng ồn thuần túy. Thông thường, quá trình này diễn ra dần dần qua nhiều bước, với mỗi bước sẽ tinh chỉnh hình ảnh thêm một chút.

ReDi tăng tốc quá trình này bằng cách bỏ qua một loạt các bước đó. Thay vì tính toán từng bước, nó sẽ lấy một quỹ đạo quá khứ tương tự từ cơ sở dữ liệu và nhảy đến một điểm sau trong quá trình. Điều này làm giảm số lượng phép tính cần thiết, giúp tạo ảnh dựa trên khuếch tán nhanh hơn nhiều, trong khi vẫn giữ được chất lượng cao.

ReDi không sửa đổi mô hình khuếch tán trọng lượngmà thay vào đó sử dụng cơ sở kiến ​​thức để bỏ qua các bước trung gian, do đó giảm số lượng ước tính hàm cần thiết cho việc lấy mẫu.

Tất nhiên, điều này không giống như việc tùy ý kết hợp các hình ảnh cụ thể vào yêu cầu tạo thế hệ; nhưng nó liên quan đến các loại thế hệ tương tự.

Được phát hành vào năm 2022, năm mà các mô hình khuếch tán tiềm ẩn bị bắt Theo trí tưởng tượng của công chúng, ReDi dường như là một trong những phương pháp tiếp cận dựa trên sự khuếch tán sớm nhất dựa trên phương pháp RAG.

Mặc dù cần phải đề cập rằng vào năm 2021, Facebook Research đã phát hành GAN có điều kiện theo trường hợp, mà tìm cách để điều kiện Gan hình ảnh trên các đầu vào hình ảnh mới lạ, loại này chiếu vào không gian tiềm ẩn là phương pháp cực kỳ phổ biến trong tài liệu, đối với cả GAN và mô hình khuếch tán; thách thức là làm sao để quá trình này không cần đào tạo và có thể hoạt động theo thời gian thực, giống như các phương pháp RAG tập trung vào LLM.

RDM

Một bước đột phá sớm khác vào thế hệ hình ảnh tăng cường RAG là Mô hình khuếch tán tăng cường thu hồi (RDM), giới thiệu một bántham số phương pháp tiếp cận tổng hợp hình ảnh tạo sinh. Trong khi các mô hình khuếch tán truyền thống lưu trữ tất cả kiến ​​thức hình ảnh đã học trong các tham số mạng nơ-ron của chúng, RDM dựa vào cơ sở dữ liệu hình ảnh bên ngoài:

Lấy các hàng xóm gần nhất trong truy vấn giả minh họa trong RDM*.

Lấy các hàng xóm gần nhất trong truy vấn giả minh họa trong RDM*.

Trong quá trình đào tạo, mô hình thu thập hàng xóm gần nhất (hình ảnh tương tự về mặt trực quan hoặc ngữ nghĩa) từ cơ sở dữ liệu bên ngoài, để hướng dẫn quá trình tạo. Điều này cho phép mô hình điều kiện hóa đầu ra của nó trên các trường hợp trực quan trong thế giới thực.

Quá trình truy xuất được hỗ trợ bởi CLIP nhúng, được thiết kế để buộc các hình ảnh được lấy ra phải có những điểm tương đồng có ý nghĩa với truy vấn và cũng cung cấp thông tin mới để cải thiện việc tạo ra.

Điều này làm giảm sự phụ thuộc vào các tham số, tạo điều kiện cho các mô hình nhỏ hơn đạt được kết quả cạnh tranh mà không cần bộ dữ liệu đào tạo mở rộng.

Phương pháp tiếp cận RDM hỗ trợ hậu hoc sửa đổi: các nhà nghiên cứu có thể hoán đổi cơ sở dữ liệu tại thời điểm suy luận, cho phép thích ứng ngay với các phong cách, miền mới hoặc thậm chí các nhiệm vụ hoàn toàn khác như cách điệu hoặc tổng hợp có điều kiện theo lớp.

Ở các hàng bên dưới, chúng ta thấy những người hàng xóm gần nhất được đưa vào quá trình khuếch tán trong RDM*.

Ở các hàng bên dưới, chúng ta thấy những người hàng xóm gần nhất được đưa vào quá trình khuếch tán trong RDM*.

Một lợi thế chính của RDM là khả năng cải thiện việc tạo hình ảnh mà không cần đào tạo lại mô hình. Chỉ cần thay đổi cơ sở dữ liệu truy xuất, mô hình có thể khái quát hóa thành các khái niệm mới mà nó chưa từng được đào tạo rõ ràng. Điều này đặc biệt hữu ích cho các ứng dụng mà chuyển miền xảy ra, chẳng hạn như tạo hình ảnh y tế dựa trên các tập dữ liệu đang phát triển hoặc điều chỉnh mô hình văn bản thành hình ảnh cho các ứng dụng sáng tạo.

Về mặt tiêu cực, các phương pháp dựa trên truy xuất như thế này phụ thuộc vào chất lượng và tính liên quan của cơ sở dữ liệu bên ngoài, khiến việc quản lý dữ liệu trở thành một yếu tố quan trọng để đạt được các thế hệ chất lượng cao; và cách tiếp cận này vẫn còn lâu mới đạt đến mức tổng hợp hình ảnh tương đương với loại tương tác dựa trên RAG thường thấy trong các LLM thương mại.

ReMoDiffuse

ReMoDiffuse là một mô hình khuếch tán chuyển động được tăng cường truy xuất được thiết kế để tạo chuyển động 3D của con người. Không giống như mô hình tạo chuyển động truyền thống chỉ dựa hoàn toàn vào các biểu diễn đã học, ReMoDiffuse sẽ lấy các mẫu chuyển động có liên quan từ một tập dữ liệu chuyển động lớn và tích hợp chúng vào quy trình khử nhiễu, trong một lược đồ tương tự như RDM (xem ở trên).

So sánh ReMoDiffuse được tăng cường RAG (ngoài cùng bên phải) với các phương pháp trước đây. Nguồn: https://arxiv.org/pdf/2304.01116

So sánh phương pháp ReMoDiffuse tăng cường RAG (ngoài cùng bên phải) với các phương pháp trước đây. Nguồn: https://arxiv.org/pdf/2304.01116

Điều này cho phép mô hình tạo ra các chuỗi chuyển động được thiết kế tự nhiên và đa dạng hơn, cũng như trung thành về mặt ngữ nghĩa với lời nhắc văn bản của người dùng.

ReMoDiffuse sử dụng một sáng tạo cơ chế truy xuất lai, lựa chọn các chuỗi chuyển động dựa trên cả điểm tương đồng về mặt ngữ nghĩa và động học, với mục đích đảm bảo rằng các chuyển động thu được không chỉ có liên quan về mặt chủ đề mà còn hợp lý về mặt vật lý khi được tích hợp vào thế hệ mới.

Sau đó, mô hình sẽ tinh chỉnh các mẫu đã thu thập được bằng cách sử dụng Biến đổi ngữ nghĩa-điều chế, trong đó kết hợp có chọn lọc kiến ​​thức từ các chuyển động được thu thập trong khi vẫn duy trì các phẩm chất đặc trưng của chuỗi được tạo ra:

Sơ đồ cho đường ống của ReMoDiffuse.

Sơ đồ cho đường ống của ReMoDiffuse.

Các dự án Điều kiện hỗn hợp Kỹ thuật này tăng cường khả năng khái quát hóa của mô hình trên nhiều lời nhắc và điều kiện truy xuất khác nhau, cân bằng các mẫu chuyển động được truy xuất với lời nhắc văn bản trong quá trình tạo và điều chỉnh mức độ quan trọng của từng nguồn tại mỗi bước.

Điều này có thể giúp ngăn ngừa các đầu ra không thực tế hoặc lặp lại, ngay cả đối với các lời nhắc hiếm hoi. Nó cũng giải quyết vấn đề độ nhạy thang đo thường nảy sinh trong hướng dẫn không cần phân loại các kỹ thuật thường được sử dụng trong các mô hình khuếch tán.

RA-CM3

Stanford năm 2023 Paper Mô hình ngôn ngữ đa phương thức tăng cường truy xuất (RA-CM3) cho phép hệ thống truy cập thông tin thực tế tại thời điểm suy luận:

Mô hình ngôn ngữ đa phương thức tăng cường truy xuất (RA-CM3) của Stanford sử dụng hình ảnh thu thập được từ internet để tăng cường quá trình tạo, nhưng vẫn là nguyên mẫu không được công khai. Nguồn: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

Mô hình RA-CM3 (Retrieval-Augmented Multimodal Language Modeling) của Stanford sử dụng hình ảnh lấy từ internet để tăng cường quá trình tạo, nhưng vẫn là nguyên mẫu không được công khai. Nguồn: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

RA-CM3 tích hợp văn bản và hình ảnh đã truy xuất vào đường ống tạo, tăng cường cả tổng hợp văn bản thành hình ảnh và hình ảnh thành văn bản. Sử dụng CLIP để truy xuất và Transformer Với tư cách là trình tạo, mô hình tham chiếu đến các tài liệu đa phương thức có liên quan trước khi biên soạn đầu ra.

Điểm chuẩn trên MS-COCO cho thấy những cải tiến đáng kể so với DALL-E và các hệ thống tương tự, đạt 12 điểm Khoảng cách khởi động Fréchet (FID) giảm, với chi phí tính toán thấp hơn nhiều.

Tuy nhiên, giống như các phương pháp tiếp cận tăng cường truy xuất khác, RA-CM3 không nội bộ hóa kiến ​​thức đã truy xuất một cách liền mạch. Thay vào đó, nó chồng dữ liệu mới lên mạng được đào tạo trước của nó, giống như một LLM tăng cường phản hồi bằng kết quả tìm kiếm. Mặc dù phương pháp này có thể cải thiện độ chính xác thực tế, nhưng nó không thay thế nhu cầu cập nhật đào tạo trong các miền cần tổng hợp sâu.

Hơn nữa, việc triển khai thực tế của hệ thống này dường như vẫn chưa được thực hiện, ngay cả trên nền tảng dựa trên API.

RealRAG

A mới phát hành từ Trung Quốc, và là thứ đã thúc đẩy việc xem xét các hệ thống hình ảnh tạo ra được tăng cường RAG, được gọi là Retrieval-Tăng cường tạo hình ảnh thực tế (RealRAG).

Hình ảnh bên ngoài được vẽ vào RealRAG (phần giữa phía dưới). Nguồn: https://arxiv.o7rg/pdf/2502.00848

Hình ảnh bên ngoài được vẽ vào RealRAG (phía dưới ở giữa). Nguồn: https://arxiv.o7rg/pdf/2502.00848

RealRAG lấy hình ảnh thực tế của các đối tượng có liên quan từ cơ sở dữ liệu được tuyển chọn từ các tập dữ liệu có sẵn công khai như IMAGEnet, Xe hơi Stanford, Chó StanfordHoa Oxford. Sau đó, nó tích hợp các hình ảnh thu được vào quy trình tạo, giải quyết các khoảng trống kiến ​​thức trong mô hình.

Một thành phần quan trọng của RealRAG là học tập tương phản tự phản ánh, đào tạo mô hình truy xuất để tìm hình ảnh tham chiếu có thông tin, thay vì chỉ chọn tương tự về mặt hình ảnh những cái.

Các tác giả tuyên bố:

'Quan điểm chính của chúng tôi là đào tạo một trình thu thập dữ liệu có thể thu thập hình ảnh ngoài không gian tạo của trình tạo, nhưng vẫn gần với việc biểu diễn lời nhắc văn bản.

'Để đạt được mục đích này, trước tiên chúng tôi tạo hình ảnh từ các lời nhắc văn bản đã cho và sau đó sử dụng các hình ảnh được tạo ra như các truy vấn để lấy các hình ảnh có liên quan nhất trong cơ sở dữ liệu dựa trên đối tượng thực. Những hình ảnh có liên quan nhất này được sử dụng như các ảnh âm bản phản chiếu.'

Cách tiếp cận này đảm bảo rằng các hình ảnh được thu thập đóng góp kiến thức còn thiếu vào quá trình tạo ra, thay vì củng cố những thành kiến ​​hiện có trong mô hình.

Bên trái là hình ảnh tham chiếu đã lấy được; ở giữa là hình ảnh không có RAG; bên phải là hình ảnh đã lấy được.

Bên trái là hình ảnh tham chiếu đã lấy được; ở giữa là hình ảnh không có RAG; bên phải là hình ảnh đã lấy được.

Tuy nhiên, việc phụ thuộc vào chất lượng truy xuất và phạm vi cơ sở dữ liệu có nghĩa là hiệu quả của nó có thể thay đổi tùy thuộc vào tính khả dụng của các tài liệu tham khảo chất lượng cao. Nếu hình ảnh có liên quan không tồn tại trong tập dữ liệu, mô hình vẫn có thể gặp khó khăn với các khái niệm không quen thuộc.

RealRAG là một kiến ​​trúc có tính mô-đun cao, có khả năng tương thích với nhiều kiến ​​trúc tạo sinh khác, bao gồm các mô hình dựa trên U-Net, dựa trên DiT và mô hình hồi quy tự động.

Nhìn chung, việc truy xuất và xử lý hình ảnh bên ngoài làm tăng thêm chi phí tính toán và hiệu suất của hệ thống phụ thuộc vào mức độ hiệu quả của cơ chế truy xuất. khái quát hóa trên nhiều nhiệm vụ và tập dữ liệu khác nhau.

Kết luận

Đây là bản tổng quan đại diện chứ không phải là bản tổng quan đầy đủ về các hệ thống tạo đa phương thức truy xuất hình ảnh. Một số hệ thống thuộc loại này chỉ sử dụng truy xuất để cải thiện khả năng hiểu thị giác hoặc quản lý tập dữ liệu, trong số các động cơ đa dạng khác, thay vì tìm cách tạo hình ảnh. Một ví dụ là Internet Explorer.

Nhiều dự án tích hợp RAG khác trong tài liệu vẫn chưa được công bố. Các nguyên mẫu, chỉ có nghiên cứu được công bố, bao gồm Tái tạo hình ảnh, mặc dù có nguồn gốc từ Google nhưng chỉ có thể truy cập hình ảnh từ cơ sở dữ liệu tùy chỉnh cục bộ.

Ngoài ra, vào tháng 2024 năm XNUMX, Baidu công bố Truy xuất dựa trên hình ảnh-Tăng cường tạo ra (iRAG), một nền tảng mới sử dụng hình ảnh được lấy từ 'cơ sở dữ liệu'. Mặc dù iRAG được cho là có sẵn trên nền tảng Ernie, nhưng có vẻ như không có thêm thông tin chi tiết nào về quá trình lấy này, có vẻ như dựa vào địa phương cơ sở dữ liệu (tức là cục bộ đối với dịch vụ và người dùng không thể truy cập trực tiếp).

Hơn nữa, năm 2024 giấy Tạo và truy xuất văn bản thành hình ảnh thống nhất cung cấp một phương pháp dựa trên RAG khác để sử dụng hình ảnh bên ngoài để tăng cường kết quả tại thời điểm tạo – một lần nữa, từ cơ sở dữ liệu cục bộ thay vì từ đặc biệt nguồn internet.

Sự phấn khích xung quanh việc tăng cường dựa trên RAG trong việc tạo hình ảnh có thể tập trung vào các hệ thống có thể kết hợp hình ảnh lấy từ internet hoặc do người dùng tải lên trực tiếp vào quá trình tạo hình và cho phép người dùng tham gia vào việc lựa chọn hoặc nguồn hình ảnh.

Tuy nhiên, đây là một thách thức đáng kể vì ít nhất hai lý do; thứ nhất, vì hiệu quả của các hệ thống như vậy thường phụ thuộc vào các mối quan hệ tích hợp sâu sắc được hình thành trong quá trình đào tạo tốn nhiều tài nguyên; và thứ hai, vì những lo ngại về tính an toàn, tính hợp pháp và hạn chế bản quyền, như đã lưu ý trước đó, khiến đây trở thành một tính năng không khả thi đối với dịch vụ web do API điều khiển và đối với việc triển khai thương mại nói chung.

 

* Source: https://proceedings.neurips.cc/paper_files/paper/2022/file/62868cc2fc1eb5cdf321d05b4b88510c-Paper-Conference.pdf

Lần đầu tiên xuất bản vào Thứ Ba, ngày 4 tháng 2025 năm XNUMX

Người viết về máy học, chuyên gia trong lĩnh vực tổng hợp hình ảnh con người. Cựu giám đốc nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên Hệ: [email được bảo vệ]
Twitter: @manders_ai