Trí tuệ nhân tạo

InstantID: Tạo hình nhận dạng tức thời trong vài giây

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Công nghệ tạo hình ảnh dựa trên trí tuệ nhân tạo đã chứng kiến sự phát triển đáng kể trong những năm gần đây, kể từ khi các mô hình khuếch tán văn bản sang hình ảnh lớn như DALL-E, GLIDE, Stable Diffusion, Imagen và nhiều mô hình khác xuất hiện. Mặc dù các mô hình tạo hình ảnh dựa trên trí tuệ nhân tạo có kiến trúc và phương pháp đào tạo độc đáo, nhưng tất cả chúng đều có một điểm tập trung chung: tạo hình ảnh tùy chỉnh và cá nhân hóa nhằm tạo ra hình ảnh có đặc điểm nhân vật, chủ đề và phong cách nhất quán dựa trên hình ảnh tham chiếu. Do khả năng tạo hình ảnh đáng chú ý, các khuôn khổ tạo hình ảnh dựa trên trí tuệ nhân tạo hiện đại đã tìm thấy ứng dụng trong các lĩnh vực bao gồm hoạt hình hình ảnh, thực tế ảo, Thương mại điện tử, chân dung trí tuệ nhân tạo và nhiều lĩnh vực khác. Tuy nhiên, mặc dù có khả năng tạo hình ảnh đáng chú ý, nhưng các khuôn khổ này đều gặp phải một thách thức chung, hầu hết chúng không thể tạo ra hình ảnh tùy chỉnh trong khi vẫn bảo tồn các chi tiết nhận dạng tinh tế của các đối tượng con người.

Tạo hình ảnh tùy chỉnh trong khi bảo tồn các chi tiết tinh tế là rất quan trọng, đặc biệt là trong các nhiệm vụ nhận dạng khuôn mặt con người đòi hỏi một tiêu chuẩn cao về độ trung thực và chi tiết, cũng như ngữ nghĩa tinh vi khi so sánh với các nhiệm vụ tạo hình ảnh đối tượng chung tập trung chủ yếu vào kết cấu và màu sắc thô. Hơn nữa, các khuôn khổ tổng hợp hình ảnh cá nhân hóa trong những năm gần đây như LoRA, DreamBooth, Textual Inversion và nhiều hơn nữa đã tiến bộ đáng kể. Tuy nhiên, các mô hình tạo hình ảnh cá nhân hóa dựa trên trí tuệ nhân tạo vẫn chưa hoàn hảo để triển khai trong các kịch bản thế giới thực vì chúng có yêu cầu lưu trữ cao, đòi hỏi nhiều hình ảnh tham chiếu và thường có quá trình tinh chỉnh dài.

Để giải quyết những thách thức này và nâng cao khả năng tạo hình ảnh, trong bài viết này, chúng tôi sẽ thảo luận về InstantID, một giải pháp dựa trên mô hình khuếch tán cho việc tạo hình ảnh. InstantID là một mô-đun cắm và chạy xử lý tạo hình ảnh và cá nhân hóa một cách khéo léo trên các phong cách khác nhau chỉ với một hình ảnh tham chiếu và cũng đảm bảo độ trung thực cao. Mục tiêu chính của bài viết này là cung cấp cho người đọc của chúng tôi một sự hiểu biết sâu sắc về các cơ sở kỹ thuật và thành phần của khuôn khổ InstantID khi chúng tôi sẽ xem xét chi tiết về kiến trúc của mô hình, quá trình đào tạo và các kịch bản ứng dụng.

InstantID: Tạo hình nhận dạng tức thời

Sự xuất hiện của các mô hình khuếch tán văn bản sang hình ảnh đã góp phần đáng kể vào sự phát triển của công nghệ tạo hình ảnh. Mục tiêu chính của các mô hình này là tạo hình ảnh tùy chỉnh và cá nhân hóa, và tạo ra hình ảnh có chủ đề, phong cách và nhận dạng nhân vật nhất quán bằng cách sử dụng một hoặc nhiều hình ảnh tham chiếu. Khả năng của các khuôn khổ này trong việc tạo ra hình ảnh nhất quán đã tạo ra các ứng dụng tiềm năng trong các ngành công nghiệp khác nhau, bao gồm hoạt hình hình ảnh, tạo chân dung trí tuệ nhân tạo, Thương mại điện tử, thực tế ảo và tăng cường, và nhiều hơn nữa.

Tuy nhiên, mặc dù có khả năng đáng chú ý, nhưng các khuôn khổ này gặp phải một thách thức cơ bản: chúng thường gặp khó khăn trong việc tạo ra hình ảnh tùy chỉnh trong khi vẫn bảo tồn các chi tiết tinh tế của các đối tượng con người một cách chính xác. Điều đáng chú ý là tạo hình ảnh tùy chỉnh với các chi tiết nội tại là một nhiệm vụ khó khăn vì nhận dạng khuôn mặt con người đòi hỏi một mức độ trung thực và chi tiết cao hơn, cùng với ngữ nghĩa tinh vi hơn so với các đối tượng hoặc phong cách chung tập trung chủ yếu vào màu sắc hoặc kết cấu thô. Các mô hình tạo hình ảnh dựa trên văn bản hiện có phụ thuộc vào các mô tả văn bản chi tiết, và chúng gặp khó khăn trong việc đạt được sự liên quan ngữ nghĩa mạnh mẽ cho việc tạo hình ảnh tùy chỉnh.

Để vượt qua những chướng ngại vật này, khuôn khổ InstantID tập trung vào việc tổng hợp hình ảnh nhận dạng tức thời, và cố gắng bắc cầu giữa hiệu quả và độ trung thực cao bằng cách giới thiệu một mô-đun cắm và chạy đơn giản cho phép khuôn khổ xử lý cá nhân hóa hình ảnh bằng cách sử dụng chỉ một hình ảnh khuôn mặt duy nhất trong khi vẫn duy trì độ trung thực cao. Hơn nữa, để bảo tồn nhận dạng khuôn mặt từ hình ảnh tham chiếu, khuôn khổ InstantID thực hiện một bộ mã hóa khuôn mặt mới giữ lại các chi tiết hình ảnh tinh tế bằng cách thêm các điều kiện không gian yếu và mạnh về ngữ nghĩa, điều này hướng dẫn quá trình tạo hình ảnh bằng cách kết hợp các lời nhắc văn bản, hình ảnh mốc và hình ảnh khuôn mặt.

Có ba đặc điểm phân biệt khuôn khổ InstantID với các khuôn khổ tạo hình ảnh dựa trên văn bản hiện có.

Khả năng tương thích và cắm: Thay vì đào tạo trên các tham số đầy đủ của khuôn khổ UNet, khuôn khổ InstantID tập trung vào việc đào tạo một bộ điều chỉnh nhẹ. Do đó, khuôn khổ InstantID tương thích và cắm được với các mô hình đã được đào tạo trước.

Không cần tinh chỉnh: Phương pháp của khuôn khổ InstantID loại bỏ yêu cầu tinh chỉnh vì nó chỉ cần một lần truyền tiếp cho quá trình suy luận, làm cho mô hình này rất thực tế và tiết kiệm chi phí cho quá trình tinh chỉnh.
Hiệu suất vượt trội: Khuôn khổ InstantID thể hiện sự linh hoạt và độ trung thực cao vì nó có thể cung cấp hiệu suất hàng đầu sử dụng chỉ một hình ảnh tham chiếu duy nhất, tương đương với các phương pháp dựa trên đào tạo phụ thuộc vào nhiều hình ảnh tham chiếu.

Tổng thể, các đóng góp của khuôn khổ InstantID có thể được phân loại như sau.

Khuôn khổ InstantID là một phương pháp thích nghi sáng tạo, bảo tồn nhận dạng cho các mô hình khuếch tán văn bản sang hình ảnh đã được đào tạo trước, nhằm mục đích bắc cầu giữa hiệu quả và độ trung thực.
Khuon khổ InstantID tương thích và cắm được với các mô hình đã được tinh chỉnh tùy chỉnh sử dụng cùng một mô hình khuếch tán trong kiến trúc của nó, cho phép bảo tồn nhận dạng trong các mô hình đã được đào tạo trước mà không có thêm chi phí.

InstantID: Phương pháp và Kiến trúc

Như đã đề cập trước đó, khuôn khổ InstantID là một bộ điều chỉnh nhẹ và hiệu quả cho các mô hình khuếch tán văn bản sang hình ảnh đã được đào tạo trước, nhằm mục đích trao cho chúng khả năng bảo tồn nhận dạng một cách dễ dàng.

Khi nói đến kiến trúc, khuôn khổ InstantID được xây dựng trên mô hình Stable Diffusion, nổi tiếng với khả năng thực hiện quá trình khuếch tán với hiệu quả tính toán cao trong không gian latent thấp chiều thay vì không gian pixel với một bộ mã hóa tự động. Đối với một hình ảnh đầu vào, bộ mã hóa đầu tiên ánh xạ hình ảnh đến một biểu diễn latent với yếu tố lấy mẫu và chiều latent. Hơn nữa, để làm sạch một nhiễu phân phối chuẩn với nhiễu latent, điều kiện và bước thời gian hiện tại, quá trình khuếch tán áp dụng một thành phần UNet làm sạch. Điều kiện là một mã hóa của các lời nhắc văn bản được tạo ra bằng cách sử dụng một bộ mã hóa văn bản CLIP đã được đào tạo trước.

Hơn nữa, khuôn khổ InstantID cũng sử dụng một thành phần ControlNet có khả năng thêm điều khiển không gian vào một mô hình khuếch tán đã được đào tạo trước như một điều kiện, mở rộng vượt ra ngoài khả năng của các lời nhắc văn bản truyền thống. Thành phần ControlNet cũng tích hợp kiến trúc UNet từ khuôn khổ Stable Diffusion bằng cách sử dụng một bản sao của thành phần UNet. Bản sao của thành phần UNet có đặc điểm là không có lớp convolution trong các khối giữa và các khối mã hóa. Mặc dù chúng có sự tương đồng, thành phần ControlNet khác với mô hình Stable Diffusion; chúng khác nhau ở mục cuối cùng.

Khuôn khổ InstantID cũng lấy cảm hứng từ IP-Adapter hoặc Bộ điều chỉnh lời nhắc hình ảnh, giới thiệu một phương pháp mới để đạt được khả năng lời nhắc hình ảnh chạy song song với các lời nhắc văn bản mà không cần sửa đổi các mô hình văn bản sang hình ảnh gốc. Thành phần IP-Adapter cũng sử dụng một chiến lược chú ý phân离 độc đáo, sử dụng các lớp chú ý bổ sung để nhúng các tính năng hình ảnh trong khi giữ nguyên các tham số khác.

Phương pháp

Để cung cấp một cái nhìn tổng quan, khuôn khổ InstantID nhằm tạo ra hình ảnh tùy chỉnh với các phong cách hoặc tư thế khác nhau bằng cách sử dụng chỉ một hình ảnh tham chiếu duy nhất với độ trung thực cao. Hình ảnh sau đây cung cấp một cái nhìn tổng quan về khuôn khổ InstantID.

Như có thể quan sát được, khuôn khổ InstantID có ba thành phần thiết yếu:

Một thành phần mã hóa nhận dạng bắt giữ thông tin ngữ nghĩa mạnh mẽ của các tính năng khuôn mặt trong hình ảnh.
Một mô-đun điều chỉnh nhẹ với một thành phần chú ý phân离 để tạo điều kiện cho việc sử dụng hình ảnh như một lời nhắc trực quan.
Một thành phần IdentityNet mã hóa các tính năng chi tiết từ hình ảnh tham chiếu bằng cách sử dụng điều khiển không gian bổ sung.

Mã hóa Nhận dạng

Không giống như các phương pháp hiện có như FaceStudio, PhotoMaker, IP-Adapter và nhiều hơn nữa, phụ thuộc vào một bộ mã hóa hình ảnh CLIP đã được đào tạo trước để trích xuất lời nhắc trực quan, khuôn khổ InstantID tập trung vào độ trung thực cao hơn và thông tin ngữ nghĩa mạnh mẽ hơn trong nhiệm vụ bảo tồn nhận dạng. Điều đáng chú ý là hạn chế vốn có của thành phần CLIP nằm chủ yếu trong quá trình đào tạo trên dữ liệu không được căn chỉnh chặt chẽ, có nghĩa là các tính năng mã hóa của bộ mã hóa CLIP chủ yếu bắt giữ thông tin ngữ nghĩa rộng và mơ hồ như màu sắc, phong cách và bố cục. Mặc dù những tính năng này có thể đóng vai trò là một bổ sung chung cho các mã hóa văn bản, nhưng chúng không phù hợp cho các nhiệm vụ bảo tồn nhận dạng chính xác đòi hỏi ngữ nghĩa mạnh mẽ và độ trung thực cao.

Bộ điều chỉnh Hình ảnh

Khả năng của các mô hình khuếch tán văn bản sang hình ảnh đã được đào tạo trước trong các nhiệm vụ lời nhắc hình ảnh tăng cường đáng kể khả năng của các lời nhắc văn bản, đặc biệt là trong các kịch bản không thể được mô tả đầy đủ bởi các lời nhắc văn bản. Khuôn khổ InstantID áp dụng một chiến lược tương tự như được sử dụng bởi mô hình IP-Adapter cho lời nhắc hình ảnh, giới thiệu một mô-đun điều chỉnh nhẹ đi kèm với một thành phần chú ý phân离 để hỗ trợ hình ảnh như lời nhắc đầu vào. Tuy nhiên, trái với các mã hóa CLIP được căn chỉnh thô, khuôn khổ InstantID khác biệt bằng cách sử dụng mã hóa nhận dạng như lời nhắc hình ảnh trong một nỗ lực nhằm đạt được sự tích hợp lời nhắc tinh vi và giàu ngữ nghĩa hơn.

IdentityNet

Mặc dù các phương pháp hiện có có thể tích hợp lời nhắc hình ảnh với lời nhắc văn bản, khuôn khổ InstantID cho rằng những phương pháp này chỉ tăng cường các tính năng thô và mức độ tích hợp không đủ cho việc tạo hình ảnh bảo tồn nhận dạng. Hơn nữa, việc thêm các mã hóa hình ảnh và văn bản vào các lớp chú ý trực tiếp có thể làm suy yếu khả năng kiểm soát của các mã hóa văn bản, và nỗ lực tăng cường sức mạnh của các mã hóa hình ảnh có thể dẫn đến làm suy yếu khả năng của các mã hóa văn bản trong các nhiệm vụ chỉnh sửa.

Đào tạo và Suy luận

Trong giai đoạn đào tạo, khuôn khổ InstantID tối ưu hóa các tham số của IdentityNet và Bộ điều chỉnh Hình ảnh trong khi giữ nguyên các tham số của mô hình khuếch tán đã được đào tạo trước. Toàn bộ đường ống InstantID được đào tạo trên các cặp hình ảnh-văn bản có đối tượng là con người và sử dụng một mục tiêu đào tạo tương tự như được sử dụng trong khuôn khổ khuếch tán ổn định với điều kiện hình ảnh cụ thể cho nhiệm vụ. Điểm nổi bật của phương pháp đào tạo InstantID là sự tách biệt giữa các lớp chú ý hình ảnh và văn bản trong Bộ điều chỉnh Hình ảnh, một lựa chọn cho phép khuôn khổ InstantID điều chỉnh trọng lượng của các điều kiện hình ảnh một cách linh hoạt và độc lập, đảm bảo một quá trình đào tạo và suy luận được kiểm soát và nhắm mục tiêu hơn.

InstantID: Thử nghiệm và Kết quả

Khuôn khổ InstantID thực hiện mô hình Stable Diffusion và đào tạo nó trên LAION-Face, một tập dữ liệu mở lớn bao gồm hơn 50 triệu cặp hình ảnh-văn bản. Hơn nữa, khuôn khổ InstantID thu thập hơn 10 triệu hình ảnh con người với tự động hóa được tạo tự động bởi mô hình BLIP2 để tăng cường chất lượng tạo hình ảnh. Khuôn khổ InstantID tập trung chủ yếu vào hình ảnh một người, và sử dụng một mô hình khuôn mặt đã được đào tạo trước để phát hiện và trích xuất mã hóa nhận dạng từ hình ảnh con người, và thay vì đào tạo trên các tập dữ liệu khuôn mặt được cắt, khuôn khổ InstantID đào tạo trên hình ảnh con người gốc.

Tạo hình ảnh chỉ với hình ảnh

Mô hình InstantID sử dụng một lời nhắc rỗng để hướng dẫn quá trình tạo hình ảnh bằng cách sử dụng chỉ hình ảnh tham chiếu, và kết quả không có lời nhắc được thể hiện trong hình ảnh sau.

Sự tạo hình ảnh với ‘lời nhắc rỗng’ như được thể hiện trong hình ảnh trên cho thấy khả năng của khuôn khổ InstantID trong việc bảo tồn các tính năng khuôn mặt tinh tế như nhận dạng, tuổi và biểu cảm một cách mạnh mẽ. Tuy nhiên, điều đáng chú ý là sử dụng lời nhắc rỗng có thể không thể tái tạo kết quả trên các ngữ nghĩa khác như giới tính một cách chính xác.

Suy nghĩ cuối cùng

Trong bài viết này, chúng tôi đã thảo luận về InstantID, một giải pháp dựa trên mô hình khuếch tán cho việc tạo hình ảnh. InstantID là một mô-đun cắm và chạy xử lý tạo hình ảnh và cá nhân hóa một cách khéo léo trên các phong cách khác nhau chỉ với một hình ảnh tham chiếu và cũng đảm bảo độ trung thực cao. Mục tiêu chính của bài viết này là cung cấp cho người đọc của chúng tôi một sự hiểu biết sâu sắc về các cơ sở kỹ thuật và thành phần của khuôn khổ InstantID khi chúng tôi sẽ xem xét chi tiết về kiến trúc của mô hình, quá trình đào tạo và các kịch bản ứng dụng.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.