Connect with us

EasyPhoto: Trình Tạo Ảnh Cá Nhân Của Bạn Dựa Trên Trí Tuệ Nhân Tạo

Trí tuệ nhân tạo

EasyPhoto: Trình Tạo Ảnh Cá Nhân Của Bạn Dựa Trên Trí Tuệ Nhân Tạo

mm
EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Web User Interface, hoặc SD-WebUI, là một dự án toàn diện cho các mô hình Stable Diffusion mà sử dụng thư viện Gradio để cung cấp giao diện trình duyệt. Hôm nay, chúng ta sẽ nói về EasyPhoto, một plugin WebUI sáng tạo cho phép người dùng cuối tạo ra ảnh chân dung và hình ảnh trí tuệ nhân tạo. Plugin WebUI EasyPhoto tạo ra ảnh chân dung trí tuệ nhân tạo bằng cách sử dụng các mẫu tùy ý, hỗ trợ các phong cách ảnh khác nhau và nhiều sửa đổi. Ngoài ra, để tăng cường khả năng của EasyPhoto hơn nữa, người dùng có thể tạo ra hình ảnh bằng cách sử dụng mô hình SDXL để tạo ra kết quả hài lòng, chính xác và đa dạng hơn. Hãy bắt đầu.

Giới Thiệu Về EasyPhoto và Stable Diffusion

Khung Stable Diffusion là một khung tạo ra dựa trên sự khuếch tán phổ biến và mạnh mẽ được các nhà phát triển sử dụng để tạo ra hình ảnh thực tế dựa trên mô tả văn bản đầu vào. Nhờ vào khả năng của nó, khung Stable Diffusion có nhiều ứng dụng, bao gồm cả việc tạo ra hình ảnh ngoài, tạo hình ảnh trong và dịch hình ảnh sang hình ảnh. Giao diện người dùng Web Stable Diffusion, hoặc SD-WebUI, nổi bật như một trong những ứng dụng phổ biến và nổi tiếng nhất của khung này. Nó có giao diện trình duyệt được xây dựng trên thư viện Gradio, cung cấp giao diện tương tác và thân thiện với người dùng cho các mô hình Stable Diffusion. Để tăng cường kiểm soát và khả năng sử dụng trong việc tạo ra hình ảnh, SD-WebUI tích hợp nhiều ứng dụng Stable Diffusion.

Do sự tiện lợi được cung cấp bởi khung SD-WebUI, các nhà phát triển của khung EasyPhoto đã quyết định tạo ra nó như một plugin web thay vì một ứng dụng hoàn chỉnh. Không giống như các phương pháp hiện có thường gặp phải mất mát danh tính hoặc giới thiệu các tính năng không thực tế vào hình ảnh, khung EasyPhoto tận dụng khả năng hình ảnh sang hình ảnh của các mô hình Stable Diffusion để tạo ra hình ảnh chính xác và thực tế. Người dùng có thể dễ dàng cài đặt khung EasyPhoto như một phần mở rộng trong WebUI, tăng cường sự thân thiện với người dùng và khả năng tiếp cận đến nhiều người dùng hơn. Khung EasyPhoto cho phép người dùng tạo ra ảnh chân dung trí tuệ nhân tạo được hướng dẫn bởi danh tính, chất lượng cao và thực tế mà gần giống với danh tính đầu vào.

Trước tiên, khung EasyPhoto yêu cầu người dùng tạo ra bản sao kỹ thuật số của họ bằng cách tải lên một số hình ảnh để đào tạo một mô hình LoRA hoặc Low-Rank Adaptation trực tuyến. Khung LoRA nhanh chóng tinh chỉnh các mô hình khuếch tán bằng cách sử dụng công nghệ thích nghi thấp. Quá trình này cho phép mô hình cơ sở hiểu thông tin ID của người dùng cụ thể. Các mô hình đã được đào tạo sau đó được hợp nhất và tích hợp vào mô hình Stable Diffusion cơ bản để can thiệp. Hơn nữa, trong quá trình can thiệp, mô hình sử dụng các mô hình khuếch tán ổn định trong một nỗ lực để vẽ lại các vùng mặt trong mẫu can thiệp, và sự tương đồng giữa hình ảnh đầu vào và đầu ra được xác minh bằng cách sử dụng các đơn vị ControlNet khác nhau.

Khung EasyPhoto cũng triển khai một quá trình khuếch tán hai giai đoạn để giải quyết các vấn đề tiềm ẩn như các hiện tượng biên và mất mát danh tính, đảm bảo rằng các hình ảnh được tạo ra giảm thiểu sự không nhất quán về mặt thị giác trong khi vẫn duy trì danh tính của người dùng. Hơn nữa, quá trình can thiệp trong khung EasyPhoto không chỉ giới hạn ở việc tạo ra ảnh chân dung, mà nó cũng có thể được sử dụng để tạo ra bất cứ thứ gì liên quan đến ID của người dùng. Điều này ngụ ý rằng một khi bạn đào tạo mô hình LoRA cho một ID cụ thể, bạn có thể tạo ra một loạt hình ảnh trí tuệ nhân tạo, và do đó nó có thể có ứng dụng rộng rãi bao gồm cả việc thử nghiệm ảo.

Tóm lại, khung EasyPhoto

  1. Đề xuất một phương pháp mới để đào tạo mô hình LoRA bằng cách kết hợp nhiều mô hình LoRA để duy trì tính trung thực của mặt trong hình ảnh được tạo ra.
  2. Sử dụng các phương pháp học tăng cường để tối ưu hóa mô hình LoRA cho phần thưởng danh tính khuôn mặt, điều này giúp tăng cường sự tương đồng giữa các hình ảnh đào tạo và kết quả được tạo ra.
  3. Đề xuất một quá trình khuếch tán hai giai đoạn dựa trên việc tạo lại để tạo ra hình ảnh trí tuệ nhân tạo với thẩm mỹ cao và sự tương đồng.

EasyPhoto: Kiến Trúc & Đào Tạo

Hình dưới đây minh họa quá trình đào tạo của khung EasyPhoto AI.

Như có thể thấy, khung đầu tiên yêu cầu người dùng nhập hình ảnh đào tạo, và sau đó thực hiện việc phát hiện khuôn mặt để phát hiện vị trí khuôn mặt. Khi khung phát hiện khuôn mặt, nó sẽ cắt hình ảnh đầu vào bằng một tỷ lệ cụ thể được định nghĩa trước, tập trung hoàn toàn vào vùng khuôn mặt. Khung sau đó triển khai một mô hình làm đẹp da và phát hiện độ nổi bật để có được hình ảnh đào tạo khuôn mặt sạch sẽ và rõ ràng. Hai mô hình này đóng vai trò quan trọng trong việc tăng cường chất lượng thị giác của khuôn mặt và cũng đảm bảo rằng thông tin nền đã được loại bỏ, và hình ảnh đào tạo chủ yếu chứa khuôn mặt. Cuối cùng, khung sử dụng những hình ảnh đã được xử lý này và các lời nhắc đầu vào để đào tạo mô hình LoRA, và do đó trang bị cho nó khả năng hiểu các đặc điểm khuôn mặt cụ thể của người dùng một cách hiệu quả và chính xác hơn.

Hơn nữa, trong giai đoạn đào tạo, khung bao gồm một bước xác thực quan trọng, trong đó khung tính toán khoảng cách ID khuôn mặt giữa hình ảnh đầu vào của người dùng và hình ảnh xác thực được tạo ra bởi mô hình LoRA đã được đào tạo. Bước xác thực là một quá trình cơ bản đóng vai trò quan trọng trong việc đạt được sự hợp nhất của các mô hình LoRA, cuối cùng đảm bảo rằng mô hình LoRA đã được đào tạo biến thành một bản sao kỹ thuật số, hoặc một biểu diễn kỹ thuật số chính xác của người dùng. Ngoài ra, hình ảnh xác thực có điểm số ID khuôn mặt tối ưu sẽ được chọn làm hình ảnh ID khuôn mặt, và hình ảnh ID khuôn mặt này sau đó sẽ được sử dụng để tăng cường sự tương đồng về danh tính của quá trình tạo ra.

Tiếp theo, dựa trên quá trình hợp nhất, khung đào tạo các mô hình LoRA với ước tính khả năng là mục tiêu chính, trong khi việc bảo tồn sự tương đồng về danh tính khuôn mặt là mục tiêu hạ nguồn. Để giải quyết vấn đề này, khung EasyPhoto sử dụng các kỹ thuật học tăng cường để tối ưu hóa mục tiêu hạ nguồn trực tiếp. Kết quả là, các đặc điểm khuôn mặt mà các mô hình LoRA học được sẽ cải thiện, dẫn đến sự tăng cường về sự tương đồng giữa các kết quả được tạo ra từ mẫu, và cũng chứng minh sự khái quát hóa trên các mẫu.

Quá Trình Can Thiệp

Hình dưới đây minh họa quá trình can thiệp cho một ID người dùng cá nhân trong khung EasyPhoto, và được chia thành ba phần

  • Xử Lý Khuôn Mặt để có được tham chiếu ControlNet và hình ảnh đầu vào đã được xử lý.
  • Khuếch Tán Đầu Tiên giúp tạo ra kết quả thô giống với đầu vào của người dùng.
  • Khuếch Tán Thứ Hai giúp sửa chữa các hiện tượng biên, làm cho hình ảnh trở nên chính xác và thực tế hơn.

Đối với đầu vào, khung lấy hình ảnh ID khuôn mặt (được tạo ra trong quá trình xác thực đào tạo bằng cách sử dụng điểm số ID khuôn mặt tối ưu), và một mẫu can thiệp. Đầu ra là một bức chân dung người dùng chi tiết cao, chính xác và thực tế, và gần giống với danh tính và ngoại hình độc đáo của người dùng dựa trên mẫu can thiệp. Hãy cùng xem xét chi tiết các quá trình này.

Xử Lý Khuôn Mặt

Một cách để tạo ra ảnh chân dung trí tuệ nhân tạo dựa trên mẫu can thiệp mà không cần lý luận có ý thức là sử dụng mô hình SD để tạo lại vùng khuôn mặt trong mẫu can thiệp. Ngoài ra, việc thêm khung ControlNet vào quá trình không chỉ tăng cường việc bảo tồn danh tính người dùng, mà còn tăng cường sự tương đồng giữa các hình ảnh được tạo ra. Tuy nhiên, việc sử dụng ControlNet trực tiếp cho việc tạo lại vùng có thể giới thiệu các vấn đề tiềm ẩn, bao gồm

  • Sự Không Nhất Quán Giữa Hình Ảnh Đầu Vào và Hình Ảnh Được Tạo Ra: Rõ ràng là các điểm chính trong hình ảnh mẫu không tương thích với các điểm chính trong hình ảnh ID khuôn mặt, đó là lý do tại sao việc sử dụng ControlNet với hình ảnh ID khuôn mặt làm tham chiếu có thể dẫn đến một số sự không nhất quán trong đầu ra.
  • Các Khiếm Khuyết Trong Vùng Tạo Lại: Mặt nạ một vùng và sau đó tạo lại nó với một khuôn mặt mới có thể dẫn đến các khiếm khuyết rõ ràng, đặc biệt là dọc theo biên giới tạo lại, điều này không chỉ ảnh hưởng đến tính xác thực của hình ảnh được tạo ra, mà còn ảnh hưởng tiêu cực đến tính thực tế của hình ảnh.
  • Mất Mát Danh Tính Bởi Control Net: Vì quá trình đào tạo không sử dụng khung ControlNet, việc sử dụng ControlNet trong giai đoạn can thiệp có thể ảnh hưởng đến khả năng của các mô hình LoRA đã được đào tạo để bảo tồn danh tính người dùng.

Để giải quyết các vấn đề trên, khung EasyPhoto đề xuất ba thủ tục.

  • Đặt và Dán: Bằng cách sử dụng một thuật toán dán khuôn mặt, khung EasyPhoto nhằm giải quyết vấn đề về sự không khớp giữa các điểm mốc khuôn mặt giữa hình ảnh ID khuôn mặt và mẫu. Đầu tiên, mô hình tính toán các điểm mốc khuôn mặt của hình ảnh ID khuôn mặt và hình ảnh mẫu, sau đó mô hình xác định ma trận biến đổi affine sẽ được sử dụng để căn chỉnh các điểm mốc khuôn mặt của hình ảnh mẫu với hình ảnh ID khuôn mặt. Hình ảnh kết quả giữ lại các điểm mốc khuôn mặt của hình ảnh ID khuôn mặt và cũng căn chỉnh với hình ảnh mẫu.
  • Khuôn Mặt Nối: Khuôn Mặt Nối là một phương pháp mới được sử dụng để sửa chữa các hiện tượng biên do việc tạo lại mặt nạ, và nó liên quan đến việc chỉnh sửa các hiện tượng này bằng cách sử dụng khung ControlNet. Phương pháp này cho phép khung EasyPhoto đảm bảo việc bảo tồn các cạnh hài hòa, và do đó hướng dẫn quá trình tạo ra hình ảnh.
  • Xác Thực Hướng Dẫn Bởi ControlNet: Vì các mô hình LoRA không được đào tạo bằng cách sử dụng khung ControlNet, việc sử dụng nó trong quá trình can thiệp có thể ảnh hưởng đến khả năng của mô hình LoRA để bảo tồn danh tính. Để tăng cường khả năng khái quát hóa của EasyPhoto, khung xem xét ảnh hưởng của khung ControlNet và tích hợp các mô hình LoRA từ các giai đoạn khác nhau.

Khuếch Tán Đầu Tiên

Giai đoạn khuếch tán đầu tiên sử dụng hình ảnh mẫu để tạo ra một hình ảnh có ID độc đáo giống với ID người dùng đầu vào. Hình ảnh đầu vào là sự kết hợp của hình ảnh người dùng đầu vào và hình ảnh mẫu, trong khi mặt nạ khuôn mặt đã được hiệu chỉnh là mặt nạ đầu vào. Để tăng cường kiểm soát quá trình tạo ra hình ảnh, khung EasyPhoto tích hợp ba đơn vị ControlNet, trong đó đơn vị ControlNet đầu tiên tập trung vào việc kiểm soát các hình ảnh đã được kết hợp, đơn vị ControlNet thứ hai kiểm soát màu sắc của hình ảnh đã được kết hợp, và đơn vị ControlNet cuối cùng là openpose (kiểm soát tư thế người thật thời gian thực) của hình ảnh được thay thế, điều này không chỉ chứa cấu trúc khuôn mặt của hình ảnh mẫu, mà còn chứa danh tính khuôn mặt của người dùng.

Khuếch Tán Thứ Hai

Trong giai đoạn khuếch tán thứ hai, các hiện tượng biên gần vùng khuôn mặt được tinh chỉnh và làm mịn, cũng như cung cấp cho người dùng sự linh hoạt để mặt nạ một vùng cụ thể trong hình ảnh nhằm tăng cường hiệu quả của việc tạo ra trong khu vực đó. Trong giai đoạn này, khung kết hợp hình ảnh đầu ra từ giai đoạn khuếch tán đầu tiên với hình ảnh roop hoặc kết quả của hình ảnh người dùng, do đó tạo ra hình ảnh đầu vào cho giai đoạn khuếch tán thứ hai. Tổng thể, giai đoạn khuếch tán thứ hai đóng vai trò quan trọng trong việc tăng cường chất lượng tổng thể và chi tiết của hình ảnh được tạo ra.

Nhiều ID Người Dùng

Một trong những điểm nổi bật của EasyPhoto là khả năng hỗ trợ tạo ra nhiều ID người dùng, và hình dưới đây minh họa đường ống của quá trình can thiệp cho nhiều ID người dùng trong khung EasyPhoto.

Để hỗ trợ việc tạo ra nhiều ID người dùng, khung EasyPhoto đầu tiên thực hiện việc phát hiện khuôn mặt trên mẫu can thiệp. Các mẫu can thiệp này sau đó được chia thành nhiều mặt nạ, trong đó mỗi mặt nạ chứa chỉ một khuôn mặt, và phần còn lại của hình ảnh được mặt nạ bằng màu trắng, do đó chia việc tạo ra nhiều ID người dùng thành một nhiệm vụ đơn giản là tạo ra các ID người dùng riêng lẻ. Khi khung tạo ra hình ảnh ID người dùng, những hình ảnh này được hợp nhất vào mẫu can thiệp, do đó tạo điều kiện cho sự tích hợp liền mạch của mẫu với các hình ảnh được tạo ra, điều này cuối cùng dẫn đến một hình ảnh chất lượng cao.

Thử Nghiệm và Kết Quả

Bây giờ chúng ta đã hiểu về khung EasyPhoto, đã đến lúc chúng ta khám phá hiệu suất của khung EasyPhoto.

Hình ảnh trên được tạo ra bởi plugin EasyPhoto, và nó sử dụng mô hình SD dựa trên phong cách để tạo ra hình ảnh. Như có thể thấy, các hình ảnh được tạo ra trông thực tế và khá chính xác.

Hình ảnh trên được thêm vào bởi khung EasyPhoto sử dụng mô hình SD dựa trên phong cách truyện tranh. Như có thể thấy, các bức tranh truyện tranh và các bức tranh thực tế trông khá thực tế và gần giống với hình ảnh đầu vào dựa trên yêu cầu hoặc lời nhắc của người dùng.

Hình ảnh được thêm vào dưới đây đã được tạo ra bởi khung EasyPhoto bằng cách sử dụng một mẫu đa người. Như có thể thấy rõ, các hình ảnh được tạo ra rõ ràng, chính xác và gần giống với hình ảnh gốc.

Với sự giúp đỡ của EasyPhoto, người dùng hiện có thể tạo ra một loạt các bức chân dung trí tuệ nhân tạo, hoặc tạo ra nhiều ID người dùng bằng cách sử dụng mẫu được bảo tồn, hoặc sử dụng mô hình SD để tạo ra mẫu can thiệp. Các hình ảnh trên minh họa khả năng của khung EasyPhoto trong việc tạo ra các bức tranh trí tuệ nhân tạo đa dạng và chất lượng cao.

Kết Luận

Trong bài viết này, chúng ta đã nói về EasyPhoto, một plugin WebUI sáng tạo cho phép người dùng cuối tạo ra ảnh chân dung và hình ảnh trí tuệ nhân tạo. Plugin WebUI EasyPhoto tạo ra ảnh chân dung trí tuệ nhân tạo bằng cách sử dụng các mẫu tùy ý, và các ý nghĩa hiện tại của plugin WebUI EasyPhoto hỗ trợ các phong cách ảnh khác nhau và nhiều sửa đổi. Ngoài ra, để tăng cường khả năng của EasyPhoto hơn nữa, người dùng có thể tạo ra hình ảnh bằng cách sử dụng mô hình SDXL để tạo ra kết quả hài lòng, chính xác và đa dạng hơn. Khung EasyPhoto sử dụng mô hình khuếch tán ổn định cơ bản kết hợp với mô hình LoRA đã được đào tạo trước, tạo ra đầu ra hình ảnh chất lượng cao.

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.