sơ khai EasyPhoto: Trình tạo ảnh AI cá nhân của bạn - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

EasyPhoto: Trình tạo ảnh AI cá nhân của bạn

mm
cập nhật on
EasyPhoto: Trình tạo chân dung AI cá nhân của bạn

Khuếch tán ổn định Giao diện người dùng web, hay SD-WebUI, là một dự án toàn diện dành cho các mô hình Khuếch tán ổn định sử dụng thư viện Gradio để cung cấp giao diện trình duyệt. Hôm nay, chúng ta sẽ nói về EasyPhoto, một plugin WebUI cải tiến cho phép người dùng cuối tạo ra các bức ảnh và chân dung AI. Plugin EasyPhoto WebUI tạo ảnh chân dung AI bằng nhiều mẫu khác nhau, hỗ trợ các kiểu ảnh khác nhau và nhiều sửa đổi. Ngoài ra, để nâng cao hơn nữa khả năng của EasyPhoto, người dùng có thể tạo hình ảnh bằng mô hình SDXL để có kết quả hài lòng, chính xác và đa dạng hơn. Hãy bắt đầu nào.

Giới thiệu về EasyPhoto và Khuếch tán ổn định

Khung Khuếch tán ổn định là khung tạo dựa trên khuếch tán phổ biến và mạnh mẽ được các nhà phát triển sử dụng để tạo ra hình ảnh thực tế dựa trên mô tả văn bản đầu vào. Nhờ các khả năng của nó, khung Khuếch tán ổn định tự hào có nhiều ứng dụng, bao gồm vẽ ngoài hình ảnh, vẽ vào hình ảnh và dịch từ hình ảnh sang hình ảnh. Giao diện người dùng web khuếch tán ổn định, hay SD-WebUI, nổi bật là một trong những ứng dụng phổ biến và nổi tiếng nhất của khung này. Nó có giao diện trình duyệt được xây dựng trên thư viện Gradio, cung cấp giao diện tương tác và thân thiện với người dùng cho các mô hình Khuếch tán ổn định. Để nâng cao hơn nữa khả năng kiểm soát và khả năng sử dụng trong việc tạo hình ảnh, SD-WebUI tích hợp nhiều ứng dụng Khuếch tán ổn định.

Do sự tiện lợi mà khung SD-WebUI mang lại, các nhà phát triển khung EasyPhoto đã quyết định tạo nó dưới dạng một plugin web thay vì một ứng dụng chính thức. Ngược lại với các phương pháp hiện tại thường bị mất nhận dạng hoặc đưa các đặc điểm không thực tế vào hình ảnh, khung EasyPhoto tận dụng khả năng chuyển đổi hình ảnh sang hình ảnh của các mô hình Khuếch tán ổn định để tạo ra hình ảnh chính xác và chân thực. Người dùng có thể dễ dàng cài đặt khung EasyPhoto dưới dạng tiện ích mở rộng trong WebUI, nâng cao tính thân thiện với người dùng và khả năng tiếp cận với nhiều người dùng hơn. Khung EasyPhoto cho phép người dùng tạo các ảnh có chất lượng cao và được hướng dẫn nhận dạng. chân dung AI thực tế gần giống với danh tính đầu vào.

Đầu tiên, khung EasyPhoto yêu cầu người dùng tạo bản sao kỹ thuật số của họ bằng cách tải lên một số hình ảnh để huấn luyện trực tuyến mô hình Thích ứng LoRA khuôn mặt hoặc Xếp hạng thấp. Khung LoRA nhanh chóng tinh chỉnh các mô hình khuếch tán bằng cách sử dụng công nghệ thích ứng cấp thấp. Quá trình này cho phép mô hình dựa trên hiểu thông tin ID của người dùng cụ thể. Các mô hình được đào tạo sau đó được hợp nhất và tích hợp vào mô hình Khuếch tán ổn định cơ bản để gây nhiễu. Hơn nữa, trong quá trình giao thoa, mô hình sử dụng các mô hình khuếch tán ổn định nhằm cố gắng vẽ lại các vùng mặt trong mẫu giao thoa và sự giống nhau giữa hình ảnh đầu vào và đầu ra được xác minh bằng cách sử dụng các đơn vị ControlNet khác nhau. 

Khung EasyPhoto cũng triển khai quy trình khuếch tán hai giai đoạn để giải quyết các vấn đề tiềm ẩn như tạo tác ranh giới và mất danh tính, nhờ đó đảm bảo rằng hình ảnh được tạo ra sẽ giảm thiểu sự thiếu nhất quán về hình ảnh trong khi vẫn duy trì danh tính của người dùng. Hơn nữa, đường dẫn nhiễu trong khung EasyPhoto không chỉ giới hạn ở việc tạo ảnh chân dung mà còn có thể được sử dụng để tạo bất kỳ thứ gì liên quan đến ID người dùng. Điều này ngụ ý rằng một khi bạn đào tạo mô hình LoRA đối với một ID cụ thể, bạn có thể tạo ra một loạt các hình ảnh AI và do đó nó có thể có các ứng dụng rộng rãi bao gồm cả các thử nghiệm ảo. 

Tú tổng hợp lại, framework EasyPhoto

  1. Đề xuất một cách tiếp cận mới để huấn luyện mô hình LoRA bằng cách kết hợp nhiều mô hình LoRA để duy trì độ trung thực trên khuôn mặt của hình ảnh được tạo ra. 
  2. Sử dụng các phương pháp học tăng cường khác nhau để tối ưu hóa các mô hình LoRA cho phần thưởng nhận dạng khuôn mặt, giúp nâng cao hơn nữa sự giống nhau về nhận dạng giữa các hình ảnh đào tạo và kết quả được tạo ra. 
  3. Đề xuất quy trình khuếch tán dựa trên sơn trong hai giai đoạn nhằm tạo ra những bức ảnh AI có tính thẩm mỹ cao và giống nhau. 

EasyPhoto : Kiến trúc & Đào tạo

Hình dưới đây minh họa quá trình đào tạo của khung EasyPhoto AI. 

Như có thể thấy, trước tiên, khung này yêu cầu người dùng nhập hình ảnh huấn luyện và sau đó thực hiện nhận diện khuôn mặt để phát hiện vị trí khuôn mặt. Khi khung phát hiện khuôn mặt, nó sẽ cắt hình ảnh đầu vào bằng tỷ lệ cụ thể được xác định trước chỉ tập trung vào vùng khuôn mặt. Sau đó, hệ thống này sẽ triển khai mô hình làm đẹp da & phát hiện độ nổi bật để có được hình ảnh khuôn mặt rõ nét và sạch sẽ. Hai mô hình này đóng một vai trò quan trọng trong việc nâng cao chất lượng hình ảnh của khuôn mặt, đồng thời đảm bảo rằng thông tin cơ bản đã được loại bỏ và hình ảnh đào tạo chủ yếu chứa khuôn mặt. Cuối cùng, khung sử dụng các hình ảnh đã xử lý này và lời nhắc đầu vào để huấn luyện mô hình LoRA, từ đó trang bị cho mô hình khả năng hiểu các đặc điểm khuôn mặt cụ thể của người dùng một cách hiệu quả và chính xác hơn. 

Hơn nữa, trong giai đoạn đào tạo, khung bao gồm một bước xác thực quan trọng, trong đó khung tính toán khoảng cách ID khuôn mặt giữa hình ảnh đầu vào của người dùng và hình ảnh xác minh được tạo bởi mô hình LoRA đã được đào tạo. Bước xác nhận là một quy trình cơ bản đóng vai trò quan trọng trong việc đạt được sự hợp nhất của các mô hình LoRA, cuối cùng là đảm bảo rằng khung LoRA được đào tạo biến thành một doppelganger hoặc một đại diện kỹ thuật số chính xác của người dùng. Ngoài ra, hình ảnh xác minh có điểm face_id tối ưu sẽ được chọn làm hình ảnh face_id và hình ảnh face_id này sau đó sẽ được sử dụng để nâng cao mức độ tương tự nhận dạng của quá trình tạo nhiễu. 

Tiếp tục, dựa trên quy trình tổng hợp, khung đào tạo các mô hình LoRA với ước tính khả năng là mục tiêu chính, trong khi duy trì sự tương đồng về nhận dạng khuôn mặt là mục tiêu tiếp theo. Để giải quyết vấn đề này, khung EasyPhoto sử dụng các kỹ thuật học tăng cường để trực tiếp tối ưu hóa mục tiêu tiếp theo. Do đó, các đặc điểm trên khuôn mặt mà mô hình LoRA học được sẽ cải thiện hiển thị, dẫn đến sự tương đồng nâng cao giữa các kết quả được tạo ra từ mẫu và cũng thể hiện tính khái quát giữa các mẫu. 

Quá trình can thiệp

Hình sau đây minh họa quy trình can thiệp đối với một ID người dùng riêng lẻ trong khung EasyPhoto và được chia thành ba phần

  • Tiền xử lý khuôn mặt để lấy tham chiếu ControlNet và hình ảnh đầu vào được xử lý trước. 
  • Khuếch tán đầu tiên giúp tạo ra kết quả thô giống với đầu vào của người dùng. 
  • Khuếch tán thứ hai giúp khắc phục các hiện tượng giả ở ranh giới, do đó làm cho hình ảnh chính xác hơn và trông chân thực hơn. 

Đối với đầu vào, khung lấy hình ảnh face_id (được tạo trong quá trình xác thực đào tạo bằng cách sử dụng điểm face_id tối ưu) và mẫu nhiễu. Đầu ra là chân dung người dùng rất chi tiết, chính xác và thực tế, đồng thời gần giống với danh tính và diện mạo độc đáo của người dùng trên cơ sở mẫu suy luận. Chúng ta hãy có một cái nhìn chi tiết về các quá trình này.

Quá trình xử lý khuôn mặt

Một cách để tạo ra một bức chân dung AI dựa trên mẫu giao thoa mà không cần suy luận có ý thức là sử dụng mô hình SD để vẽ vùng khuôn mặt trong mẫu giao thoa. Ngoài ra, việc thêm khung ControlNet vào quy trình không chỉ nâng cao khả năng bảo toàn danh tính người dùng mà còn tăng cường sự tương đồng giữa các hình ảnh được tạo ra. Tuy nhiên, việc sử dụng ControlNet trực tiếp để sơn nội vùng có thể gây ra các vấn đề tiềm ẩn có thể bao gồm

  • Sự không nhất quán giữa Hình ảnh đầu vào và Hình ảnh được tạo: Rõ ràng là các điểm chính trong ảnh mẫu không tương thích với các điểm chính trong ảnh face_id, đó là lý do tại sao việc sử dụng ControlNet với hình ảnh face_id làm tham chiếu có thể dẫn đến một số điểm không nhất quán ở đầu ra. 
  • Các khiếm khuyết ở vùng Inpaint: Việc che một vùng rồi sơn lại bằng một khuôn mặt mới có thể dẫn đến những khiếm khuyết đáng chú ý, đặc biệt là dọc theo ranh giới được sơn, điều này không chỉ ảnh hưởng đến tính xác thực của hình ảnh được tạo ra mà còn ảnh hưởng tiêu cực đến tính hiện thực của hình ảnh. 
  • Mất danh tính bởi Control Net: Vì quá trình đào tạo không sử dụng khung ControlNet nên việc sử dụng ControlNet trong giai đoạn can thiệp có thể ảnh hưởng đến khả năng của các mô hình LoRA được đào tạo trong việc duy trì danh tính id người dùng đầu vào. 

Để giải quyết các vấn đề nêu trên, khung EasyPhoto đề xuất ba quy trình. 

  • Căn chỉnh và dán: Bằng cách sử dụng thuật toán dán khuôn mặt, khung EasyPhoto nhằm mục đích giải quyết vấn đề không khớp giữa các điểm mốc trên khuôn mặt giữa id khuôn mặt và mẫu. Đầu tiên, mô hình tính toán các điểm mốc trên khuôn mặt của face_id và hình ảnh mẫu, sau đó mô hình xác định ma trận biến đổi affine sẽ được sử dụng để căn chỉnh các điểm mốc trên khuôn mặt của hình ảnh mẫu với hình ảnh face_id. Hình ảnh thu được vẫn giữ nguyên các mốc của hình ảnh face_id và cũng căn chỉnh với hình ảnh mẫu. 
  • Cầu chì mặt: Face Fuse là một phương pháp tiếp cận mới được sử dụng để sửa các tạo phẩm ranh giới là kết quả của việc vẽ mặt nạ và nó liên quan đến việc chỉnh sửa các tạo tác bằng cách sử dụng khung ControlNet. Phương pháp này cho phép khung EasyPhoto đảm bảo duy trì các cạnh hài hòa và do đó hướng dẫn cuối cùng quá trình tạo hình ảnh. Thuật toán kết hợp khuôn mặt tiếp tục hợp nhất hình ảnh roop (hình ảnh người dùng thực tế) và mẫu, cho phép hình ảnh hợp nhất thu được thể hiện sự ổn định tốt hơn về ranh giới cạnh, sau đó dẫn đến đầu ra được nâng cao trong giai đoạn khuếch tán đầu tiên. 
  • Xác thực có hướng dẫn của ControlNet: Do các mô hình LoRA không được huấn luyện bằng khung ControlNet nên việc sử dụng khung này trong quá trình suy luận có thể ảnh hưởng đến khả năng duy trì danh tính của mô hình LoRA. Để nâng cao khả năng khái quát hóa của EasyPhoto, khung này xem xét ảnh hưởng của khung ControlNet và kết hợp các mô hình LoRA từ các giai đoạn khác nhau. 

Khuếch tán đầu tiên

Giai đoạn phổ biến đầu tiên sử dụng hình ảnh mẫu để tạo hình ảnh có id duy nhất giống với id người dùng đầu vào. Hình ảnh đầu vào là sự kết hợp giữa hình ảnh đầu vào của người dùng và hình ảnh mẫu, trong khi mặt nạ đã hiệu chỉnh là mặt nạ đầu vào. Để tăng cường hơn nữa khả năng kiểm soát việc tạo hình ảnh, khung EasyPhoto tích hợp ba đơn vị ControlNet trong đó đơn vị ControlNet đầu tiên tập trung vào việc kiểm soát các hình ảnh hợp nhất, đơn vị ControlNet thứ hai kiểm soát màu sắc của hình ảnh hợp nhất và đơn vị ControlNet cuối cùng là hình ảnh mở (điều khiển tư thế con người nhiều người theo thời gian thực) của hình ảnh được thay thế không chỉ chứa cấu trúc khuôn mặt của hình ảnh mẫu mà còn chứa cả danh tính khuôn mặt của người dùng.

Khuếch tán thứ hai

Trong giai đoạn khuếch tán thứ hai, các tạo tác gần ranh giới của khuôn mặt được tinh chỉnh và tinh chỉnh cùng với việc cung cấp cho người dùng khả năng linh hoạt để che một vùng cụ thể trong hình ảnh nhằm nâng cao hiệu quả tạo ra trong khu vực chuyên dụng đó. Trong giai đoạn này, khung kết hợp hình ảnh đầu ra thu được từ giai đoạn khuếch tán đầu tiên với hình ảnh roop hoặc kết quả của hình ảnh của người dùng, từ đó tạo ra hình ảnh đầu vào cho giai đoạn khuếch tán thứ hai. Nhìn chung, giai đoạn khuếch tán thứ hai đóng vai trò quan trọng trong việc nâng cao chất lượng tổng thể và chi tiết của hình ảnh được tạo ra. 

ID nhiều người dùng

Một trong những điểm nổi bật của EasyPhoto là hỗ trợ tạo nhiều ID người dùng và hình bên dưới minh họa quy trình xử lý can thiệp cho nhiều ID người dùng trong khung EasyPhoto. 

Để cung cấp hỗ trợ cho việc tạo ID nhiều người dùng, khung EasyPhoto trước tiên thực hiện nhận diện khuôn mặt trên mẫu nhiễu. Sau đó, các mẫu nhiễu này được chia thành nhiều mặt nạ, trong đó mỗi mặt nạ chỉ chứa một khuôn mặt và phần còn lại của hình ảnh được che bằng màu trắng, do đó chia việc tạo ID nhiều người dùng thành một nhiệm vụ đơn giản là tạo ID người dùng riêng lẻ. Sau khi khung tạo hình ảnh ID người dùng, những hình ảnh này sẽ được hợp nhất vào mẫu suy luận, từ đó tạo điều kiện tích hợp liền mạch giữa hình ảnh mẫu với hình ảnh được tạo, cuối cùng mang lại hình ảnh chất lượng cao. 

Thí nghiệm và kết quả

Bây giờ chúng ta đã hiểu về khung EasyPhoto, đã đến lúc chúng ta khám phá hiệu suất của khung EasyPhoto. 

Hình ảnh trên được tạo bởi plugin EasyPhoto và sử dụng mô hình SD dựa trên Kiểu để tạo hình ảnh. Như có thể quan sát, hình ảnh được tạo ra trông chân thực và khá chính xác. 

Hình ảnh được thêm ở trên được tạo bởi khung EasyPhoto bằng mô hình SD dựa trên Comic Style. Có thể thấy, những bức ảnh truyện tranh và những bức ảnh thực tế trông khá chân thực và gần giống với hình ảnh đầu vào dựa trên lời nhắc hoặc yêu cầu của người dùng. 

Hình ảnh được thêm bên dưới được tạo bởi khung EasyPhoto bằng cách sử dụng mẫu Nhiều người. Có thể thấy rõ, hình ảnh được tạo ra rõ ràng, chính xác và giống với ảnh gốc. 

Với sự trợ giúp của EasyPhoto, giờ đây người dùng có thể tạo nhiều loại ảnh chân dung AI hoặc tạo nhiều ID người dùng bằng cách sử dụng các mẫu được giữ nguyên hoặc sử dụng mô hình SD để tạo mẫu suy luận. Những hình ảnh được thêm vào ở trên thể hiện khả năng của khung EasyPhoto trong việc tạo ra những bức ảnh AI đa dạng và chất lượng cao.

Kết luận

Trong bài viết này, chúng ta đã nói về EasyPhoto, một plugin WebUI mới cho phép người dùng cuối tạo ảnh chân dung và hình ảnh AI. Plugin EasyPhoto WebUI tạo ra các bức chân dung AI bằng cách sử dụng các mẫu tùy ý và các ứng dụng hiện tại của EasyPhoto WebUI hỗ trợ các kiểu ảnh khác nhau cũng như nhiều sửa đổi. Ngoài ra, để nâng cao hơn nữa khả năng của EasyPhoto, người dùng có thể linh hoạt tạo hình ảnh bằng mô hình SDXL để tạo ra những hình ảnh ưng ý, chính xác và đa dạng hơn. Khung EasyPhoto sử dụng mô hình cơ sở khuếch tán ổn định kết hợp với mô hình LoRA được huấn luyện trước để tạo ra đầu ra hình ảnh chất lượng cao.

Quan tâm đến trình tạo hình ảnh? Chúng tôi cũng cung cấp một danh sách các Trình tạo ảnh chụp đầu AI tốt nhấtTrình tạo hình ảnh AI tốt nhất dễ sử dụng và không yêu cầu chuyên môn kỹ thuật.

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.