Connect with us

Hệ Thống Trí Tuệ Nhân Tạo Có Thể Làm Cho Hình Ảnh Của Người Trở Nên ‘Đẹp Hơn’

Trí tuệ nhân tạo

Hệ Thống Trí Tuệ Nhân Tạo Có Thể Làm Cho Hình Ảnh Của Người Trở Nên ‘Đẹp Hơn’

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Các nhà nghiên cứu từ Trung Quốc đã phát triển một hệ thống nâng cao hình ảnh dựa trên trí tuệ nhân tạo mới, có khả năng làm cho hình ảnh của một người trở nên ‘đẹp hơn’, dựa trên một cách tiếp cận mới để học tăng cường.

Cách tiếp cận mới sử dụng một 'mạng lưới dự đoán vẻ đẹp khuôn mặt' để lặp qua các biến thể trên một hình ảnh dựa trên một số yếu tố, trong đó 'ánh sáng' và tư thế mắt có thể là các yếu tố quan trọng. Ở đây, nguồn gốc ban đầu (ở bên trái của mỗi cột) là từ hệ thống EigenGAN, với kết quả mới ở bên phải của chúng. Nguồn: https://arxiv.org/pdf/2208.04517.pdf

Cách tiếp cận mới sử dụng một ‘mạng lưới dự đoán vẻ đẹp khuôn mặt’ để lặp qua các biến thể trên một hình ảnh dựa trên một số yếu tố, trong đó ‘ánh sáng’ và tư thế mắt có thể là các yếu tố quan trọng. Ở đây, nguồn gốc ban đầu (ở bên trái của mỗi cột) là từ hệ thống EigenGAN, với kết quả mới ở bên phải của chúng. Nguồn: https://arxiv.org/pdf/2208.04517.pdf

Kỹ thuật này dựa trên các đổi mới được phát hiện cho bộ tạo EigenGAN, một dự án khác của Trung Quốc, từ năm 2021, đã đạt được những bước tiến đáng kể trong việc xác định và kiểm soát một số thuộc tính ngữ nghĩa đa dạng trong không gian tiềm ẩn của Mạng đối nghịch tạo (GAN).

Bộ tạo EigenGAN năm 2021 đã có thể xác định các khái niệm cấp cao như 'màu tóc' trong không gian tiềm ẩn của một mạng đối nghịch tạo. Công việc mới xây dựng trên công cụ sáng tạo này để cung cấp một hệ thống có thể 'làm đẹp' hình ảnh nguồn, nhưng không thay đổi bản sắc có thể nhận ra – một vấn đề trong các cách tiếp cận trước đó.

Bộ tạo EigenGAN năm 2021 đã có thể xác định các khái niệm cấp cao như ‘màu tóc’ trong không gian tiềm ẩn của một mạng đối nghịch tạo. Công việc mới xây dựng trên công cụ sáng tạo này để cung cấp một hệ thống có thể ‘làm đẹp’ hình ảnh nguồn, nhưng không thay đổi bản sắc có thể nhận ra – một vấn đề trong các cách tiếp cận trước đó. Nguồn: https://arxiv.org/pdf/2104.12476.pdf

Hệ thống sử dụng một ‘mạng lưới điểm thẩm mỹ’ được dẫn xuất từ SCUT-FBP5500 (SCUT), một tập dữ liệu chuẩn mực năm 2018 cho dự đoán vẻ đẹp khuôn mặt, từ Đại học Công nghệ Nam Trung Quốc tại Quảng Châu.

Từ bài báo năm 2018 'SCUT-FBP5500: Một tập dữ liệu chuẩn mực đa dạng cho dự đoán vẻ đẹp khuôn mặt đa hình thức', đã cung cấp một 'mạng lưới dự đoán vẻ đẹp khuôn mặt' (FBP) có khả năng xếp hạng khuôn mặt theo mức độ hấp dẫn được nhận thức, nhưng không thể thực sự chuyển đổi hoặc 'nâng cấp' khuôn mặt.

Từ bài báo năm 2018 ‘SCUT-FBP5500: Một tập dữ liệu chuẩn mực đa dạng cho dự đoán vẻ đẹp khuôn mặt đa hình thức’, đã cung cấp một ‘mạng lưới dự đoán vẻ đẹp khuôn mặt’ (FBP) có khả năng xếp hạng khuôn mặt theo mức độ hấp dẫn được nhận thức, nhưng không thể thực sự chuyển đổi hoặc ‘nâng cấp’ khuôn mặt. Nguồn: https://arxiv.org/pdf/1801.06345.pdf

Không giống như công việc mới, dự án năm 2018 không thể thực sự thực hiện các chuyển đổi, nhưng chứa các phán quyết giá trị thuật toán cho 5.500 khuôn mặt, được cung cấp bởi 60 người ghi nhãn giới tính hỗn hợp (chia đều 50/50). Những điều này đã được kết hợp vào hệ thống mới như một bộ phân biệt hiệu quả, để thông báo các chuyển đổi có khả năng tăng cường ‘hấp dẫn’ của một hình ảnh.

Thật thú vị, bài báo mới có tiêu đề Sự tạo ra khuôn mặt người da trắng đẹp có thể kiểm soát thuộc tính bằng cách học tăng cường theo hướng thẩm mỹ. Lý do tại sao tất cả các chủng tộc ngoại trừ người da trắng bị loại khỏi hệ thống (cũng xem xét rằng các nhà nghiên cứu chính họ là người Trung Quốc) là vì dữ liệu nguồn cho SCUT nghiêng đáng kể về nguồn gốc châu Á (4.000 người châu Á chia đều nam và nữ, 1.500 người da trắng chia đều nam và nữ), khiến ‘người trung bình’ trong tập dữ liệu đó có tóc nâu và mắt nâu.

Do đó, để phù hợp với sự thay đổi màu sắc ít nhất trong một chủng tộc, nó là cần thiết để loại bỏ thành phần châu Á từ dữ liệu ban đầu, hoặc đi đến chi phí đáng kể để tái cấu trúc dữ liệu để phát triển một phương pháp có thể không thành công. Ngoài ra, sự thay đổi trong nhận thức văn hóa về vẻ đẹp inevitably có nghĩa là những hệ thống như vậy sẽ cần một số mức độ cấu hình địa lý về những gì cấu thành ‘hấp dẫn’.

Thuộc tính quan trọng

Để xác định các yếu tố đóng góp chính cho một ‘hình ảnh hấp dẫn’ của một người, các nhà nghiên cứu cũng đã thử nghiệm tác động của các thay đổi khác nhau đối với hình ảnh, về mức độ mà những thay đổi như vậy tăng cường nhận thức về ‘vẻ đẹp’ của thuật toán. Họ phát hiện ra rằng ít nhất một trong những khía cạnh này quan trọng hơn đối với nhiếp ảnh tốt hơn là di truyền học tốt:

Ngoài ánh sáng, các khía cạnh có tác động lớn nhất đến điểm số vẻ đẹp là tóc mái (đối với nam giới, điều này thường tương đương với việc có một mái tóc đầy đủ), tư thế cơ thể và sự sắp xếp mắt (trong đó, sự tương tác với điểm nhìn của máy ảnh là một yếu tố quan trọng cho sự hấp dẫn).

(Về ‘màu son môi’, hệ thống mới, có thể hoạt động hiệu quả trên cả hình ảnh nam và nữ, không phân biệt ngoại hình giới tính, mà thay vào đó dựa trên hệ thống phân biệt mới như một ‘bộ lọc’ trong khía cạnh này)

Phương pháp

Hàm số phần thưởng trong cơ chế học tăng cường trong hệ thống mới được cung cấp bởi một hồi quy đơn giản trên dữ liệu SCUT, xuất ra dự đoán vẻ đẹp khuôn mặt.

Hệ thống đào tạo lặp lại trên các hình ảnh đầu vào (phía dưới bên trái trong sơ đồ dưới đây). Ban đầu, một mô hình ResNet18 đã được đào tạo trước (đào tạo trên ImageNet) trích xuất các tính năng từ năm hình ảnh giống hệt (‘y’). Tiếp theo, một hành động chuyển đổi tiềm năng được dẫn xuất từ trạng thái ẩn của một lớp kết nối đầy đủ (GRUCell, trong hình ảnh dưới), và các chuyển đổi được áp dụng, dẫn đến năm hình ảnh thay đổi được đưa vào mạng lưới điểm thẩm mỹ, mà thứ hạng, theo phong cách Darwin, sẽ quyết định những biến thể nào sẽ được phát triển và những biến thể nào sẽ bị loại bỏ.

Một minh họa rộng về quy trình công việc cho hệ thống mới.

Một minh họa về quy trình công việc cho hệ thống mới.

Mạng lưới điểm thẩm mỹ sử dụng một mô-đun Chú ý kênh hiệu quả (ECA), trong khi một phiên bản được điều chỉnh trước của EfficientNet-B4 được giao nhiệm vụ trích xuất 1.792 tính năng từ mỗi hình ảnh.

Sau khi chuẩn hóa thông qua một hàm kích hoạt ReLU, một vectơ 4 chiều được nhận lại từ mô-đun ECA, sau đó được làm phẳng thành một vectơ một chiều sau khi kích hoạt và làm池 trung bình thích ứng. Cuối cùng, kết quả được đưa vào mạng hồi quy, nơi nhận lại điểm thẩm mỹ.

Một so sánh định tính về đầu ra của hệ thống. Ở hàng dưới, chúng ta thấy tổng hợp của tất cả các khía cạnh được xác định bởi phương pháp EigenGAN và sau đó được nâng cao. Điểm FID trung bình cho hình ảnh ở bên trái của các hàng (cao hơn là tốt hơn).

Một so sánh định tính về đầu ra của hệ thống. Ở hàng dưới, chúng ta thấy tổng hợp của tất cả các khía cạnh được xác định bởi phương pháp EigenGAN và sau đó được nâng cao. Điểm FID trung bình cho hình ảnh ở bên trái của các hàng (cao hơn là tốt hơn).

Thử nghiệm và nghiên cứu người dùng

Năm biến thể của phương pháp được đề xuất đã được đánh giá thuật toán (xem hình ảnh trên), với điểm Fréchet inception distance (FID, được tranh luận ở một số góc độ) được gán cho tổng cộng 1000 hình ảnh được đưa qua hệ thống.

Các nhà nghiên cứu lưu ý rằng việc cải thiện ánh sáng đã đạt được điểm số hấp dẫn tốt hơn cho các đối tượng trong ảnh so với một số thay đổi khác có thể xảy ra (ví dụ: đối với ngoại hình thực tế của người được mô tả).

Để một mức độ nhất định, việc thử nghiệm hệ thống theo cách này bị giới hạn bởi những đặc điểm của dữ liệu SCUT, không có nhiều ‘nụ cười rạng rỡ’, và các tác giả cho rằng điều này có thể quá mức đánh giá cao cái nhìn ‘huyền bí’ trong dữ liệu, so với sở thích có thể của người dùng cuối mục tiêu (presumably, trong trường hợp này, một thị trường phương Tây).

Tuy nhiên, vì toàn bộ hệ thống dựa trên ý kiến trung bình của chỉ 60 người (trong bài báo EigenGAN), và vì chất lượng được nghiên cứu không phải là thực nghiệm, nó có thể được cho là quy trình này là âm thanh hơn so với tập dữ liệu.

Mặc dù nó được đề cập rất ngắn gọn trong bài báo, nhưng hình ảnh từ EigenGAN và năm biến thể của hệ thống cũng được hiển thị trong một nghiên cứu người dùng hạn chế (8 người tham gia), những người được yêu cầu chọn ‘hình ảnh tốt nhất’ (từ ‘hấp dẫn’ đã được tránh).

Trên, giao diện được trình bày cho nhóm nghiên cứu nhỏ; dưới, kết quả.

Trên, giao diện được trình bày cho nhóm nghiên cứu nhỏ; dưới, kết quả.

Kết quả chỉ ra rằng đầu ra của hệ thống mới đạt được tỷ lệ lựa chọn cao nhất trong số người tham gia (‘MAES’ trong hình ảnh trên).

Sự theo đuổi vẻ đẹp (vô định hướng?)

Tiện ích của một hệ thống như vậy là khó thiết lập, mặc dù dường như có một nơi đáng kể của nỗ lực trong trong Trung Quốc hướng tới những mục tiêu này. Không có mục tiêu nào được phác thảo trong bài báo mới.

Bài báo EigenGAN trước đó gợi ý* rằng một hệ thống nhận dạng vẻ đẹp có thể được sử dụng trong các hệ thống tổng hợp trang điểm khuôn mặt, phẫu thuật thẩm mỹ, làm đẹp khuôn mặt, hoặc tìm kiếm hình ảnh dựa trên nội dung.

Có thể một cách tiếp cận như vậy cũng có thể được sử dụng trong các trang web hẹn hò, bởi người dùng, để ‘nâng cao’ hình ảnh hồ sơ của họ thành một ‘khoảnh khắc may mắn’ được đảm bảo, như một thay thế cho việc sử dụng hình ảnh cũ hoặc hình ảnh của người khác.

Tương tự, các trang web hẹn hò cũng có thể ‘đánh giá’ khách hàng của họ để tạo ra xếp hạng và thậm chí các cấp độ truy cập hạn chế, mặc dù điều này có thể chỉ hoạt động thông qua quá trình xác thực sinh trắc học, chứ không phải hình ảnh được gửi (cũng có thể được ‘nâng cao’ bởi khách hàng, nếu cách tiếp cận này trở nên phổ biến).

Trong quảng cáo, một phương pháp thuật toán để đánh giá vẻ đẹp (một công nghệ được dự đoán bởi nhà văn khoa học viễn tưởng quá cố Michael Crichton trong bộ phim năm 1982 Looker) có thể được sử dụng để chọn đầu ra sáng tạo không được tăng cường có khả năng tham gia khán giả mục tiêu cao nhất, trong khi khả năng tối đa hóa tác động thẩm mỹ của hình ảnh khuôn mặt, mà không ghi đè lên chúng theo phong cách của deepfakes, có thể tăng cường hình ảnh hiệu quả đã có sẵn nhằm thu hút sự quan tâm của công chúng.

Công việc mới được hỗ trợ bởi Quỹ Khoa học Tự nhiên Quốc gia Trung Quốc, Dự án Mở của Phòng thí nghiệm Nhà nước về Quản lý và Kiểm soát Hệ thống Phức tạp, và Dự án Nghiên cứu Triết học và Khoa học Xã hội từ Bộ Giáo dục Trung Quốc, cùng với các nhà tài trợ khác.

 

* Nhiều khuyến nghị của bài báo EigenGAN chỉ ra một cuốn sách thương mại có sẵn năm 2016 có tiêu đề ‘Mô hình máy tính cho phân tích vẻ đẹp khuôn mặt’, chứ không phải tài nguyên học thuật.

Được xuất bản lần đầu vào ngày 11 tháng 8 năm 2022.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]