Trí tuệ nhân tạo
Một hệ thống AI có thể làm cho hình ảnh của mọi người trở nên 'đẹp' hơn

Các nhà nghiên cứu từ Trung Quốc đã phát triển một hệ thống nâng cao hình ảnh dựa trên AI mới có khả năng làm cho hình ảnh của một người trở nên 'đẹp' hơn, dựa trên một phương pháp mới để học tăng cường.

Phương pháp mới sử dụng 'mạng dự đoán vẻ đẹp khuôn mặt' để lặp lại các biến thể trên một hình ảnh dựa trên một số yếu tố, trong đó 'ánh sáng' và tư thế mắt có thể là những yếu tố quan trọng. Ở đây, các nguồn ban đầu (ở bên trái của mỗi cột) là từ hệ thống EigenGAN, với các kết quả mới ở bên phải của các nguồn này. Nguồn: https://arxiv.org/pdf/2208.04517.pdf
Kỹ thuật này dựa trên những đổi mới được phát hiện cho Máy phát điện EigenGAN, một dự án khác của Trung Quốc, từ năm 2021, đã đạt được những bước tiến đáng chú ý trong việc xác định và giành quyền kiểm soát đối với sự đa dạng thuộc tính ngữ nghĩa trong không gian tiềm ẩn của Mạng đối thủ sáng tạo (GAN).

Trình tạo EigenGAN 2021 có thể phân chia các khái niệm cấp cao như 'màu tóc' trong không gian tiềm ẩn của mạng đối thủ chung. Công việc mới dựa trên công cụ sáng tạo này để cung cấp một hệ thống có thể 'làm đẹp' hình ảnh nguồn, nhưng không làm thay đổi danh tính dễ nhận biết – một vấn đề trong các phương pháp trước đây. Nguồn: https://arxiv.org/pdf/2104.12476.pdf
Hệ thống sử dụng 'mạng điểm thẩm mỹ' bắt nguồn từ SCUT-FBP5500 (SCUT), một bộ dữ liệu điểm chuẩn năm 2018 để dự đoán vẻ đẹp khuôn mặt, từ Đại học Công nghệ Nam Trung Quốc tại Quảng Châu.

Từ bài báo năm 2018 'SCUT-FBP5500: Bộ dữ liệu điểm chuẩn đa dạng cho dự đoán vẻ đẹp khuôn mặt đa mô hình', đưa ra mạng 'Dự đoán vẻ đẹp khuôn mặt' (FBP) có khả năng xếp hạng khuôn mặt theo mức độ hấp dẫn được cảm nhận, nhưng thực tế không thể biến đổi hoặc 'nâng cấp' khuôn mặt. Nguồn: https://arxiv.org/pdf/1801.06345.pdf
Không giống như dự án mới, dự án năm 2018 không thể thực sự thực hiện các phép biến đổi, nhưng chứa các đánh giá giá trị thuật toán cho 5,500 khuôn mặt, được cung cấp bởi 60 người gắn nhãn giới tính hỗn hợp (tỷ lệ chia 50/50). Chúng đã được tích hợp vào hệ thống mới như một cách hiệu quả người phân biệt đối xử, để thông báo các phép biến đổi có khả năng nâng cao 'độ hấp dẫn' của hình ảnh.
Thật thú vị, giấy mới có tiêu đề Thuộc tính Tạo khuôn mặt da trắng đẹp có thể kiểm soát bằng cách học tăng cường theo hướng thẩm mỹ. Lý do mà tất cả các chủng tộc ngoại trừ người da trắng đều bị loại khỏi hệ thống (cũng xem xét rằng bản thân các nhà nghiên cứu là người Trung Quốc) là do dữ liệu nguồn của SCUT nghiêng đáng kể về nguồn gốc châu Á (4000 phụ nữ/nam châu Á được chia đều, 1500 phụ nữ da trắng được chia đều /nam), làm cho 'người bình thường' trong tập dữ liệu đó có tóc nâu và mắt nâu.
Do đó, để phù hợp với sự thay đổi màu sắc ít nhất trong một chủng tộc, cần phải loại trừ thành phần châu Á khỏi dữ liệu gốc, nếu không sẽ phải trả chi phí đáng kể cho việc tái tạo dữ liệu để phát triển một phương pháp có thể không được đưa ra. Ngoài ra, Sự khác biệt trong nhận thức văn hóa về cái đẹp chắc chắn có nghĩa là các hệ thống như vậy sẽ cần một số mức độ cấu hình địa lý liên quan đến những gì tạo nên 'sự hấp dẫn'.
Thuộc tính thích hợp
Để xác định các yếu tố chính góp phần tạo nên một bức ảnh 'hấp dẫn' của một người, các nhà nghiên cứu cũng đã thử nghiệm tác động của nhiều thay đổi khác nhau đối với hình ảnh, về mức độ hiệu quả của những thay đổi như vậy đã thúc đẩy nhận thức thuật toán về 'vẻ đẹp'. Họ phát hiện ra rằng ít nhất một trong các khía cạnh quan trọng hơn để có được một bức ảnh đẹp hơn là yếu tố di truyền tốt:
Bên cạnh ánh sáng, các khía cạnh có ảnh hưởng lớn nhất đến điểm số sắc đẹp của anh ấy là tóc mái (mà trong trường hợp của nam giới, thường có thể tương đương với việc để cả đầu), tư thế cơ thể và cách nhìn của mắt (nơi tương tác với góc nhìn của máy ảnh là một yếu tố bổ sung cho sự hấp dẫn).
(Về 'màu son môi', hệ thống mới, có thể hoạt động hiệu quả trên cả giới tính nam và nữ, không phân biệt ngoại hình theo giới tính, mà dựa vào hệ thống phân biệt đối xử mới như một 'bộ lọc' về mặt này)
Phương pháp
Chức năng phần thưởng trong cơ chế học tăng cường trong hệ thống mới được hỗ trợ bởi hồi quy đơn giản đối với dữ liệu SCUT, đưa ra các dự đoán về vẻ đẹp khuôn mặt.
Hệ thống đào tạo lặp lại các hình ảnh đầu vào dữ liệu (phía dưới bên trái trong sơ đồ bên dưới). Ban đầu được đào tạo trước ResNet18 người mẫu (được đào tạo về IMAGEnet) trích xuất các tính năng từ năm hình ảnh ('y') giống hệt nhau. Tiếp theo, một hành động biến đổi tiềm năng được bắt nguồn từ trạng thái ẩn của một lớp kết nối đầy đủ (GRUcell, trong hình bên dưới), và các phép biến đổi được áp dụng, dẫn đến năm hình ảnh đã thay đổi được đưa vào mạng điểm thẩm mỹ, thứ hạng của chúng, theo kiểu Darwin, sẽ xác định biến thể nào sẽ được phát triển và biến thể nào sẽ bị loại bỏ.
Mạng điểm thẩm mỹ sử dụng Chú ý kênh hiệu quả (ACE) mô-đun, trong khi điều chỉnh một phiên bản được đào tạo trước của Hiệu quảNet-B4 được giao nhiệm vụ trích xuất 1,792 tính năng từ mỗi hình ảnh.
Sau khi chuẩn hóa thông qua một Chức năng kích hoạt ReLU, vectơ 4 chiều được lấy lại từ mô-đun ECA, sau đó được làm phẳng thành vectơ một chiều sau khi kích hoạt và tổng hợp trung bình thích ứng. Cuối cùng, kết quả được đưa vào mạng hồi quy, lấy điểm thẩm mỹ.

Một so sánh định tính của đầu ra từ hệ thống. Ở hàng dưới cùng, chúng tôi thấy tổng hợp của tất cả các khía cạnh riêng lẻ đã được xác định bằng phương pháp EigenGAN và sau đó được nâng cao. Điểm FID trung bình cho hình ảnh nằm ở bên trái của hàng hình ảnh (cao hơn là tốt hơn).
Kiểm tra và nghiên cứu người dùng
Năm biến thể của phương pháp được đề xuất đã được đánh giá theo thuật toán (xem hình trên), với khoảng cách khởi động Fréchet (FID, gây tranh cãi trong một số quý) điểm được chỉ định cho tổng số 1000 hình ảnh được đưa qua hệ thống.
Các nhà nghiên cứu lưu ý rằng việc cải thiện ánh sáng giúp các đối tượng trong ảnh có điểm số hấp dẫn tốt hơn so với một số thay đổi có thể 'rõ ràng' khác (tức là đối với diện mạo thực của người được miêu tả).
Ở một mức độ nhất định, việc kiểm tra hệ thống theo cách này bị hạn chế bởi độ lệch tâm của dữ liệu SCUT, dữ liệu này không có nhiều 'nụ cười rạng rỡ' và các tác giả cho rằng điều này có thể đánh giá quá cao giao diện 'bí ẩn' điển hình hơn trong dữ liệu, so với sở thích có thể có của người dùng cuối mục tiêu tiềm năng (có lẽ, trong trường hợp này, thị trường phương Tây).
Tuy nhiên, vì toàn bộ hệ thống dựa trên ý kiến trung bình của chỉ 60 người (trong bài báo EigenGAN) và vì chất lượng đang được nghiên cứu khác xa so với thực nghiệm, nên có thể lập luận rằng quy trình này hợp lý hơn bộ dữ liệu.
Mặc dù nó được đề cập rất ngắn gọn trong bài báo, nhưng các hình ảnh từ EigenGAN và năm biến thể riêng của hệ thống cũng được hiển thị trong một nghiên cứu người dùng hạn chế (tám người tham gia), những người được yêu cầu chọn 'hình ảnh đẹp nhất' (từ 'hấp dẫn' là tránh).

Trên đây GUI đã trình bày cho nhóm học nhỏ; dưới đây, kết quả.
Kết quả chỉ ra rằng đầu ra của hệ thống mới đạt được tỷ lệ lựa chọn cao nhất trong số những người tham gia ('MAES' trong hình trên).
Theo đuổi cái đẹp (Vô dụng?)
Tiện ích của một hệ thống như vậy rất khó thiết lập, mặc dù những gì có vẻ là một Nổi bật locus of nỗ lực in Trung Quốc hướng tới những mục tiêu này. Không có gì được phác thảo trong ấn phẩm mới.
Bài báo EigenGAN trước đây gợi ý* rằng một hệ thống nhận dạng sắc đẹp có thể được sử dụng trong chăm sóc da mặt. hệ thống khuyến nghị tổng hợp trang điểm, phẫu thuật thẩm mỹ, làm đẹp khuôn mặthoặc truy xuất hình ảnh dựa trên nội dung.
Có lẽ cách tiếp cận như vậy cũng có thể được người dùng cuối sử dụng trong các trang web hẹn hò để 'nâng cao' ảnh hồ sơ của chính họ thành một 'bức ảnh may mắn' được đảm bảo, như một giải pháp thay thế cho việc sử dụng ảnh hoặc ảnh đã lỗi thời của người khác.
Tương tự như vậy, bản thân các trang web hẹn hò cũng có thể 'chấm điểm' khách hàng của họ để tạo xếp hạng và thậm chí tầng truy cập bị hạn chế, mặc dù điều này có lẽ chỉ hoạt động thông qua chụp xác thực tính xác thực, thay vì ảnh đã gửi (tương tự như vậy, khách hàng có thể 'nâng cao' nếu phương pháp này trở nên phổ biến).
Trong quảng cáo, một phương pháp thuật toán để đánh giá vẻ đẹp (một công nghệ được dự đoán bởi tác giả khoa học viễn tưởng quá cố Michael Crichton trong chuyến đi chơi điện ảnh năm 1982 của ông Người nhìn) có thể được sử dụng để chọn đầu ra sáng tạo không nâng cao có nhiều khả năng thu hút đối tượng mục tiêu nhất, trong khi khả năng thực sự tối đa hóa tác động thẩm mỹ của hình ảnh khuôn mặt mà không thực sự ghi đè chúng theo kiểu deepfake, có thể tăng cường những hình ảnh đã có hiệu quả như mong muốn để thu hút sự quan tâm của công chúng.
Công trình mới được hỗ trợ bởi Quỹ Khoa học Tự nhiên Quốc gia Trung Quốc, Dự án Quỹ Mở của Phòng thí nghiệm Trọng điểm Nhà nước về Quản lý và Kiểm soát Hệ thống Phức hợp, và Dự án Nghiên cứu Khoa học Xã hội và Triết học của Bộ Giáo dục Trung Quốc, trong số những người ủng hộ khác.
* Nhiều đề xuất của bài báo EigenGAN hướng đến một cuốn sách có bán trên thị trường năm 2016 có tiêu đề 'Mô hình máy tính để phân tích vẻ đẹp khuôn mặt', thay vì các tài nguyên học thuật.
Xuất bản lần đầu vào ngày 11 tháng 2022 năm XNUMX.