Trí tuệ nhân tạo
Các Định Danh Thật Có Thể Được Phục Hồi Từ Các Tập Dữ Liệu Tổng Hợp

Nếu năm 2022 đánh dấu thời điểm khi tiềm năng phá vỡ của trí tuệ nhân tạo sinh ra đầu tiên thu hút sự chú ý của công chúng, thì năm 2024 đã trở thành năm khi các câu hỏi về tính hợp pháp của dữ liệu cơ bản của nó đã trở thành trung tâm của các doanh nghiệp渴望 khai thác sức mạnh của nó.
Đạo luật sử dụng hợp lý của Mỹ, cùng với giấy phép học thuật ngầm đã cho phép các lĩnh vực nghiên cứu học thuật và thương mại khám phá trí tuệ nhân tạo sinh ra, đã trở nên không thể chấp nhận được khi bằng chứng về việc sao chép tăng lên. Sau đó, Mỹ đã, trong thời gian này, không cho phép nội dung được tạo ra bởi AI được bản quyền.
Những vấn đề này còn lâu mới được giải quyết và còn lâu mới được giải quyết một cách sắp xảy ra; vào năm 2023, một phần do sự quan tâm ngày càng tăng của truyền thông và công chúng về tình trạng pháp lý của đầu ra AI, Văn phòng Bản quyền Mỹ đã khởi xướng một cuộc điều tra kéo dài nhiều năm về khía cạnh này của trí tuệ nhân tạo sinh ra, xuất bản phần đầu tiên (liên quan đến bản sao kỹ thuật số) vào tháng 7 năm 2024.
Trong khi đó, các lợi ích kinh doanh vẫn còn bối rối bởi khả năng rằng các mô hình tốn kém mà họ muốn khai thác có thể khiến họ phải đối mặt với các hậu quả pháp lý khi luật và định nghĩa cuối cùng xuất hiện.
Giải pháp ngắn hạn tốn kém đã là hợp pháp hóa các mô hình sinh ra bằng cách đào tạo chúng trên dữ liệu mà các công ty có quyền khai thác. Kiến trúc Firefly của Adobe, từ văn bản sang hình ảnh (và hiện tại là văn bản sang video), được cung cấp chủ yếu bởi việc mua lại tập dữ liệu hình ảnh stock Fotolia vào năm 2014, được bổ sung bởi việc sử dụng dữ liệu miền công cộng đã hết bản quyền*.
Đồng thời, các nhà cung cấp ảnh stock hiện có như Getty và Shutterstock đã tận dụng giá trị mới của dữ liệu được cấp phép của họ, với số lượng ngày càng tăng các thỏa thuận cấp phép nội dung hoặc phát triển các hệ thống GenAI tuân thủ IP của riêng họ.
Giải Pháp Tổng Hợp
Kể từ khi loại bỏ dữ liệu có bản quyền khỏi không gian tiềm ẩn của mô hình AI là một vấn đề đầy thách thức, những sai lầm trong lĩnh vực này có thể rất tốn kém cho các công ty thí nghiệm với các giải pháp tiêu dùng và kinh doanh sử dụng học máy.
Một giải pháp thay thế, và rẻ hơn nhiều cho các hệ thống tầm nhìn máy tính (và cũng cho các Mô Hình Ngôn Ngữ Lớn, hoặc LLM), là sử dụng dữ liệu tổng hợp, nơi tập dữ liệu được tạo thành từ các ví dụ được tạo ngẫu nhiên của miền mục tiêu (chẳng hạn như khuôn mặt, mèo, nhà thờ, hoặc thậm chí là một tập dữ liệu tổng quát hơn).
Các trang web như thispersondoesnotexist.com đã phổ biến ý tưởng rằng các ảnh chụp chân thực của ‘người không thực’ có thể được tổng hợp (trong trường hợp cụ thể này, thông qua Mạng Đối Nghịch Sinh, hoặc GAN) mà không liên quan đến những người thực sự tồn tại trong thế giới thực.
Do đó, nếu bạn đào tạo một hệ thống nhận dạng khuôn mặt hoặc một hệ thống sinh ra trên các ví dụ trừu tượng và không thực này, bạn có thể về lý thuyết đạt được một tiêu chuẩn sản xuất chân thực cho mô hình AI mà không cần xem xét liệu dữ liệu có được sử dụng hợp pháp hay không.
Sự Cân Bằng
Vấn đề là các hệ thống tạo ra dữ liệu tổng hợp chính chúng được đào tạo trên dữ liệu thực. Nếu các dấu vết của dữ liệu đó渗透 vào dữ liệu tổng hợp, điều này có thể cung cấp bằng chứng rằng vật liệu bị hạn chế hoặc không được ủy quyền đã được khai thác để thu lợi.
Để tránh điều này, và để tạo ra hình ảnh ‘ngẫu nhiên’ thực sự, các mô hình này cần đảm bảo rằng chúng được tổng quát hóa tốt. Tổng quát hóa là thước đo khả năng của mô hình AI được đào tạo để hiểu các khái niệm cấp cao (chẳng hạn như ‘khuôn mặt’, ‘người đàn ông’, hoặc ‘phụ nữ’) mà không cần sao chép dữ liệu đào tạo thực tế.
Thật không may, nó có thể khó khăn cho các hệ thống được đào tạo để tạo ra (hoặc nhận ra) chi tiết hạt nhân trừ khi nó được đào tạo rộng rãi trên một tập dữ liệu. Điều này khiến hệ thống dễ bị tổn thương bởi xu hướng ghi nhớ: một xu hướng để sao chép, ở một mức độ nào đó, các ví dụ của dữ liệu đào tạo thực tế.
Điều này có thể được giảm thiểu bằng cách đặt một tốc độ học tập thoải mái hơn, hoặc bằng cách kết thúc đào tạo tại một giai đoạn mà các khái niệm cốt lõi vẫn còn linh hoạt và không liên quan đến bất kỳ điểm dữ liệu cụ thể nào (chẳng hạn như một hình ảnh cụ thể của một người, trong trường hợp của một tập dữ liệu khuôn mặt).
Tuy nhiên, cả hai biện pháp này có thể dẫn đến các mô hình có ít chi tiết hạt nhân hơn, vì hệ thống không có cơ hội tiến bộ vượt quá ‘cơ bản’ của miền mục tiêu, và xuống đến các chi tiết cụ thể.
Do đó, trong tài liệu khoa học, các tốc độ học tập rất cao và lịch trình đào tạo toàn diện thường được áp dụng. Mặc dù các nhà nghiên cứu thường cố gắng tìm sự cân bằng giữa khả năng áp dụng rộng rãi và hạt nhân trong mô hình cuối cùng, nhưng ngay cả các hệ thống ‘ghi nhớ’ một chút cũng có thể tự giới thiệu mình như là tổng quát hóa tốt – ngay cả trong các thử nghiệm ban đầu.
Khám Phá Khuôn Mặt
Điều này đưa chúng ta đến một bài báo mới thú vị từ Thụy Sĩ, cho rằng đây là bài báo đầu tiên chứng minh rằng các hình ảnh thực ban đầu powers dữ liệu tổng hợp có thể được phục hồi từ các hình ảnh được tạo ra mà lý thuyết nên hoàn toàn ngẫu nhiên:

Ví dụ về các hình ảnh khuôn mặt bị rò rỉ từ dữ liệu đào tạo. Ở hàng trên, chúng ta thấy các hình ảnh thực (thực); ở hàng dưới, chúng ta thấy các hình ảnh được tạo ra ngẫu nhiên, phù hợp đáng kể với các hình ảnh thực. Nguồn: https://arxiv.org/pdf/2410.24015
Kết quả, các tác giả cho rằng, cho thấy rằng ‘tổng hợp’ các máy sinh có thực sự ghi nhớ rất nhiều điểm dữ liệu đào tạo, trong việc tìm kiếm sự hạt nhân hơn. Họ cũng cho thấy rằng các hệ thống dựa vào dữ liệu tổng hợp để bảo vệ các nhà sản xuất AI khỏi các hậu quả pháp lý có thể rất không đáng tin cậy trong khía cạnh này.
Các nhà nghiên cứu đã thực hiện một nghiên cứu rộng rãi trên sáu tập dữ liệu tổng hợp hiện đại, chứng minh rằng trong tất cả các trường hợp, dữ liệu thực (có thể được bản quyền hoặc bảo vệ) có thể được phục hồi. Họ nhận xét:
‘Các thí nghiệm của chúng tôi chứng minh rằng các tập dữ liệu tổng hợp nhận dạng khuôn mặt hiện đại chứa các mẫu rất gần với các mẫu trong dữ liệu đào tạo của các mô hình sinh. Trong một số trường hợp, các mẫu tổng hợp chứa các thay đổi nhỏ đối với hình ảnh gốc, tuy nhiên, chúng tôi cũng có thể quan sát thấy trong một số trường hợp mẫu được tạo ra chứa nhiều biến thể (ví dụ, tư thế khác, điều kiện ánh sáng, v.v.) trong khi danh tính được bảo tồn.
‘Điều này cho thấy rằng các mô hình sinh đang học và ghi nhớ thông tin liên quan đến danh tính từ dữ liệu đào tạo và có thể tạo ra các danh tính tương tự. Điều này tạo ra các mối quan tâm quan trọng về việc áp dụng dữ liệu tổng hợp trong các nhiệm vụ nhạy cảm về quyền riêng tư, chẳng hạn như sinh trắc học và nhận dạng khuôn mặt.’
Bài báo này có tiêu đề Khám Phá Khuôn Mặt Tổng Hợp: Làm Thế Nào Các Tập Dữ Liệu Tổng Hợp Có Thể Tiết Lộ Danh Tính Thật, và đến từ hai nhà nghiên cứu trên Viện Nghiên cứu Idiap tại Martigny, École Polytechnique Fédérale de Lausanne (EPFL), và Université de Lausanne (UNIL) tại Lausanne.
Phương Pháp, Dữ Liệu và Kết Quả
Các khuôn mặt ghi nhớ trong nghiên cứu này đã được tiết lộ bởi Tấn Công Thành Viên. Mặc dù khái niệm này có vẻ phức tạp, nhưng nó khá dễ hiểu: suy luận thành viên, trong trường hợp này, đề cập đến quá trình đặt câu hỏi cho hệ thống cho đến khi nó tiết lộ dữ liệu phù hợp với dữ liệu bạn đang tìm kiếm, hoặc tương tự đáng kể.

Các ví dụ khác về dữ liệu nguồn được suy luận, từ nghiên cứu. Trong trường hợp này, các hình ảnh tổng hợp nguồn đến từ tập dữ liệu DCFace.
Các nhà nghiên cứu đã nghiên cứu sáu tập dữ liệu tổng hợp mà nguồn (thực) được biết. Vì cả tập dữ liệu thực và tổng hợp trong câu hỏi đều chứa một lượng lớn hình ảnh, điều này hiệu quả như tìm kiếm một chiếc kim trong một đống rơm.
Do đó, các tác giả đã sử dụng một mô hình nhận dạng khuôn mặt sẵn có† với một ResNet100 với lưng được đào tạo trên AdaFace hàm mất mát (trên WebFace12M tập dữ liệu).
Sáu tập dữ liệu tổng hợp được sử dụng là: DCFace (mô hình khuếch tán tiềm ẩn); IDiff-Face (Đồng đều – một mô hình khuếch tán dựa trên FFHQ); IDiff-Face (Hai giai đoạn – một biến thể sử dụng phương pháp lấy mẫu khác); GANDiffFace (dựa trên Mạng Đối Nghịch Sinh và Mô Hình Khuếch Tán, sử dụng StyleGAN3 để tạo ra các danh tính ban đầu, và sau đó DreamBooth để tạo ra các ví dụ đa dạng); IDNet (một phương pháp GAN, dựa trên StyleGAN-ADA); và SFace (một khuôn khổ bảo vệ danh tính).
Vì GANDiffFace sử dụng cả GAN và phương pháp khuếch tán, nó đã được so sánh với tập dữ liệu đào tạo của StyleGAN – gần nhất với ‘nguồn khuôn mặt thực’ mà mạng này cung cấp.
Các tác giả đã loại trừ các tập dữ liệu tổng hợp sử dụng CGI thay vì phương pháp AI, và trong việc đánh giá kết quả, đã loại bỏ các trận đấu cho trẻ em, do các bất thường phân phối trong khía cạnh này, cũng như các hình ảnh không phải khuôn mặt (điều này có thể xảy ra thường xuyên trong các tập dữ liệu khuôn mặt, nơi các hệ thống thu thập web tạo ra các kết quả dương tính giả cho các đối tượng hoặc hiện tượng có đặc điểm khuôn mặt).
Tương tự cosine đã được tính toán cho tất cả các cặp được thu hồi, và được kết hợp vào các biểu đồ histogram, được minh họa dưới đây:

Một biểu đồ histogram cho các điểm tương tự cosine được tính toán trên các tập dữ liệu đa dạng, cùng với các giá trị tương tự của chúng cho các cặp hàng đầu (đường thẳng đứng đứt đoạn).
Số lượng tương tự được thể hiện trong các đỉnh của biểu đồ trên. Bài báo cũng có các so sánh mẫu từ sáu tập dữ liệu, và các hình ảnh ước tính tương ứng trong các tập dữ liệu thực (thực), trong đó một số lựa chọn được trình bày dưới đây:

Các mẫu từ nhiều trường hợp được tái tạo trong bài báo nguồn, mà người đọc được giới thiệu để có một lựa chọn toàn diện hơn.
Bài báo nhận xét:
‘[Các] tập dữ liệu tổng hợp được tạo ra chứa các hình ảnh rất giống với các mẫu trong tập dữ liệu đào tạo của mô hình sinh, điều này gây ra mối quan tâm về việc tạo ra các danh tính như vậy.’
Các tác giả lưu ý rằng đối với phương pháp này, việc mở rộng quy mô lên các tập dữ liệu lớn hơn có thể không hiệu quả, vì tính toán cần thiết sẽ rất tốn kém. Họ quan sát thêm rằng so sánh trực quan là cần thiết để suy luận các trận đấu, và rằng nhận dạng khuôn mặt tự động alone sẽ không có khả năng đủ cho một nhiệm vụ lớn hơn.
Về các ý nghĩa của nghiên cứu, và với tầm nhìn về con đường phía trước, công việc cho biết:
‘[Chúng tôi] muốn nhấn mạnh rằng động lực chính để tạo ra các tập dữ liệu tổng hợp là để giải quyết các mối quan tâm về quyền riêng tư khi sử dụng các tập dữ liệu khuôn mặt thu thập từ web lớn. ‘
‘Do đó, việc rò rỉ bất kỳ thông tin nhạy cảm nào (chẳng hạn như danh tính của hình ảnh thực trong dữ liệu đào tạo) trong tập dữ liệu tổng hợp tạo ra các mối quan tâm quan trọng về việc áp dụng dữ liệu tổng hợp cho các nhiệm vụ nhạy cảm về quyền riêng tư, chẳng hạn như sinh trắc học. Nghiên cứu của chúng tôi làm sáng tỏ các cạm bẫy về quyền riêng tư trong việc tạo ra các tập dữ liệu nhận dạng khuôn mặt tổng hợp và mở ra con đường cho các nghiên cứu trong tương lai về việc tạo ra các tập dữ liệu tổng hợp khuôn mặt có trách nhiệm.’
Mặc dù các tác giả hứa sẽ phát hành mã cho công việc này tại trang dự án, nhưng hiện tại không có liên kết kho lưu trữ.
Kết Luận
Gần đây, sự chú ý của truyền thông đã nhấn mạnh vào sự giảm dần thu được bằng cách đào tạo các mô hình AI trên dữ liệu được tạo ra bởi AI.
Tuy nhiên, nghiên cứu mới của Thụy Sĩ này mang lại một sự xem xét có thể quan trọng hơn cho số lượng ngày càng tăng các công ty muốn khai thác và lợi dụng trí tuệ nhân tạo sinh ra – sự tồn tại của các mẫu dữ liệu được bảo vệ bởi bản quyền hoặc không được ủy quyền, ngay cả trong các tập dữ liệu được thiết kế để chống lại việc thực hành này. Nếu chúng ta phải định nghĩa nó, trong trường hợp này nó có thể được gọi là ‘rửa mặt’.
* Tuy nhiên, quyết định của Adobe cho phép người dùng tải lên hình ảnh được tạo ra bởi AI lên Adobe Stock đã hiệu quả地下minh bạch dữ liệu này. Bloomberg cho rằng vào tháng 4 năm 2024 rằng hình ảnh được tạo ra bởi người dùng từ hệ thống sinh ra MidJourney đã được kết hợp vào khả năng của Firefly.
† Mô hình này không được xác định trong bài báo.
Được xuất bản lần đầu vào thứ Tư, ngày 6 tháng 11 năm 2024












