sơ khai Các mô hình Deep Learning có thể gặp khó khăn trong việc nhận dạng hình ảnh do AI tạo - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Các mô hình học sâu có thể gặp khó khăn trong việc nhận dạng hình ảnh do AI tạo

mm
cập nhật on

Các phát hiện từ một bài báo mới chỉ ra rằng AI tiên tiến có khả năng nhận dạng và giải thích các hình ảnh do AI tổng hợp kém hơn đáng kể so với con người. Điều này có thể gây lo ngại trong bối cảnh sắp tới, nơi các mô hình học máy ngày càng được đào tạo về dữ liệu tổng hợp, và nơi không nhất thiết phải biết liệu dữ liệu có 'thực' hay không.

Ở đây, chúng ta thấy mô hình dự đoán resnext101_32x8d_wsl đang gặp khó khăn trong danh mục 'bagel'. Trong các thử nghiệm, lỗi nhận dạng được coi là đã xảy ra nếu từ mục tiêu cốt lõi (trong trường hợp này là 'bánh mì tròn') không xuất hiện trong năm kết quả dự đoán hàng đầu. Nguồn: https://arxiv.org/pdf/2208.10760.pdf

Ở đây, chúng ta thấy mô hình dự đoán resnext101_32x8d_wsl đang gặp khó khăn trong danh mục 'bagel'. Trong các thử nghiệm, lỗi nhận dạng được coi là đã xảy ra nếu từ mục tiêu cốt lõi (trong trường hợp này là 'bánh mì tròn') không xuất hiện trong năm kết quả dự đoán hàng đầu. Nguồn: https://arxiv.org/pdf/2208.10760.pdf

Nghiên cứu mới đã thử nghiệm hai loại khung nhận dạng dựa trên thị giác máy tính: nhận dạng đối tượng và trả lời câu hỏi trực quan (VQA).

Ở bên trái, suy luận thành công và thất bại từ một hệ thống nhận dạng đối tượng; ở bên phải, các tác vụ VQA được thiết kế để thăm dò sự hiểu biết của AI về cảnh và hình ảnh theo cách khám phá và quan trọng hơn. Nguồn: https://arxiv.org/pdf/2105.05312.pdf và https://arxiv.org/pdf/1505.00468.pdf

Ở bên trái, suy luận thành công và thất bại từ một hệ thống nhận dạng đối tượng; ở bên phải, các tác vụ VQA được thiết kế để thăm dò sự hiểu biết của AI về cảnh và hình ảnh theo cách khám phá và quan trọng hơn. Nguồn: https://arxiv.org/pdf/2105.05312.pdf và https://arxiv.org/pdf/1505.00468.pdf

Trong số mười mô hình hiện đại được thử nghiệm trên các bộ dữ liệu được quản lý do các khung tổng hợp hình ảnh tạo ra DALL-E2midjourney, mô hình hoạt động tốt nhất chỉ có thể đạt được độ chính xác top 60 là 80% và 5% trên hai loại thử nghiệm, trong khi Hình ảnhNet, được đào tạo trên dữ liệu trong thế giới thực, không tổng hợp, có thể đạt được lần lượt 91% và 99% trong cùng loại, trong khi hiệu suất của con người thường cao hơn đáng kể.

Giải quyết các vấn đề xung quanh sự thay đổi phân phối (hay còn gọi là 'Trôi mô hình', trong đó các mô hình dự đoán bị giảm khả năng dự đoán khi chuyển từ dữ liệu đào tạo sang dữ liệu 'thực'), bài báo nêu rõ:

'Con người có thể nhận ra những hình ảnh được tạo ra và trả lời các câu hỏi về chúng một cách dễ dàng. Chúng tôi kết luận rằng a) các mô hình sâu gặp khó khăn trong việc hiểu nội dung được tạo và có thể hoạt động tốt hơn sau khi tinh chỉnh và b) có sự thay đổi phân phối lớn giữa hình ảnh được tạo và ảnh thực. Sự thay đổi phân phối dường như phụ thuộc vào danh mục.'

Với khối lượng hình ảnh tổng hợp đã tràn ngập internet sau sự kiện tuần trước nguồn mở giật gân của những người mạnh mẽ Khuếch tán ổn định mô hình tổng hợp khuếch tán tiềm ẩn, khả năng phát sinh một cách tự nhiên là hình ảnh 'giả mạo' tràn vào các bộ dữ liệu tiêu chuẩn của ngành, chẳng hạn như Thu thập thông tin chung, các biến thể về độ chính xác qua các năm có thể bị ảnh hưởng đáng kể bởi các hình ảnh 'không thực'.

Mặc dù dữ liệu tổng hợp đã được báo trước với tư cách là vị cứu tinh tiềm năng của lĩnh vực nghiên cứu thị giác máy tính thiếu dữ liệu, thường thiếu tài nguyên và ngân sách cho việc quản lý siêu cấp, dòng hình ảnh khuếch tán ổn định mới (cùng với sự gia tăng chung của hình ảnh tổng hợp kể từ khi ra đời và thương mại hóa of DALL-E2) dường như không đi kèm với các nhãn, chú thích và thẻ bắt đầu bằng # tiện dụng để phân biệt chúng là 'giả mạo' ở điểm mà các hệ thống thị giác máy tham lam sẽ loại bỏ chúng khỏi internet.

Tốc độ phát triển trong các khung tổng hợp hình ảnh nguồn mở đã vượt xa đáng kể khả năng phân loại hình ảnh của chúng tôi từ các hệ thống này, dẫn đến ngày càng quan tâm đến việc phát hiện 'ảnh giả' các hệ thống, tương tự như phát hiện deepfake hệ thống, nhưng được giao nhiệm vụ đánh giá toàn bộ hình ảnh hơn là các phần của khuôn mặt.

Sản phẩm giấy mới có tiêu đề Các mô hình sâu tốt như thế nào trong việc hiểu các hình ảnh được tạo?, và đến từ Ali Borji của công ty khởi nghiệp máy học Quintic AI ở San Francisco.

Ngày

Nghiên cứu có trước bản phát hành Khuếch tán ổn định và các thử nghiệm sử dụng dữ liệu do DALL-E 2 và Midjourney tạo ra trên 17 danh mục, bao gồm voi, nấm, bánh pizza, bánh quy cây, máy kéothỏ.

Các ví dụ về hình ảnh mà các hệ thống nhận dạng và VQA đã thử nghiệm được thử thách để xác định khái niệm chính quan trọng nhất.

Các ví dụ về hình ảnh mà các hệ thống nhận dạng và VQA đã thử nghiệm được thử thách để xác định khái niệm chính quan trọng nhất.

Hình ảnh được lấy thông qua tìm kiếm trên web và qua Twitter, và theo chính sách của DALL-E 2 (ít nhất, vào thời điểm đó), không bao gồm bất kỳ hình ảnh nào có khuôn mặt người. Chỉ những hình ảnh có chất lượng tốt, con người có thể nhận ra mới được chọn.

Hai bộ hình ảnh đã được sắp xếp, mỗi bộ dành cho các nhiệm vụ nhận dạng đối tượng và VQA.

Số lượng hình ảnh có trong mỗi danh mục được thử nghiệm để nhận dạng đối tượng.

Số lượng hình ảnh có trong mỗi danh mục được thử nghiệm để nhận dạng đối tượng.

Kiểm tra nhận dạng đối tượng

Đối với các bài kiểm tra nhận dạng đối tượng, mười mô hình, tất cả đều được đào tạo trên ImageNet, đã được kiểm tra: AlexNet, ResNet152, MobileNetV2, Mạng lưới dày đặc, ResNext, GoogleNet, ResNet101, Khởi đầu_V3, DeitResNext_WSL.

Một số lớp trong các hệ thống được thử nghiệm chi tiết hơn các lớp khác, đòi hỏi phải áp dụng các phương pháp trung bình. Chẳng hạn, ImageNet chứa ba lớp giữ lại 'đồng hồ' và cần phải xác định một số loại thước đo trọng tài, trong đó việc đưa bất kỳ loại 'đồng hồ' nào vào năm nhãn thu được hàng đầu cho bất kỳ hình ảnh nào được coi là thành công trong trường hợp đó.

Hiệu suất trên mỗi mô hình trên 17 danh mục.

Hiệu suất trên mỗi mô hình trên 17 danh mục.

Mô hình hoạt động tốt nhất trong vòng này là resnext101_32x8d_ws, đạt gần 60% cho top 1 (nghĩa là thời gian mà dự đoán ưa thích của nó trong số 80 lần đoán là khái niệm chính xác được thể hiện trong hình ảnh) và XNUMX% cho top XNUMX ( tức là khái niệm mong muốn ít nhất đã được liệt kê ở đâu đó trong năm phỏng đoán của người mẫu về bức tranh).

Tác giả gợi ý rằng hiệu suất tốt của mô hình này là do nó đã được đào tạo để dự đoán các thẻ bắt đầu bằng # trong các nền tảng truyền thông xã hội được giám sát yếu. Tuy nhiên, tác giả lưu ý, những kết quả hàng đầu này thấp hơn đáng kể so với những gì ImageNet có thể đạt được trên dữ liệu thực, tức là 91% và 99%. Ông gợi ý rằng điều này là do sự khác biệt lớn giữa việc phân phối hình ảnh ImageNet (cũng được lấy từ web) và hình ảnh được tạo.

Năm hạng mục khó khăn nhất đối với hệ thống, theo thứ tự khó khăn, là diều, rùa, sóc, kính mátnón bảo hộ. Bài báo lưu ý rằng diều lớp thường bị nhầm lẫn với khinh khí cầu, cái dù bayô, mặc dù những khác biệt này rất dễ dàng để các nhà quan sát con người cá nhân hóa.

Một số danh mục, bao gồm diềurùa, gây ra lỗi phổ biến trên tất cả các kiểu máy, trong khi những kiểu máy khác (đáng chú ý là bánh quy câymáy kéo) dẫn đến thành công gần như phổ biến trên các mô hình được thử nghiệm.

Các danh mục phân cực: một số danh mục mục tiêu được chọn hoặc là che giấu tất cả các mô hình, hoặc là khá dễ dàng để tất cả các mô hình xác định.

Các danh mục phân cực: một số danh mục mục tiêu được chọn hoặc là che giấu tất cả các mô hình, hoặc là khá dễ dàng để tất cả các mô hình xác định.

Các tác giả cho rằng những phát hiện này chỉ ra rằng tất cả các mô hình nhận dạng đối tượng có thể chia sẻ những điểm mạnh và điểm yếu tương tự nhau.

Kiểm tra trả lời câu hỏi trực quan

Tiếp theo, tác giả đã thử nghiệm các mô hình VQA trên VQA dạng mở và tự do, với các câu hỏi nhị phân (tức là các câu hỏi mà câu trả lời chỉ có thể là 'có' hoặc 'không'). Bài báo lưu ý rằng các mô hình VQA hiện đại gần đây có thể đạt được độ chính xác 95% trên Bộ dữ liệu VQA-v2.

Đối với giai đoạn thử nghiệm này, tác giả đã tuyển chọn 50 hình ảnh và đặt ra 241 câu hỏi xung quanh chúng, 132 trong số đó có câu trả lời tích cực và 109 câu trả lời tiêu cực. Độ dài câu hỏi trung bình là 5.12 từ.

Vòng này sử dụng mô hình OFA, một khung bất khả tri về nhiệm vụ và phương thức để kiểm tra tính toàn diện của nhiệm vụ và gần đây là người ghi điểm hàng đầu trong Bộ tiêu chuẩn thử nghiệm VQA-v2. OFA đạt được độ chính xác 77.27% trên các hình ảnh được tạo, so với điểm số 94.7% của chính nó trong bộ tiêu chuẩn thử nghiệm VQA-v2.

Các câu hỏi ví dụ và kết quả từ phần VQA của các bài kiểm tra. 'GT" là 'Ground Truth', tức là câu trả lời đúng.

Các câu hỏi ví dụ và kết quả từ phần VQA của các bài kiểm tra. 'GT' là 'Ground Truth', tức là câu trả lời đúng.

Tác giả của bài báo gợi ý rằng một phần lý do có thể là các hình ảnh được tạo chứa các khái niệm ngữ nghĩa không có trong bộ dữ liệu VQA-v2 và các câu hỏi được viết cho các bài kiểm tra VQA có thể khó hơn so với tiêu chuẩn chung của các câu hỏi VQA-v2, mặc dù ông tin rằng lý do trước đây có nhiều khả năng hơn.

LSD trong Luồng dữ liệu?

Ý kiến Sự phổ biến mới của hình ảnh do AI tổng hợp, có thể đưa ra các liên kết và trừu tượng hóa tức thời của các khái niệm cốt lõi không tồn tại trong tự nhiên và sẽ rất tốn thời gian để tạo ra thông qua các phương pháp thông thường, có thể gây ra một vấn đề cụ thể đối với dữ liệu được giám sát yếu- các hệ thống thu thập, có thể không thể bị hỏng một cách nhẹ nhàng - phần lớn là do chúng không được thiết kế để xử lý dữ liệu tổng hợp khối lượng lớn, không được gắn nhãn.

Trong những trường hợp như vậy, có thể có rủi ro là các hệ thống này sẽ xếp một tỷ lệ phần trăm hình ảnh tổng hợp 'kỳ lạ' vào các lớp không chính xác chỉ vì hình ảnh có các đối tượng riêng biệt không thực sự thuộc về nhau.

'Phi hành gia cưỡi ngựa' có lẽ đã trở thành hình ảnh tiêu biểu nhất cho thế hệ hệ thống tổng hợp hình ảnh mới – nhưng những mối quan hệ 'không thực' này có thể xâm nhập vào các hệ thống phát hiện thực trừ khi được thận trọng. Nguồn: https://twitter.com/openai/status/1511714545529614338?lang=vi

'Phi hành gia cưỡi ngựa' có lẽ đã trở thành hình ảnh tiêu biểu nhất cho thế hệ hệ thống tổng hợp hình ảnh mới – nhưng những mối quan hệ 'không thực' này có thể xâm nhập vào các hệ thống phát hiện thực trừ khi được thận trọng. Nguồn: https://twitter.com/openai/status/1511714545529614338?lang=vi

Trừ khi điều này có thể được ngăn chặn ở giai đoạn tiền xử lý trước khi đào tạo, các đường ống tự động như vậy có thể dẫn đến các liên kết không thể xảy ra hoặc thậm chí kỳ cục được đào tạo thành các hệ thống máy học, làm giảm hiệu quả của chúng và có nguy cơ chuyển các liên kết cấp cao vào các hệ thống hạ nguồn và các lớp con và danh mục.

Ngoài ra, các hình ảnh tổng hợp rời rạc có thể có 'hiệu ứng lạnh' đối với độ chính xác của các hệ thống sau này, trong trường hợp cuối cùng là các kiến ​​trúc mới hoặc sửa đổi sẽ xuất hiện nhằm giải thích cho đặc biệt hình ảnh tổng hợp và giăng lưới quá rộng.

Trong cả hai trường hợp, hình ảnh tổng hợp trong thời kỳ Hậu khuếch tán ổn định có thể gây đau đầu cho lĩnh vực nghiên cứu thị giác máy tính, những người đã nỗ lực tạo ra những sáng tạo và khả năng kỳ lạ này - đặc biệt là vì nó gây nguy hiểm cho hy vọng của ngành rằng việc thu thập và quản lý dữ liệu có thể cuối cùng sẽ tự động hơn nhiều so với hiện tại, đồng thời ít tốn kém và tốn thời gian hơn nhiều.

 

Xuất bản lần đầu vào ngày 1 tháng 2022 năm XNUMX.