Trí tuệ nhân tạo

Đào tạo Mô hình Thị giác Máy trên Nhiễu Ngẫu nhiên Thay vì Hình ảnh Thực

Published December 9, 2021

Updated April 26, 2026

Martin Anderson

Các nhà nghiên cứu từ Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) đã thử nghiệm việc sử dụng hình ảnh nhiễu ngẫu nhiên trong tập dữ liệu thị giác máy để đào tạo mô hình thị giác máy, và họ đã phát hiện ra rằng thay vì tạo ra rác, phương pháp này竟然 hiệu quả một cách đáng ngạc nhiên:

Mô hình sinh từ thí nghiệm, được sắp xếp theo hiệu suất. Source: https://openreview.net/pdf?id=RQUl8gZnN7O

Việc cho ‘rác thải hình ảnh’ vào các kiến trúc thị giác máy phổ biến không nên dẫn đến hiệu suất này. Ở phía bên phải của hình ảnh trên, các cột đen đại diện cho điểm số chính xác (trên Imagenet-100) cho bốn ‘tập dữ liệu thực’. Mặc dù ‘tập dữ liệu nhiễu ngẫu nhiên’ trước đó (hình ảnh màu, xem chỉ mục phía trên bên trái) không thể sánh được, nhưng chúng gần như tất cả đều nằm trong giới hạn trên và dưới đáng kính (đường đứt đỏ) về độ chính xác.

Trong ý nghĩa này, ‘độ chính xác’ không có nghĩa là một kết quả nhất định phải trông giống như một khuôn mặt, một nhà thờ, một bánh pizza, hoặc bất kỳ miền cụ thể nào mà bạn có thể quan tâm đến việc tạo ra một hệ thống sinh hình ảnh, chẳng hạn như một Mạng Đối nghịch Sinh hoặc một khuôn khổ mã hóa / giải mã.

Thay vào đó, nó có nghĩa là các mô hình CSAIL đã suy dẫn ra những ‘sự thật trung tâm’ có tính ứng dụng rộng rãi từ dữ liệu hình ảnh rõ ràng không có cấu trúc đến mức không thể cung cấp nó.

Đa dạng so với Tự nhiên

Những kết quả này cũng không thể được quy cho quá trình phù hợp: một cuộc thảo luận sôi nổi giữa các tác giả và người đánh giá tại Open Review cho thấy rằng việc trộn các nội dung khác nhau từ các tập dữ liệu đa dạng về mặt trực quan (chẳng hạn như ‘lá cây chết’, ‘tạo fractal’ và ‘nhiễu thủ tục’ – xem hình ảnh dưới đây) vào một tập dữ liệu đào tạo thực sự cải thiện độ chính xác trong các thí nghiệm này.

Điều này gợi ý (và nó là một ý niệm cách mạng một chút) một loại ‘phù hợp dưới’ mới, nơi ‘đa dạng’ vượt qua ‘tự nhiên’.

Trang dự án của sáng kiến cho phép bạn xem tương tác các loại tập dữ liệu hình ảnh ngẫu nhiên được sử dụng trong thí nghiệm. Source: https://mbaradad.github.io/learning_with_noise/

Kết quả thu được bởi các nhà nghiên cứu đặt câu hỏi về mối quan hệ cơ bản giữa mạng nơ-ron dựa trên hình ảnh và ‘hình ảnh thế giới thực’ được ném vào chúng với số lượng lớn mỗi năm, và ngụ ý rằng nhu cầu thu được, thu thập vàotherwise xử lý tập dữ liệu hình ảnh siêu lớn có thể cuối cùng trở nên thừa.
Các tác giả tuyên bố:

‘Các hệ thống thị giác hiện tại được đào tạo trên các tập dữ liệu lớn, và những tập dữ liệu này đi kèm với chi phí: việc thu thập dữ liệu tốn kém, chúng kế thừa sự thiên vị của con người, và có những lo ngại về quyền riêng tư và sử dụng.

‘Để đối phó với những chi phí này, sự quan tâm đã tăng lên trong việc học hỏi từ các nguồn dữ liệu rẻ hơn, chẳng hạn như hình ảnh không được gắn nhãn.

Các nhà nghiên cứu đề xuất rằng kiến trúc học máy hiện tại có thể suy dẫn ra điều gì đó cơ bản hơn (hoặc ít nhất là không mong đợi) từ hình ảnh hơn những gì được nghĩ trước đây, và rằng ‘hình ảnh vô nghĩa’ có thể cung cấp một lượng lớn kiến thức này với chi phí thấp hơn, thậm chí với việc sử dụng dữ liệu tổng hợp ad hoc, thông qua kiến trúc tập dữ liệu tạo ra hình ảnh ngẫu nhiên tại thời điểm đào tạo:

‘Chúng tôi xác định hai thuộc tính chính giúp tạo ra dữ liệu tổng hợp tốt cho đào tạo hệ thống thị giác: 1) tự nhiên, 2) đa dạng. Thú vị, dữ liệu tự nhiên nhất không phải lúc nào cũng là tốt nhất, vì tự nhiên có thể đi kèm với chi phí đa dạng.

‘Việc dữ liệu tự nhiên giúp đỡ có thể không đáng ngạc nhiên, và nó gợi ý rằng thực sự, dữ liệu lớn có giá trị. Tuy nhiên, chúng tôi phát hiện ra rằng điều quan trọng không phải là dữ liệu phải là thực mà là nó phải là tự nhiên, tức là nó phải bắt được một số thuộc tính cấu trúc của dữ liệu thực.

‘Nhiều thuộc tính này có thể được bắt trong các mô hình nhiễu đơn giản.’

Tính năng trực quan hóa từ một bộ mã hóa AlexNet trên một số ‘tập dữ liệu hình ảnh ngẫu nhiên’ được sử dụng bởi các tác giả, bao gồm các lớp kết hợp thứ 3 và thứ 5 (cuối cùng). Phương pháp được sử dụng ở đây tuân theo phương pháp được nêu trong nghiên cứu của Google AI từ năm 2017.

<Bài báo này, được trình bày tại Hội nghị lần thứ 35 về Xử lý Thông tin Nơ-ron (NeurIPS 2021) tại Sydney, có tiêu đề Học cách nhìn bằng cách nhìn vào nhiễu, và đến từ sáu nhà nghiên cứu tại CSAIL, với sự đóng góp như nhau.

Công việc này đã được khuyến nghị bởi sự đồng thuận cho một lựa chọn nổi bật tại NeurIPS 2021, với những người bình luận ngang hàng mô tả bài báo là ‘một đột phá khoa học’ mở ra một ‘lĩnh vực nghiên cứu tuyệt vời’, ngay cả khi nó đặt ra nhiều câu hỏi như nó trả lời.

Trong bài báo, các tác giả kết luận:

‘Chúng tôi đã chỉ ra rằng, khi được thiết kế bằng cách sử dụng kết quả từ nghiên cứu trước đây về thống kê hình ảnh tự nhiên, những tập dữ liệu này có thể đào tạo thành công các biểu diễn thị giác.

‘Chúng tôi hy vọng rằng bài báo này sẽ khuyến khích việc nghiên cứu các mô hình sinh mới có khả năng tạo ra nhiễu có cấu trúc đạt được hiệu suất cao hơn khi được sử dụng trong một loạt các nhiệm vụ thị giác.

‘Liệu chúng ta có thể đạt được hiệu suất thu được với việc tiền đào tạo ImageNet? Có thể trong sự vắng mặt của một tập dữ liệu đào tạo lớn cụ thể cho một nhiệm vụ cụ thể, việc tiền đào tạo tốt nhất có thể không phải là sử dụng một tập dữ liệu thực tiêu chuẩn như ImageNet.’

Related Topics:Computer Vision data research

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Đào tạo Mô hình Thị giác Máy trên Nhiễu Ngẫu nhiên Thay vì Hình ảnh Thực

Đa dạng so với Tự nhiên

You may like