Trí tuệ nhân tạo
SEER: Một bước đột phá trong các mô hình thị giác máy tính tự giám sát?

Trong thập kỷ qua, Trí tuệ nhân tạo (AI) và Học máy (ML) đã chứng kiến sự tiến bộ đáng kể. Ngày nay, chúng chính xác, hiệu quả và mạnh mẽ hơn bao giờ hết. Các mô hình AI và ML hiện đại có thể nhận dạng đối tượng trong hình ảnh hoặc tệp video một cách mượt mà và chính xác. Ngoài ra, chúng có thể tạo ra văn bản và lời nói song song với trí thông minh của con người.
Các mô hình AI và ML ngày nay phụ thuộc nặng nề vào việc đào tạo trên tập dữ liệu đã được gắn nhãn, giúp chúng học cách giải thích một khối văn bản, xác định đối tượng trong hình ảnh hoặc khung hình video và nhiều nhiệm vụ khác.
Mặc dù có khả năng, các mô hình AI và ML không hoàn hảo, và các nhà khoa học đang làm việc để xây dựng các mô hình có thể học từ thông tin được cung cấp, không nhất thiết phải dựa vào dữ liệu đã được gắn nhãn hoặc chú thích. Cách tiếp cận này được gọi là học tự giám sát, và nó là một trong những phương pháp hiệu quả nhất để xây dựng các mô hình ML và AI có “trí thông minh chung” hoặc kiến thức nền tảng để giải quyết các vấn đề nằm ngoài khả năng của các mô hình AI hiện nay.
Học tự giám sát đã cho thấy kết quả của nó trong Xử lý Ngôn ngữ Tự nhiên vì nó đã cho phép các nhà phát triển đào tạo các mô hình lớn có thể làm việc với một lượng lớn dữ liệu và đã dẫn đến một số đột phá trong các lĩnh vực như suy luận ngôn ngữ tự nhiên, dịch máy và trả lời câu hỏi.
Mô hình SEER của Facebook AI nhằm mục đích tối đa hóa khả năng của học tự giám sát trong lĩnh vực thị giác máy tính. SEER hoặc Tự giám sát là một mô hình học tự giám sát về thị giác máy tính có hơn một tỷ tham số và nó có khả năng tìm kiếm mẫu hoặc học ngay cả từ một nhóm hình ảnh ngẫu nhiên tìm thấy trên internet mà không cần chú thích hoặc nhãn thích hợp.
Cần thiết của Học tự giám sát trong Thị giác máy tính
Gắn nhãn dữ liệu hoặc gắn nhãn dữ liệu là một giai đoạn tiền xử lý trong việc phát triển các mô hình học máy và trí tuệ nhân tạo. Quá trình gắn nhãn dữ liệu xác định dữ liệu thô như hình ảnh hoặc khung hình video, sau đó thêm nhãn vào dữ liệu để chỉ định ngữ cảnh của dữ liệu cho mô hình. Những nhãn này cho phép mô hình đưa ra dự đoán chính xác về dữ liệu.
Một trong những thách thức lớn nhất và khó khăn mà các nhà phát triển gặp phải khi làm việc trên các mô hình thị giác máy tính là tìm kiếm dữ liệu chất lượng cao đã được gắn nhãn. Các mô hình Thị giác máy tính ngày nay phụ thuộc vào các tập dữ liệu đã được gắn nhãn hoặc chú thích để học các mẫu cho phép chúng nhận dạng đối tượng trong hình ảnh.
Gắn nhãn dữ liệu và việc sử dụng nó trong mô hình thị giác máy tính tạo ra các thách thức sau:
Quản lý Chất lượng Tập dữ liệu Nhất quán
Có thể đây là thách thức lớn nhất đối với các nhà phát triển là đạt được quyền truy cập vào tập dữ liệu chất lượng cao một cách nhất quán vì tập dữ liệu chất lượng cao với nhãn và hình ảnh rõ ràng dẫn đến học và mô hình chính xác hơn. Tuy nhiên, việc truy cập vào tập dữ liệu chất lượng cao một cách nhất quán có những thách thức của nó.
Quản lý Lực lượng Lao động
Gắn nhãn dữ liệu thường đi kèm với các vấn đề quản lý lực lượng lao động, chủ yếu vì một lượng lớn công nhân được yêu cầu để xử lý và gắn nhãn một lượng lớn dữ liệu không có cấu trúc và không có nhãn trong khi đảm bảo chất lượng. Vì vậy, điều cần thiết là các nhà phát triển phải tìm được sự cân bằng giữa chất lượng và số lượng khi nói đến việc gắn nhãn dữ liệu.
Giới hạn Tài chính
Có thể đây là thách thức lớn nhất là hạn chế tài chính đi kèm với quá trình gắn nhãn dữ liệu và hầu hết thời gian, chi phí gắn nhãn dữ liệu là một tỷ lệ đáng kể trong tổng chi phí dự án.
Như bạn có thể thấy, gắn nhãn dữ liệu là một chướng ngại vật lớn trong việc phát triển các mô hình thị giác máy tính tiên tiến, đặc biệt là khi nói đến việc phát triển các mô hình phức tạp xử lý một lượng lớn dữ liệu đào tạo. Đó là lý do tại sao ngành công nghiệp thị giác máy tính cần học tự giám sát để phát triển các mô hình thị giác máy tính phức tạp và tiên tiến có khả năng giải quyết các nhiệm vụ nằm ngoài khả năng của các mô hình AI hiện nay.
Với điều đó được nói, đã có nhiều mô hình học tự giám sát đã hoạt động tốt trong môi trường được kiểm soát, và chủ yếu trên tập dữ liệu ImageNet. Mặc dù những mô hình này có thể đang làm tốt công việc, nhưng chúng không đáp ứng điều kiện chính của học tự giám sát trong thị giác máy tính: học từ bất kỳ tập dữ liệu không giới hạn hoặc hình ảnh ngẫu nhiên nào, và không chỉ từ một tập dữ liệu được định nghĩa rõ ràng.
Khi được thực hiện lý tưởng, học tự giám sát có thể giúp phát triển các mô hình thị giác máy tính chính xác và mạnh mẽ hơn, hiệu quả về chi phí và khả thi.
Giới thiệu Mô hình SEER hoặc SElf-supERvised
Các xu hướng gần đây trong ngành công nghiệp AI và ML cho thấy rằng các phương pháp tiền đào tạo như bán giám sát, yếu giám sát và học tự giám sát có thể cải thiện đáng kể hiệu suất của hầu hết các mô hình học sâu cho các nhiệm vụ hạ nguồn.
Có hai yếu tố chính đã đóng góp đáng kể vào sự cải thiện hiệu suất của các mô hình học sâu này.
Đào tạo Trước trên Tập dữ liệu Lớn
Đào tạo trước trên tập dữ liệu lớn thường dẫn đến độ chính xác và hiệu suất tốt hơn vì nó cho mô hình tiếp xúc với nhiều loại dữ liệu. Tập dữ liệu lớn cho phép mô hình hiểu rõ hơn các mẫu trong dữ liệu và cuối cùng dẫn đến mô hình hoạt động tốt hơn trong các kịch bản thực tế.
Một số mô hình hoạt động tốt nhất như mô hình ngôn ngữ GPT-3 và mô hình Wav2vec 2.0 được đào tạo trên tập dữ liệu lớn. Mô hình ngôn ngữ GPT-3 sử dụng một tập dữ liệu tiền đào tạo có hơn 300 tỷ từ, trong khi mô hình Wav2vec 2.0 cho nhận dạng giọng nói sử dụng một tập dữ liệu có hơn 53.000 giờ dữ liệu âm thanh.
Mô hình có Khả năng Lớn
Mô hình có số tham số lớn hơn thường cho kết quả chính xác hơn vì số tham số lớn hơn cho phép mô hình tập trung vào các đối tượng trong dữ liệu cần thiết thay vì tập trung vào nhiễu trong dữ liệu.
Các nhà phát triển trong quá khứ đã cố gắng đào tạo các mô hình học tự giám sát trên dữ liệu không có nhãn hoặc không được kiểm duyệt nhưng với các tập dữ liệu nhỏ hơn chứa chỉ một vài triệu hình ảnh. Nhưng liệu các mô hình học tự giám sát có thể cho kết quả chính xác cao khi được đào tạo trên một lượng lớn dữ liệu không có nhãn và không được kiểm duyệt?
Đó chính xác là câu hỏi mà mô hình SEER nhằm trả lời.
Mô hình SEER là một khuôn khổ học sâu nhằm đăng ký hình ảnh có sẵn trên internet độc lập với các tập dữ liệu được kiểm duyệt hoặc gắn nhãn. Khung SEER cho phép các nhà phát triển đào tạo các mô hình ML lớn và phức tạp trên dữ liệu ngẫu nhiên mà không cần giám sát, tức là mô hình phân tích dữ liệu và học các mẫu hoặc thông tin theo cách tự giám sát mà không cần thêm bất kỳ đầu vào thủ công nào.
Mục tiêu cuối cùng của mô hình SEER là giúp phát triển các chiến lược cho quá trình tiền đào tạo sử dụng dữ liệu không được kiểm duyệt để cung cấp hiệu suất hàng đầu trong việc học chuyển giao. Hơn nữa, mô hình SEER cũng nhằm tạo ra các hệ thống có thể học liên tục từ một dòng dữ liệu không ngừng.
Khung SEER đào tạo các mô hình có khả năng cao trên hàng tỷ hình ảnh ngẫu nhiên và không bị giới hạn được trích xuất từ internet. Các mô hình được đào tạo trên những hình ảnh này không dựa vào siêu dữ liệu hình ảnh hoặc chú thích để đào tạo mô hình hoặc lọc dữ liệu.
Gần đây, học tự giám sát đã cho thấy tiềm năng lớn khi đào tạo mô hình trên dữ liệu không được kiểm duyệt đã cho kết quả tốt hơn so với các mô hình tiền đào tạo được giám sát cho các nhiệm vụ hạ nguồn.
Khung SEER và RegNet: Kết nối là gì?
Để phân tích mô hình SEER, nó tập trung vào kiến trúc RegNet với hơn 700 triệu tham số phù hợp với mục tiêu học tự giám sát của SEER trên dữ liệu không được kiểm duyệt vì hai lý do chính:
- Nó cung cấp sự cân bằng hoàn hảo giữa hiệu suất và hiệu quả.
- Nó rất linh hoạt và có thể được sử dụng để mở rộng quy mô cho số lượng tham số.

Khung SEER: Công việc trước đây từ các lĩnh vực khác nhau
Khung SEER nhằm mục đích khám phá các giới hạn của việc đào tạo các kiến trúc mô hình lớn trong các tập dữ liệu không được kiểm duyệt hoặc không có nhãn bằng cách học tự giám sát và mô hình tìm kiếm cảm hứng từ công việc trước đây trong lĩnh vực này.
Đào tạo trước không giám sát của các tính năng thị giác
Học tự giám sát đã được thực hiện trong thị giác máy tính trong một thời gian với các phương pháp sử dụng tự mã hóa, phân biệt cấp độ thể hiện hoặc phân cụm. Gần đây, các phương pháp sử dụng học tương phản đã chỉ ra rằng đào tạo trước các mô hình bằng cách học không giám sát cho các nhiệm vụ hạ nguồn có thể hoạt động tốt hơn so với phương pháp học được giám sát.
Điểm chính lấy từ việc học không giám sát các tính năng thị giác là miễn là bạn đang đào tạo trên dữ liệu đã được lọc, các nhãn được giám sát không cần thiết. Mô hình SEER nhằm khám phá xem mô hình có thể học các biểu diễn chính xác khi các kiến trúc mô hình lớn được đào tạo trên một lượng lớn hình ảnh không được kiểm duyệt, không có nhãn và ngẫu nhiên.
Học các tính năng thị giác ở quy mô lớn
Các mô hình trước đây đã được hưởng lợi từ việc đào tạo trước các mô hình trên các tập dữ liệu lớn có nhãn yếu, giám sát, bán giám sát và nửa giám sát trên hàng triệu hình ảnh đã được lọc. Hơn nữa, phân tích mô hình cũng cho thấy rằng đào tạo trước mô hình trên hàng tỷ hình ảnh thường cho kết quả chính xác tốt hơn so với đào tạo mô hình từ đầu.
Hơn nữa, đào tạo mô hình trên quy mô lớn thường dựa vào các bước lọc dữ liệu để làm cho hình ảnh phù hợp với các khái niệm mục tiêu. Các bước lọc này thường sử dụng các dự đoán từ một phân loại器 đã được đào tạo trước hoặc sử dụng các hashtag thường là các sysnets của các lớp ImageNet. Mô hình SEER hoạt động khác vì nó nhằm mục đích học các tính năng trong bất kỳ hình ảnh ngẫu nhiên nào và do đó, dữ liệu đào tạo cho mô hình SEER không được kiểm duyệt để phù hợp với một tập hợp các tính năng hoặc khái niệm đã định nghĩa trước.
Phân cấp Kiến trúc cho Nhận dạng hình ảnh
Mô hình thường được hưởng lợi từ việc đào tạo các kiến trúc lớn trên chất lượng dữ liệu tốt hơn, dẫn đến các tính năng thị giác tốt hơn. Điều này rất quan trọng khi đào tạo trước trên một tập dữ liệu lớn là quan trọng vì một mô hình có khả năng hạn chế sẽ thường bị underfit. Điều này thậm chí còn quan trọng hơn khi đào tạo trước được thực hiện cùng với học tương phản vì trong những trường hợp như vậy, mô hình phải học cách phân biệt giữa các thể hiện của tập dữ liệu để mà nó có thể học được các biểu diễn thị giác tốt hơn.
Tuy nhiên, để nhận dạng hình ảnh, việc phân cấp kiến trúc liên quan đến nhiều hơn là chỉ thay đổi độ sâu và chiều rộng của mô hình và để xây dựng một mô hình có khả năng mở rộng với khả năng lớn hơn, một lượng lớn tài liệu cần được dành riêng. Mô hình SEER cho thấy lợi ích của việc sử dụng các mô hình RegNets để triển khai học tự giám sát ở quy mô lớn.
SEER: Phương pháp và Thành phần được sử dụng
Khung SEER sử dụng nhiều phương pháp và thành phần để đào tạo trước mô hình để học các biểu diễn thị giác. Một số phương pháp và thành phần chính được sử dụng bởi khung SEER là: RegNet và SwAV. Hãy thảo luận ngắn gọn về các phương pháp và thành phần được sử dụng trong khung SEER.
Đào tạo trước Tự giám sát với SwAV
Khung SEER được đào tạo trước với SwAV, một phương pháp học tự giám sát trực tuyến. SwAV là một phương pháp phân cụm trực tuyến được sử dụng để đào tạo các khung convnet mà không cần chú thích. Khung SwAV hoạt động bằng cách đào tạo một biểu diễn tạo ra các nhiệm vụ phân cụm nhất quán giữa các chế độ xem khác nhau của cùng một hình ảnh. Hệ thống sau đó học các biểu diễn ngữ nghĩa bằng cách khai thác các cụm không đổi đối với các tăng cường dữ liệu.
Trong thực tế, khung SwAV so sánh các tính năng của các chế độ xem khác nhau của một hình ảnh bằng cách sử dụng các nhiệm vụ phân cụm độc lập của chúng. Nếu những nhiệm vụ này nắm bắt các tính năng tương tự hoặc giống nhau, thì có thể dự đoán nhiệm vụ của một hình ảnh bằng cách sử dụng tính năng của một chế độ xem khác.
Mô hình SEER xem xét một tập hợp các cụm K, và mỗi cụm được liên kết với một vectơ có thể học được d chiều vk. Đối với một lô B hình ảnh, mỗi hình ảnh i được biến đổi thành hai chế độ xem khác nhau: xi1 và xi2. Các chế độ xem sau đó được tính năng hóa với sự trợ giúp của một convnet và kết quả là hai tập hợp tính năng: (f11, …, fB2) và (f12, …, fB2). Mỗi tập hợp tính năng sau đó được gán độc lập cho các nguyên mẫu cụm bằng cách sử dụng một bộ giải tối ưu vận chuyển.
Bộ giải tối ưu vận chuyển đảm bảo rằng các tính năng được chia đều trên các cụm và giúp tránh các giải pháp tầm thường nơi tất cả các biểu diễn được ánh xạ đến một nguyên mẫu duy nhất. Việc gán kết quả sau đó được hoán đổi giữa hai tập hợp: nhiệm vụ phân cụm yi1 của chế độ xem xi1 cần được dự đoán bằng cách sử dụng biểu diễn tính năng fi2 của chế độ xem xi2 và ngược lại.
Mô hình SEER sau đó đào tạo các trọng số nguyên mẫu và convnet để giảm thiểu tổn thất cho tất cả các ví dụ. Tổn thất dự đoán cụm i là bản sao chép của tích chấm của f và nhiệm vụ phân cụm.
RegNetY: Gia đình Mô hình Hiệu quả về Quy mô
Phân cấp mô hình khả năng và dữ liệu cần các kiến trúc hiệu quả không chỉ về bộ nhớ mà còn về thời gian chạy và RegNets là một gia đình mô hình được thiết kế đặc biệt cho mục đích này.
Gia đình kiến trúc RegNet được định nghĩa bởi một không gian thiết kế của các convnet có 4 giai đoạn, trong đó mỗi giai đoạn chứa một loạt các khối giống hệt nhau trong khi đảm bảo cấu trúc của khối của chúng vẫn cố định, chủ yếu là khối cổ chai dư.
Khung SEER tập trung vào kiến trúc RegNetY và thêm một nén và kích hoạt để kiến trúc RegNets tiêu chuẩn trong một nỗ lực nhằm cải thiện hiệu suất của chúng. Hơn nữa, mô hình RegNetY có 5 tham số giúp tìm kiếm các trường hợp tốt với một số lượng FLOPs cố định tiêu thụ tài nguyên hợp lý. Mô hình SEER nhằm cải thiện kết quả của mình bằng cách triển khai kiến trúc RegNetY trực tiếp trên nhiệm vụ đào tạo trước tự giám sát của nó.
RegNetY 256GF Kiến trúc: Mô hình SEER tập trung chủ yếu vào kiến trúc RegNetY 256GF trong gia đình RegNetY và các tham số của nó sử dụng quy tắc phân cấp của kiến trúc RegNets. Các tham số được mô tả như sau.

Kiến trúc RegNetY 256GF có 4 giai đoạn với chiều rộng giai đoạn (528, 1056, 2904, 7392) và chiều sâu giai đoạn (2,7,17,1) thêm vào hơn 696 triệu tham số. Khi đào tạo trên 512 GPU V100 32GB của NVIDIA, mỗi lần lặp lại mất khoảng 6125ms cho một lô 8.704 hình ảnh. Đào tạo mô hình trên một tập dữ liệu có hơn một tỷ hình ảnh, với một lô 8.704 hình ảnh trên hơn 512 GPU, đòi hỏi 114.890 lần lặp lại và đào tạo kéo dài khoảng 8 ngày.
Tối ưu hóa và Đào tạo ở Quy mô lớn
Mô hình SEER đề xuất một số điều chỉnh để đào tạo các phương pháp tự giám sát và thích nghi với quy mô lớn. Những phương pháp này là:
- Lịch trình học tập.
- Giảm tiêu thụ bộ nhớ trên mỗi GPU.
- Tối ưu hóa tốc độ đào tạo.
- Đào tạo trước dữ liệu trên quy mô lớn.
Hãy thảo luận ngắn gọn về chúng.
Lịch trình Học tập
Mô hình SEER khám phá khả năng sử dụng hai lịch trình học tập: lịch trình học tập sóng cosine và lịch trình học tập cố định.
Lịch trình học tập sóng cosine được sử dụng để so sánh các mô hình khác nhau một cách công bằng vì nó thích ứng với số lượng cập nhật. Tuy nhiên, lịch trình học tập sóng cosine không thích ứng với đào tạo quy mô lớn chủ yếu vì nó đánh giá khác nhau các hình ảnh dựa trên thời điểm chúng được xem trong khi đào tạo và nó cũng sử dụng các cập nhật hoàn chỉnh để lên lịch trình.
Lịch trình học tập cố định giữ tốc độ học tập cố định cho đến khi tổn thất không giảm và sau đó tốc độ học tập được chia cho 2. Phân tích cho thấy lịch trình học tập cố định hoạt động tốt hơn vì nó có phòng để làm cho đào tạo linh hoạt hơn. Tuy nhiên, vì mô hình chỉ đào tạo trên 1 tỷ hình ảnh, nó sử dụng lịch trình học tập sóng cosine để đào tạo mô hình lớn nhất của nó, RegNet 256GF.
Giảm Tiêu thụ Bộ nhớ trên mỗi GPU
Mô hình cũng nhằm giảm lượng GPU cần thiết trong quá trình đào tạo bằng cách sử dụng độ chính xác hỗn hợp và kiểm điểm cấp độ. Mô hình sử dụng thư viện NVIDIA Apex Library cấp độ tối ưu hóa O1 để thực hiện các hoạt động như tích chập và GEMMs với độ chính xác điểm nổi 16 bit. Mô hình cũng sử dụng triển khai kiểm điểm cấp độ của PyTorch, giúp trao đổi máy tính cho bộ nhớ.
Hơn nữa, mô hình cũng loại bỏ bất kỳ hoạt động trung gian nào được thực hiện trong quá trình đi tới và trong quá trình trở lại, mô hình tính lại các hoạt động này.
Tối ưu hóa Tốc độ Đào tạo
Sử dụng độ chính xác hỗn hợp để tối ưu hóa việc sử dụng bộ nhớ có lợi ích bổ sung vì các gia tốc器 tận dụng kích thước giảm của FP16 bằng cách tăng tốc độ so với FP32. Điều này giúp tăng tốc độ đào tạo bằng cách cải thiện nút thắt băng thông bộ nhớ.
Mô hình SEER cũng đồng bộ hóa lớp BatchNorm trên các GPU để tạo các nhóm quy trình thay vì sử dụng đồng bộ hóa toàn cầu, điều này thường mất nhiều thời gian hơn. Cuối cùng, bộ tải dữ liệu được sử dụng trong mô hình SEER tải trước nhiều lô đào tạo hơn, dẫn đến một lượng lớn dữ liệu được xử lý khi so sánh với bộ tải dữ liệu của PyTorch.
Đào tạo trước Dữ liệu trên Quy mô lớn
Mô hình SEER sử dụng hơn một tỷ hình ảnh trong quá trình đào tạo trước và nó xem xét một bộ tải dữ liệu mẫu ngẫu nhiên trực tiếp từ internet và Instagram. Vì mô hình SEER đào tạo những hình ảnh này trong tự nhiên và trực tuyến, nên nó không áp dụng bất kỳ bước tiền xử lý nào trên những hình ảnh này hay kiểm duyệt chúng bằng các quy trình như loại bỏ trùng lặp hoặc lọc hashtag.
Đáng chú ý là tập dữ liệu không tĩnh và hình ảnh trong tập dữ liệu được làm mới mọi ba tháng. Tuy nhiên, việc làm mới tập dữ liệu không ảnh hưởng đến hiệu suất của mô hình.
Triển khai Mô hình SEER
Mô hình SEER đào tạo trước một RegNetY 256GF với SwAV bằng cách sử dụng sáu vụ cắt trên mỗi hình ảnh, với mỗi hình ảnh có độ phân giải 2×224 + 4×96. Trong giai đoạn đào tạo trước, mô hình sử dụng một MLP 3 lớp hoặc Perceptron đa lớp với đầu ra dự đoán có kích thước 10444×8192, 8192×8192 và 8192×256.
Thay vì sử dụng các lớp BatchNorm trong đầu, mô hình SEER sử dụng 16.000 nguyên mẫu với nhiệt độ t được đặt thành 0,1. Tham số điều chỉnh Sinkhorn được đặt thành 0,05 và nó thực hiện 10 lần lặp của thuật toán. Mô hình sau đó đồng bộ hóa các thống kê BatchNorm trên các GPU và tạo nhiều nhóm quy trình với kích thước 64 để đồng bộ hóa.
Hơn nữa, mô hình sử dụng một bộ tối ưu hóa LARS hoặc Tối ưu hóa Tốc độ Học tập Theo cấp độ, một sự suy giảm trọng lượng của 10-5, kiểm điểm cấp độ và tối ưu hóa hỗn hợp O1. Mô hình sau đó được đào tạo với sự suy giảm gradient ngẫu nhiên bằng cách sử dụng một lô 8.192 hình ảnh ngẫu nhiên được phân phối trên 512 GPU NVIDIA, kết quả là 16 hình ảnh trên mỗi GPU.
Tốc độ học tập được tăng tuyến tính từ 0,15 đến 9,6 trong 8.000 cập nhật đào tạo đầu tiên. Sau giai đoạn ấm lên, mô hình theo một lịch trình học tập cosine mà giảm xuống một giá trị cuối cùng là 0,0096. Tổng thể, mô hình SEER đào tạo trên một tỷ hình ảnh trong 122.000 lần lặp lại.
Khung SEER: Kết quả
Chất lượng của các tính năng được tạo ra bởi phương pháp đào tạo trước tự giám sát được nghiên cứu và phân tích trên nhiều điểm chuẩn và nhiệm vụ hạ nguồn. Mô hình cũng xem xét một thiết lập bắn thấp cho phép truy cập hạn chế vào hình ảnh và nhãn của chúng cho các nhiệm vụ hạ nguồn.
Đào tạo lại Mô hình đã được Đào tạo trước Lớn
Nó đo lường chất lượng của các mô hình được đào tạo trước trên dữ liệu ngẫu nhiên bằng cách chuyển chúng sang điểm chuẩn ImageNet để phân loại hình ảnh. Kết quả của việc đào tạo lại các mô hình đã được đào tạo trước lớn được xác định trên các tham số sau.
Cài đặt Thử nghiệm
Mô hình đào tạo trước 6 kiến trúc RegNet với các khả năng khác nhau, cụ thể là RegNetY-{8,16,32,64,128,256}GF, trên hơn một tỷ hình ảnh Instagram ngẫu nhiên và công khai với SwAV. Các mô hình sau đó được đào tạo lại cho mục đích phân loại hình ảnh trên ImageNet, sử dụng hơn 1,28 triệu hình ảnh đào tạo tiêu chuẩn với nhãn phù hợp và có một tập hợp xác thực tiêu chuẩn với hơn 50.000 hình ảnh để đánh giá.
Mô hình sau đó áp dụng cùng các kỹ thuật tăng cường dữ liệu như trong SwAV và đào tạo lại trong 35 kỷ với bộ tối ưu hóa SGD hoặc Gradient Descent ngẫu nhiên với một lô 256, tốc độ học tập 0,0125 được giảm 10 lần sau 30 kỷ, động lượng 0,9 và suy giảm trọng lượng 10-4. Mô hình báo cáo độ chính xác hàng đầu 1 trên tập hợp xác thực bằng cách sử dụng trung tâm corp 224×224.
So sánh với các Phương pháp Đào tạo trước Tự giám sát khác
Trong bảng dưới đây, mô hình được đào tạo trước lớn nhất trong RegNetY-256GF được so sánh với các mô hình đã được đào tạo trước hiện có sử dụng phương pháp học tự giám sát.

Như bạn có thể thấy, mô hình SEER trả về độ chính xác hàng đầu 1 là 84,2% trên ImageNet và vượt qua SimCLRv2, mô hình đã được đào tạo trước tốt nhất hiện có, với 1%.
Hơn nữa, hình dưới đây so sánh khung SEER với các mô hình có khả năng khác nhau. Như bạn có thể thấy, bất kể khả năng của mô hình, việc kết hợp khung RegNet với SwAV đều cho kết quả chính xác trong quá trình đào tạo trước.

Mô hình SEER được đào tạo trước trên hình ảnh ngẫu nhiên và không được kiểm duyệt và chúng có kiến trúc RegNet với phương pháp học tự giám sát SwAV. Mô hình SEER được so sánh với SimCLRv2 và các mô hình ViT với các kiến trúc mạng khác nhau. Cuối cùng, mô hình được đào tạo lại trên tập dữ liệu ImageNet và độ chính xác hàng đầu 1 được báo cáo.
Tác động của Khả năng Mô hình
Khả năng mô hình có tác động đáng kể đến hiệu suất của mô hình trong quá trình đào tạo trước và hình dưới đây so sánh nó với tác động khi đào tạo từ đầu.

Có thể thấy rõ ràng rằng điểm số độ chính xác hàng đầu 1 của các mô hình đã được đào tạo trước cao hơn so với các mô hình được đào tạo từ đầu và sự khác biệt ngày càng lớn khi số lượng tham số tăng lên. Điều này cũng cho thấy rằng mặc dù khả năng mô hình có lợi cho cả mô hình đã được đào tạo trước và đào tạo từ đầu, nhưng tác động lớn hơn đối với các mô hình đã được đào tạo trước khi xử lý một lượng lớn tham số.
Một lý do có thể giải thích tại sao đào tạo một mô hình từ đầu có thể quá拟 hợp khi đào tạo trên tập dữ liệu ImageNet là do kích thước tập dữ liệu nhỏ.
Học bắn thấp
Học bắn thấp đề cập đến việc đánh giá hiệu suất của mô hình SEER trong một thiết lập bắn thấp, tức là sử dụng chỉ một phần nhỏ của dữ liệu tổng thể khi thực hiện các nhiệm vụ hạ nguồn.
Cài đặt Thử nghiệm
Khung SEER sử dụng hai tập dữ liệu cho học bắn thấp, cụ thể là Places205 và ImageNet. Hơn nữa, mô hình giả định có quyền truy cập hạn chế vào tập dữ liệu trong quá trình học chuyển giao, cả về hình ảnh và nhãn của chúng. Cài đặt truy cập hạn chế này khác với cài đặt mặc định được sử dụng cho học tự giám sát, nơi mô hình có quyền truy cập vào toàn bộ tập dữ liệu và chỉ quyền truy cập vào nhãn hình ảnh bị hạn chế.
-
Kết quả trên Tập dữ liệu Place205
Hình dưới đây cho thấy tác động của việc đào tạo trước mô hình trên các phần khác nhau của tập dữ liệu Place205.

Phương pháp được sử dụng được so sánh với việc đào tạo trước mô hình trên tập dữ liệu ImageNet với kiến trúc RegNetY-128 GF giống nhau. Kết quả từ so sánh khá bất ngờ vì có thể thấy rằng có một lợi ích ổn định khoảng 2,5% về độ chính xác hàng đầu 1 bất kể phần của dữ liệu đào tạo có sẵn để đào tạo lại trên tập dữ liệu Place205.
Sự khác biệt quan sát được giữa đào tạo trước được giám sát và đào tạo trước tự giám sát có thể được giải thích bằng sự khác biệt trong bản chất của dữ liệu đào tạo, vì các tính năng được học bởi mô hình từ hình ảnh ngẫu nhiên trong tự nhiên có thể phù hợp hơn để phân loại cảnh. Hơn nữa, một phân phối không đồng đều của các khái niệm cơ bản có thể chứng minh là một lợi thế cho việc đào tạo trước trên một tập dữ liệu không cân bằng như Place205.
Kết quả trên ImageNet

Bảng trên so sánh phương pháp của mô hình SEER với các phương pháp học tự giám sát và bán giám sát trên học bắn thấp. Đáng chú ý là tất cả các phương pháp này đều sử dụng tất cả 1,2 triệu hình ảnh trong tập dữ liệu ImageNet để đào tạo trước và chúng chỉ hạn chế việc truy cập vào nhãn. Ngược lại, phương pháp được sử dụng trong mô hình SEER cho phép nó chỉ xem 1 đến 10% của tập dữ liệu ImageNet.
Như bạn có thể thấy, mặc dù mô hình SEER chỉ xem 1 đến 10% của tập dữ liệu ImageNet, nó vẫn đạt được độ chính xác hàng đầu 1 khoảng 80%, chỉ kém một chút so với độ chính xác của các phương pháp được thảo luận trong bảng trên.
Tác động của Khả năng Mô hình
Hình dưới đây thảo luận về tác động của khả năng mô hình đối với học bắn thấp: ở 1%, 10% và 100% của tập dữ liệu ImageNet.

Có thể thấy rằng tăng khả năng mô hình có thể cải thiện điểm số độ chính xác của mô hình khi giảm quyền truy cập vào cả hình ảnh và nhãn trong tập dữ liệu.
Chuyển giao sang các Điểm chuẩn khác
Để đánh giá mô hình SEER thêm và phân tích hiệu suất của nó, các tính năng đã được đào tạo trước được chuyển giao sang các nhiệm vụ hạ nguồn khác.
Đánh giá tuyến tính của Phân loại hình ảnh

Bảng trên so sánh các tính năng từ mô hình RegNetY-256GF và RegNetY128-GF đã được đào tạo trước của SEER với cùng một kiến trúc với và không có giám sát. Để phân tích chất lượng của các tính năng, mô hình đông lạnh trọng số và sử dụng một phân loại器 tuyến tính trên đầu của các tính năng bằng cách sử dụng tập hợp đào tạo cho các nhiệm vụ hạ nguồn. Các điểm chuẩn sau được xem xét cho quá trình này: Open-Images (OpIm), iNaturalist (iNat), Places205 (Places) và Pascal VOC (VOC).
Phát hiện và Phân đoạn
Hình dưới đây so sánh các tính năng đã được đào tạo trước trên phát hiện và phân đoạn và đánh giá chúng.

Mô hình SEER đào tạo một mô hình Mask-RCNN trên điểm chuẩn COCO với các mô hình RegNetY-64GF và RegNetY-128GF đã được đào tạo trước làm các khối xây dựng. Đối với cả kiến trúc và nhiệm vụ hạ nguồn, phương pháp học tự giám sát của SEER vượt trội so với đào tạo được giám sát với 1,5 đến 2 điểm AP.
So sánh với Đào tạo trước Yếu giám sát
Hầu hết các hình ảnh có sẵn trên internet thường có một mô tả siêu dữ liệu hoặc văn bản thay thế hoặc mô tả hoặc vị trí địa lý có thể cung cấp lợi thế trong quá trình đào tạo trước. Các công việc trước đây đã chỉ ra rằng việc dự đoán một tập hợp các hashtag được kiểm duyệt hoặc gắn nhãn có thể cải thiện chất lượng của các tính năng thị giác kết quả. Tuy nhiên, phương pháp này cần lọc hình ảnh và nó hoạt động tốt nhất chỉ khi siêu dữ liệu văn bản có sẵn.
Hình dưới đây so sánh việc đào tạo trước một kiến trúc ResNetXt101-32dx8d trên hình ảnh ngẫu nhiên với cùng một kiến trúc được đào tạo trên hình ảnh đã được gắn nhãn với hashtag và siêu dữ liệu và báo cáo độ chính xác hàng đầu 1 cho cả hai.

Có thể thấy rằng mặc dù khung SEER không sử dụng siêu dữ liệu trong quá trình đào tạo trước, nhưng độ chính xác của nó vẫn tương đương với các mô hình sử dụng siêu dữ liệu để đào tạo trước.
Các nghiên cứu Ablation
Một nghiên cứu ablation được thực hiện để phân tích tác động của một thành phần cụ thể đối với hiệu suất tổng thể của mô hình. Một nghiên cứu ablation được thực hiện bằng cách loại bỏ thành phần khỏi mô hình và hiểu cách mô hình hoạt động. Điều này cung cấp cho các nhà phát triển một cái nhìn tổng quan về tác động của thành phần cụ thể đó đối với hiệu suất của mô hình.
Tác động của Kiến trúc Mô hình
Kiến trúc mô hình có tác động đáng kể đến hiệu suất của mô hình, đặc biệt là khi mô hình được mở rộng quy mô hoặc các thông số của dữ liệu đào tạo trước được sửa đổi.
Hình dưới đây thảo luận về tác động của việc thay đổi kiến trúc như thế nào ảnh hưởng đến chất lượng của các tính năng đã được đào tạo trước bằng cách đánh giá tập dữ liệu ImageNet tuyến tính. Các tính năng đã được đào tạo trước có thể được thăm dò trực tiếp trong trường hợp này vì đánh giá không thuận lợi cho mô hình trả về độ chính xác cao khi được đào tạo từ đầu trên tập dữ liệu ImageNet.

Có thể thấy rằng đối với các kiến trúc ResNeXts và ResNet, các tính năng được lấy từ lớp trước cuối cùng hoạt động tốt hơn với các cài đặt hiện tại. Mặt khác, kiến trúc RegNet vượt trội so với các kiến trúc khác.
Tổng thể, có thể kết luận rằng tăng khả năng mô hình có tác động tích cực đến chất lượng của các tính năng và có một lợi ích logarit đối với hiệu suất của mô hình.
Phân cấp Dữ liệu Đào tạo trước
Có hai lý do chính tại sao đào tạo một mô hình trên một tập dữ liệu lớn hơn có thể cải thiện chất lượng của các tính năng thị giác mà mô hình học: nhiều hình ảnh duy nhất và nhiều tham số. Hãy xem xét ngắn gọn cách những lý do này ảnh hưởng đến hiệu suất của mô hình.
Tăng Số lượng Hình ảnh Duy nhất

Hình trên so sánh hai kiến trúc khác nhau, RegNet8 và RegNet16, có cùng số lượng tham số nhưng được đào tạo trên số lượng hình ảnh duy nhất khác nhau. Mô hình SEER đào tạo các mô hình trong 32 kỷ tương ứng với một tỷ hình ảnh hoặc 32 kỷ cho 32 hình ảnh duy nhất và với một sóng cosine học tập duy nhất.
Có thể thấy rằng để mô hình hoạt động tốt, số lượng hình ảnh duy nhất được cung cấp cho mô hình nên lý tưởng là cao hơn. Trong trường hợp này, mô hình hoạt động tốt khi nó được cung cấp các hình ảnh duy nhất nhiều hơn số hình ảnh trong tập dữ liệu ImageNet.
Nhiều Tham số
Hình dưới đây cho thấy hiệu suất của mô hình khi được đào tạo trên một tỷ hình ảnh bằng cách sử dụng kiến trúc RegNet-128GF. Có thể thấy rằng hiệu suất của mô hình tăng dần khi số lượng tham số tăng lên.

Thị giác máy tính Tự giám sát trong Thế giới Thực
Cho đến bây giờ, chúng ta đã thảo luận về cách học tự giám sát và mô hình SEER cho thị giác máy tính hoạt động trong lý thuyết. Bây giờ, hãy xem xét cách thị giác máy tính tự giám sát hoạt động trong các kịch bản thực tế và tại sao SEER là tương lai của thị giác máy tính tự giám sát.
Mô hình SEER cạnh tranh công việc được thực hiện trong ngành Xử lý Ngôn ngữ Tự nhiên, nơi các mô hình hàng đầu sử dụng trillions của dữ liệu và tham số, cùng với trillions từ văn bản trong quá trình đào tạo trước mô hình. Hiệu suất trên các nhiệm vụ hạ nguồn nói chung tăng lên với sự tăng lên của số lượng dữ liệu đầu vào để đào tạo mô hình và điều tương tự cũng đúng với các nhiệm vụ thị giác máy tính.
Tuy nhiên, sử dụng các kỹ thuật học tự giám sát cho Xử lý Ngôn ngữ Tự nhiên khác với sử dụng học tự giám sát cho thị giác máy tính. Điều này là do khi xử lý văn bản, các khái niệm ngữ nghĩa thường bị phá vỡ thành từ rời rạc, nhưng khi xử lý hình ảnh, mô hình phải quyết định pixel nào thuộc về khái niệm nào.
Hơn nữa, các hình ảnh khác nhau có các chế độ xem khác nhau và ngay cả khi nhiều hình ảnh có cùng một đối tượng, khái niệm có thể thay đổi đáng kể. Ví dụ, hãy xem xét một tập dữ liệu với hình ảnh của một con mèo. Mặc dù đối tượng chính, con mèo, là chung cho tất cả các hình ảnh, khái niệm có thể thay đổi đáng kể vì con mèo có thể đang đứng yên trong một hình ảnh, trong khi nó có thể đang chơi với một quả bóng trong hình ảnh tiếp theo và như vậy.
Bởi vì hình ảnh thường có các khái niệm thay đổi, điều quan trọng là mô hình phải xem một lượng lớn hình ảnh để nắm bắt được sự khác biệt xung quanh cùng một khái niệm.
Phân cấp mô hình thành công để làm việc hiệu quả với dữ liệu hình ảnh cao chiều và phức tạp cần hai thành phần:
- Một mạng nơ-ron tích chập hoặc CNN đủ lớn để nắm bắt và học các khái niệm thị giác từ một tập dữ liệu hình ảnh rất lớn.
- Một thuật toán có thể học các mẫu từ một lượng lớn hình ảnh mà không cần nhãn, chú thích hoặc siêu dữ liệu.
Mô hình SEER nhằm áp dụng các thành phần trên vào lĩnh vực thị giác máy tính. Mô hình SEER nhằm khai thác các tiến bộ được thực hiện bởi SwAV, một khung học tự giám sát sử dụng phân cụm trực tuyến để nhóm hoặc ghép các hình ảnh có khái niệm thị giác song song và tận dụng những điểm tương đồng này để xác định mẫu tốt hơn.

Với kiến trúc SwAV, mô hình SEER có thể làm cho việc sử dụng học tự giám sát trong thị giác máy tính hiệu quả hơn và giảm thời gian đào tạo xuống 6 lần.
Hơn nữa, đào tạo mô hình ở quy mô lớn, ở quy mô này, trên một tỷ hình ảnh, đòi hỏi một kiến trúc mô hình hiệu quả không chỉ về thời gian chạy và bộ nhớ, mà còn về độ chính xác. Đó là nơi các mô hình RegNet phát huy tác dụng vì các mô hình RegNets là các mô hình ConvNets có thể mở rộng đến hàng tỷ tham số và có thể được tối ưu hóa theo nhu cầu để tuân thủ các hạn chế về bộ nhớ và thời gian chạy.
Kết luận: Một Tương lai Tự giám sát
Học tự giám sát đã là một chủ đề chính trong ngành AI và ML trong một thời gian vì nó cho phép các mô hình AI học thông tin trực tiếp từ một lượng lớn dữ liệu có sẵn ngẫu nhiên trên internet thay vì dựa vào các tập dữ liệu được kiểm duyệt và gắn nhãn cẩn thận có mục đích đào tạo mô hình AI.
Học tự giám sát là một khái niệm quan trọng cho tương lai của AI và ML vì nó có tiềm năng cho phép các nhà phát triển tạo ra các mô hình AI thích nghi tốt với các kịch bản thực tế và có nhiều trường hợp sử dụng hơn là có một mục đích cụ thể và SEER là một cột mốc trong việc triển khai học tự giám sát trong ngành công nghiệp thị giác máy tính.
Mô hình SEER thực hiện bước đầu tiên trong việc chuyển đổi ngành công nghiệp thị giác máy tính và giảm sự phụ thuộc của chúng ta vào các tập dữ liệu đã được gắn nhãn. Mô hình SEER nhằm mục đích loại bỏ nhu cầu gắn nhãn tập dữ liệu, điều này sẽ cho phép các nhà phát triển làm việc với một lượng lớn và đa dạng dữ liệu. Việc triển khai SEER đặc biệt hữu ích cho các nhà phát triển đang làm việc trên các mô hình liên quan đến các lĩnh vực có hình ảnh hoặc siêu dữ liệu hạn chế như ngành y tế.
Hơn nữa, việc loại bỏ các chú thích của con người sẽ cho phép các nhà phát triển phát triển và triển khai mô hình nhanh hơn, điều này sẽ cho phép họ phản ứng với các tình huống phát triển nhanh và chính xác hơn.












