sơ khai Nghiên cứu của Google xác định nút cổ chai trong các phương pháp tiếp cận siêu quy mô đối với AI - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Nghiên cứu của Google xác định nút cổ chai trong các phương pháp tiếp cận siêu quy mô đối với AI

mm
cập nhật on

Một bài báo mới của Google Research chỉ ra rằng xu hướng hiện nay đối với việc quản lý các bộ dữ liệu có khối lượng rất lớn có thể phản tác dụng trong việc phát triển các hệ thống trí tuệ nhân tạo hiệu quả. Trên thực tế, nghiên cứu chỉ ra rằng các sản phẩm máy học tốt hơn có thể xuất hiện sau khi được đào tạo về ít bộ dữ liệu chính xác (tức là 'tệ hơn' về mặt kỹ thuật).

Nếu các nguyên tắc mà các nhà nghiên cứu thu được là hợp lệ, điều đó có nghĩa là các bộ dữ liệu 'siêu quy mô' như được phát hành gần đây LAION-400M (chứa 400 triệu cặp văn bản/hình ảnh) và dữ liệu đằng sau công cụ ngôn ngữ thần kinh GPT-3 (chứa 175 tỷ tham số), có khả năng phải chịu một loại 'giới hạn nhiệt' trong kiến ​​trúc máy học truyền thống và phổ biến và các phương pháp, theo đó khối lượng dữ liệu khổng lồ 'bão hòa' các ứng dụng hạ nguồn và ngăn cản chúng khái quát hóa theo cách hữu ích.

Các nhà nghiên cứu cũng đề xuất các phương pháp thay thế để suy nghĩ lại về kiến ​​trúc tập dữ liệu siêu cấp, nhằm khắc phục sự mất cân bằng.

Bài báo viết:

'Tìm hiểu sâu hơn để hiểu lý do dẫn đến những hiện tượng này, chúng tôi chỉ ra rằng hành vi bão hòa mà chúng tôi quan sát được có liên quan chặt chẽ với cách mà các biểu diễn phát triển qua các lớp của mô hình. Chúng tôi đưa ra một kịch bản thậm chí còn cực đoan hơn khi hiệu suất ở thượng nguồn và hạ lưu trái ngược nhau. Nghĩa là, để có hiệu suất xuôi dòng tốt hơn, chúng ta cần giảm độ chính xác ngược dòng.'

Sản phẩm nghiên cứu có tiêu đề Khám phá các giới hạn của đào tạo trước quy mô lớnvà đến từ bốn tác giả tại Google Research.

Điều tra 'bão hòa'

Các tác giả thách thức các giả định phổ biến về máy học>mối quan hệ dữ liệu trong thời đại dữ liệu siêu tỷ lệ: rằng các mô hình chia tỷ lệ và kích thước dữ liệu cải thiện đáng kể hiệu suất (một niềm tin đã được củng cố trong sự cường điệu về GPT-3 kể từ khi ra mắt); và rằng hiệu suất được cải thiện này 'đi qua' các tác vụ hạ nguồn theo cách tuyến tính (tức là mong muốn), để các thuật toán trên thiết bị cuối cùng được tung ra thị trường, bắt nguồn từ các bộ dữ liệu khổng lồ và các mô hình được đào tạo chưa qua kiểm soát, được hưởng lợi hoàn toàn từ những hiểu biết sâu sắc về các kiến ​​trúc thượng nguồn, kích thước đầy đủ.

'Những quan điểm này,' các nhà nghiên cứu lưu ý 'đề xuất rằng việc dành nỗ lực tính toán và nghiên cứu để cải thiện hiệu suất trên một kho văn bản khổng lồ sẽ được đền đáp vì điều đó sẽ cho phép chúng tôi giải quyết nhiều tác vụ hạ nguồn gần như miễn phí.'

Nhưng bài báo cho rằng việc thiếu tài nguyên máy tính và các phương pháp đánh giá mô hình 'kinh tế' sau đó đang góp phần tạo ra ấn tượng sai về động lực quan hệ giữa khối lượng dữ liệu và các hệ thống AI hữu ích. Các tác giả xác định thói quen này là 'một thiếu sót lớn', vì cộng đồng nghiên cứu thường cho rằng các kết quả cục bộ (tích cực) sẽ chuyển thành các triển khai hữu ích sau này:

'[Do] để tính toán các giới hạn, hiệu suất cho các lựa chọn giá trị siêu tham số khác nhau không được báo cáo. Các biểu đồ chia tỷ lệ có vẻ thuận lợi hơn nếu siêu tham số được chọn cho mỗi tỷ lệ được cố định hoặc được xác định bằng một hàm chia tỷ lệ đơn giản.'

Các nhà nghiên cứu tuyên bố thêm rằng nhiều nghiên cứu mở rộng quy mô được đo lường không phải theo quy mô tuyệt đối, mà là những cải tiến gia tăng so với công nghệ tiên tiến nhất (SotA), quan sát thấy rằng 'không có lý do gì, tiên nghiệm, để việc chia tỷ lệ nằm ngoài phạm vi phạm vi nghiên cứu'.

Tập huấn trước

Bài viết đề cập đến thực tiễn 'đào tạo trước', một biện pháp được thiết kế để tiết kiệm tài nguyên máy tính và cắt giảm khoảng thời gian thường khủng khiếp cần thiết để đào tạo một mô hình trên dữ liệu quy mô lớn từ con số 0. Ảnh chụp nhanh trước khi đào tạo xử lý 'ABC' theo cách mà dữ liệu trong một miền sẽ được khái quát hóa trong quá trình đào tạo và thường được sử dụng trong nhiều lĩnh vực và chuyên môn khác nhau của máy học, từ Xử lý ngôn ngữ tự nhiên (NLP) cho đến deepfake.

Nghiên cứu học thuật trước đây đã tìm thấy rằng đào tạo trước có thể cải thiện đáng kể độ mạnh mẽ và độ chính xác của mô hình, nhưng bài báo mới cho thấy rằng độ phức tạp của các tính năng, ngay cả trong các mẫu đào tạo trước được đào tạo tương đối ngắn, có thể mang lại nhiều lợi ích hơn nếu chuyển sang các quy trình sau này trong quy trình .

Tuy nhiên, điều này không thể xảy ra nếu các nhà nghiên cứu tiếp tục phụ thuộc vào các mô hình được đào tạo trước sử dụng phương pháp hay nhất hiện tại để áp dụng tỷ lệ học tập, theo nghiên cứu kết luận, điều này có thể ảnh hưởng đáng kể đến độ chính xác cuối cùng của các ứng dụng cuối cùng của công việc. Về mặt này, các tác giả lưu ý rằng "người ta không thể hy vọng tìm thấy một trạm kiểm soát được đào tạo trước thực hiện tốt tất cả các nhiệm vụ xuôi dòng có thể".

Trường The Study

Để thiết lập hiệu ứng bão hòa, các tác giả đã tiến hành 4800 thử nghiệm trên Vision Transformers, ResNets và MLP-Mixers, mỗi thử nghiệm có một số tham số khác nhau, từ 10 triệu đến 10 tỷ, tất cả đều được đào tạo trên bộ dữ liệu có khối lượng lớn nhất hiện có trong các lĩnh vực tương ứng, bao gồm ImageNet21K và của riêng Google JFT-300M.

Các kết quả, bài báo tuyên bố, cho thấy rằng đa dạng dữ liệu nên được coi là một trục bổ sung khi cố gắng 'mở rộng quy mô' dữ liệu, tham số mô hình và thời gian tính toán. Như hiện tại, việc tập trung nhiều tài nguyên đào tạo (và sự chú ý của nhà nghiên cứu) vào phần ngược dòng của đường ống AI đang làm nổ tung các ứng dụng xuôi dòng một cách hiệu quả với vô số tham số lên đến điểm 'bão hòa', làm giảm khả năng điều hướng của các thuật toán được triển khai thông qua các tính năng và thực hiện các phép biến đổi suy luận hoặc hiệu ứng.

Bài báo kết luận:

'Thông qua một nghiên cứu sâu rộng, chúng tôi xác định rằng khi chúng tôi cải thiện hiệu suất của tác vụ ngược dòng bằng cách mở rộng quy mô hoặc siêu tham số và các lựa chọn kiến ​​trúc, thì hiệu suất của các tác vụ xuôi dòng cho thấy hành vi bão hòa. Ngoài ra, chúng tôi cung cấp bằng chứng thực nghiệm mạnh mẽ rằng, trái ngược với câu chuyện thông thường, việc mở rộng quy mô không dẫn đến giải pháp một mô hình phù hợp với tất cả.'