Trí tuệ nhân tạo

Sapiens: Nền tảng cho các mô hình tầm nhìn của con người

Published September 9, 2024

Updated April 3, 2026

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

Sự thành công đáng kể của việc tiền huấn luyện quy mô lớn tiếp theo là tinh chỉnh cụ thể cho nhiệm vụ cho mô hình ngôn ngữ đã thiết lập phương pháp này như một thực hành tiêu chuẩn. Tương tự, các phương pháp trình nhìn máy tính đang dần chấp nhận các quy mô dữ liệu rộng lớn cho việc tiền huấn luyện. Sự xuất hiện của các tập dữ liệu lớn, chẳng hạn như LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome và YFCC100M, đã cho phép khám phá một tập dữ liệu vượt quá phạm vi của các điểm chuẩn truyền thống. Các công việc nổi bật trong lĩnh vực này bao gồm DINOv2, MAWS và AIM. DINOv2 đạt được hiệu suất tốt nhất trong việc tạo ra các tính năng tự giám sát bằng cách mở rộng phương pháp iBot tương phản trên tập dữ liệu LDV-142M. MAWS nghiên cứu việc mở rộng các mã hóa tự động có mặt nạ (MAE) trên tỷ tỷ hình ảnh. AIM khám phá khả năng mở rộng của tiền huấn luyện tự hồi quy tương tự như BERT cho các biến thể trình nhìn. Ngược lại với các phương pháp này, chủ yếu tập trung vào tiền huấn luyện hình ảnh chung hoặc phân loại hình ảnh không có shot, Sapiens thực hiện một cách tiếp cận lấy con người làm trung tâm một cách khác biệt: Các mô hình của Sapiens tận dụng một bộ sưu tập lớn hình ảnh con người để tiền huấn luyện, sau đó tinh chỉnh cho một loạt các nhiệm vụ liên quan đến con người. Việc theo đuổi số hóa con người 3D quy mô lớn vẫn là một mục tiêu quan trọng trong trình nhìn máy tính.

Đã có những tiến bộ đáng kể trong môi trường được kiểm soát hoặc trong phòng thu, nhưng vẫn còn những thách thức khi mở rộng các phương pháp này sang môi trường không bị giới hạn. Để giải quyết những thách thức này, việc phát triển các mô hình đa năng có khả năng thực hiện nhiều nhiệm vụ cơ bản, chẳng hạn như ước tính điểm then chốt, phân đoạn bộ phận cơ thể, ước tính độ sâu và dự đoán pháp tuyến bề mặt từ hình ảnh trong môi trường tự nhiên, là rất quan trọng. Trong công việc này, Sapiens nhằm mục đích phát triển các mô hình cho các nhiệm vụ tầm nhìn của con người thiết yếu này để tổng quát hóa các thiết lập trong tự nhiên. Hiện tại, các mô hình ngôn ngữ công khai lớn nhất chứa hơn 100B tham số, trong khi các mô hình ngôn ngữ được sử dụng thường xuyên hơn chứa khoảng 7B tham số. Ngược lại, Các biến thể trình nhìn (ViT), mặc dù chia sẻ kiến trúc tương tự, chưa được mở rộng thành công đến mức này. Mặc dù có những nỗ lực đáng chú ý trong hướng này, bao gồm cả việc phát triển một ViT-4B dày được đào tạo trên cả văn bản và hình ảnh, và việc xây dựng các kỹ thuật để đào tạo ổn định một ViT-22B, nhưng các xương sống tầm nhìn được sử dụng phổ biến vẫn nằm trong khoảng từ 300M đến 600M tham số và chủ yếu được tiền huấn luyện ở độ phân giải hình ảnh khoảng 224 pixel. Tương tự, các mô hình tạo hình ảnh dựa trên biến thể trình nhìn hiện có, chẳng hạn như DiT, sử dụng ít hơn 700M tham số và hoạt động trên không gian 潛 ẩn được nén cao. Để giải quyết khoảng trống này, Sapiens giới thiệu một bộ sưu tập các mô hình ViT lớn, độ phân giải cao được tiền huấn luyện bản địa ở độ phân giải hình ảnh 1024 pixel trên hàng triệu hình ảnh con người.

Sapiens trình bày một họ mô hình cho bốn nhiệm vụ tầm nhìn của con người cơ bản: ước tính tư thế 2D, phân đoạn bộ phận cơ thể, ước tính độ sâu và dự đoán pháp tuyến bề mặt. Các mô hình Sapiens hỗ trợ bản địa 1K độ phân giải cao và cực kỳ dễ dàng thích nghi với các nhiệm vụ cá nhân bằng cách chỉ tinh chỉnh các mô hình được tiền huấn luyện trên hơn 300 triệu hình ảnh con người trong tự nhiên. Sapiens quan sát thấy rằng, với cùng một ngân sách tính toán, tiền huấn luyện tự giám sát trên một tập dữ liệu được kiểm duyệt của hình ảnh con người đáng kể tăng cường hiệu suất cho một tập hợp đa dạng các nhiệm vụ lấy con người làm trung tâm. Các mô hình kết quả thể hiện sự tổng quát hóa đáng kể đến dữ liệu trong tự nhiên, ngay cả khi dữ liệu được dán nhãn là khan hiếm hoặc hoàn toàn tổng hợp. Thiết kế mô hình đơn giản cũng mang lại khả năng mở rộng – hiệu suất mô hình trên các nhiệm vụ được cải thiện khi số lượng tham số tăng từ 0,3 đến 2 tỷ. Sapiens liên tục vượt qua các đường cơ sở hiện có trên các điểm chuẩn lấy con người làm trung tâm khác nhau, đạt được những cải tiến đáng kể so với kết quả tốt nhất trước đó: 7,6 mAP trên Humans-5K (tư thế), 17,1 mIoU trên Humans-2K (phân đoạn), 22,4% RMSE tương đối trên Hi4D (độ sâu) và 53,5% lỗi góc tương đối trên THuman2 (pháp tuyến).

Sapiens : Breakthrough trong các mô hình tầm nhìn của con người

Những năm gần đây đã chứng kiến những bước tiến đáng kể trong việc tạo ra hình ảnh con người chân thực trong 2D và 3D. Sự thành công của những phương pháp này chủ yếu là do việc ước tính mạnh mẽ các tài sản như điểm then chốt 2D, phân đoạn bộ phận cơ thể mịn, độ sâu và pháp tuyến bề mặt. Tuy nhiên, việc ước tính mạnh mẽ và chính xác những tài sản này vẫn còn là một lĩnh vực nghiên cứu tích cực, và các hệ thống phức tạp để tăng cường hiệu suất cho từng nhiệm vụ riêng lẻ thường cản trở việc áp dụng rộng rãi hơn. Hơn nữa, việc thu được chú thích chính xác trong tự nhiên là rất khó để mở rộng quy mô. Mục tiêu của Sapiens là cung cấp một khuôn khổ thống nhất và các mô hình để suy luận những tài sản này trong tự nhiên, mở khóa một loạt các ứng dụng lấy con người làm trung tâm cho mọi người.

Sapiens cho rằng những mô hình lấy con người làm trung tâm như vậy nên đáp ứng ba tiêu chí: tổng quát hóa, khả năng ứng dụng rộng rãi và độ trung thực cao. Tổng quát hóa đảm bảo sự mạnh mẽ đối với các điều kiện chưa từng thấy, cho phép mô hình hoạt động nhất quán trên các môi trường khác nhau. Khả năng ứng dụng rộng rãi chỉ ra sự đa năng của mô hình, khiến nó phù hợp với một loạt các nhiệm vụ với các điều chỉnh tối thiểu. Độ trung thực cao biểu thị khả năng của mô hình để tạo ra đầu ra chính xác, độ phân giải cao, thiết yếu cho các nhiệm vụ tạo ra con người trung thực. Bài viết này chi tiết về việc phát triển các mô hình thể hiện những thuộc tính này, được gọi chung là Sapiens.

Theo những hiểu biết, Sapiens tận dụng các tập dữ liệu lớn và các kiến trúc mô hình có khả năng mở rộng, là chìa khóa cho tổng quát hóa. Đối với khả năng ứng dụng rộng rãi hơn, Sapiens áp dụng phương pháp tiền huấn luyện sau đó tinh chỉnh, cho phép thích nghi sau tiền huấn luyện với các nhiệm vụ cụ thể với các điều chỉnh tối thiểu. Phương pháp này đặt ra một câu hỏi quan trọng: Loại dữ liệu nào là hiệu quả nhất cho việc tiền huấn luyện? Với các giới hạn tính toán, nên tập trung vào việc thu thập càng nhiều hình ảnh con người càng tốt, hay là nên tiền huấn luyện trên một tập dữ liệu ít được kiểm duyệt hơn để phản ánh tốt hơn sự biến đổi của thế giới thực? Các phương pháp hiện có thường bỏ qua phân phối dữ liệu tiền huấn luyện trong bối cảnh các nhiệm vụ hạ nguồn. Để nghiên cứu ảnh hưởng của phân phối dữ liệu tiền huấn luyện đến các nhiệm vụ cụ thể của con người, Sapiens thu thập tập dữ liệu Humans-300M, bao gồm 300 triệu hình ảnh con người đa dạng. Những hình ảnh không được dán nhãn này được sử dụng để tiền huấn luyện một họ các biến thể trình nhìn từ đầu, với số lượng tham số từ 300M đến 2B.

Trong số các phương pháp tự giám sát khác nhau để học các tính năng trực quan chung từ các tập dữ liệu lớn, Sapiens chọn phương pháp mã hóa tự động có mặt nạ (MAE) vì sự đơn giản và hiệu quả của nó trong việc tiền huấn luyện. MAE, có một mô hình suy luận một lần so với các chiến lược tương phản hoặc đa suy luận, cho phép xử lý một lượng lớn hình ảnh với cùng một nguồn lực tính toán. Để có độ trung thực cao hơn, trái ngược với các phương pháp trước đây, Sapiens tăng độ phân giải đầu vào bản địa của việc tiền huấn luyện lên 1024 pixel, dẫn đến tăng khoảng 4× FLOPs so với xương sống tầm nhìn lớn nhất hiện có. Mỗi mô hình được tiền huấn luyện trên 1,2 nghìn tỷ token. Đối với việc tinh chỉnh trên các nhiệm vụ lấy con người làm trung tâm, Sapiens sử dụng một kiến trúc mã hóa-giải mã nhất quán. Bộ mã hóa được khởi tạo với trọng số từ việc tiền huấn luyện, trong khi bộ giải mã, một đầu nhẹ và cụ thể cho nhiệm vụ, được khởi tạo ngẫu nhiên. Cả hai thành phần sau đó được tinh chỉnh từ đầu đến cuối. Sapiens tập trung vào bốn nhiệm vụ chính: ước tính tư thế 2D, phân đoạn bộ phận cơ thể, độ sâu và dự đoán pháp tuyến, như được trình bày trong hình sau.

Thống nhất với các nghiên cứu trước đây, Sapiens khẳng định ảnh hưởng quan trọng của chất lượng nhãn đến hiệu suất trong tự nhiên của mô hình. Các điểm chuẩn công khai thường chứa nhãn nhiễu, cung cấp tín hiệu giám sát không nhất quán trong quá trình tinh chỉnh mô hình. Đồng thời, việc sử dụng chú thích chính xác và chi tiết để phù hợp với mục tiêu chính của Sapiens về số hóa con người 3D là rất quan trọng. Để đạt được điều này, Sapiens đề xuất một tập hợp dày đặc hơn của các điểm then chốt toàn thân 2D cho ước tính tư thế và một từ vựng lớp chi tiết cho phân đoạn bộ phận cơ thể, vượt quá phạm vi của các tập dữ liệu trước đây. Cụ thể, Sapiens giới thiệu một bộ sưu tập toàn diện gồm 308 điểm then chốt bao gồm cơ thể, tay, chân, bề mặt và khuôn mặt. Ngoài ra, Sapiens mở rộng từ vựng lớp phân đoạn lên 28 lớp, bao gồm các bộ phận cơ thể như tóc, lưỡi, răng, môi trên / dưới và thân. Để đảm bảo chất lượng và tính nhất quán của chú thích và mức độ tự động hóa cao, Sapiens sử dụng một thiết lập thu đa góc để thu thập chú thích tư thế và phân đoạn. Sapiens cũng sử dụng dữ liệu tổng hợp lấy con người làm trung tâm cho ước tính độ sâu và pháp tuyến, tận dụng 600 bản quét chi tiết từ RenderPeople để tạo ra các bản đồ độ sâu và pháp tuyến bề mặt độ phân giải cao. Sapiens chứng minh rằng sự kết hợp của tiền huấn luyện quy mô lớn trên miền với chú thích chất lượng cao nhưng hạn chế dẫn đến tổng quát hóa trong tự nhiên mạnh mẽ. Tổng thể, phương pháp của Sapiens cho thấy một chiến lược hiệu quả để phát triển các mô hình phân biệt chính xác cao có khả năng hoạt động trong các kịch bản thế giới thực mà không cần thu thập một tập hợp chú thích đa dạng và tốn kém.

Sapiens : Phương pháp và Kiến trúc

Sapiens tuân theo phương pháp mã hóa tự động có mặt nạ (MAE) cho việc tiền huấn luyện. Mô hình được đào tạo để tái tạo hình ảnh con người ban đầu từ quan sát một phần của nó. Giống như tất cả các mã hóa tự động, mô hình của Sapiens có một bộ mã hóa ánh xạ hình ảnh nhìn thấy đến một biểu diễn 潛 ẩn và một bộ giải mã tái tạo hình ảnh ban đầu từ biểu diễn này. Tập dữ liệu tiền huấn luyện bao gồm cả hình ảnh đơn và đa con người, với mỗi hình ảnh được thay đổi kích thước thành một kích thước cố định với tỷ lệ khung hình vuông. Tương tự như ViT, hình ảnh được chia thành các bản vá không chồng lấp nhau với kích thước bản vá cố định. Một tập hợp con của các bản vá này được chọn ngẫu nhiên và bị che khuất, để lại những bản vá còn lại nhìn thấy được. Tỷ lệ bản vá bị che khuất so với bản vá nhìn thấy được, được gọi là tỷ lệ che khuất, vẫn cố định trong suốt quá trình đào tạo.

Các mô hình của Sapiens thể hiện sự tổng quát hóa trên nhiều đặc điểm hình ảnh, bao gồm tỷ lệ, cắt, tuổi và chủng tộc của đối tượng, và số lượng đối tượng. Mỗi mã token trong mô hình chiếm 0,02% diện tích hình ảnh so với 0,4% trong các ViT tiêu chuẩn, một sự giảm 16 lần – cung cấp lý luận giữa các mã token mịn cho các mô hình. Ngay cả với tỷ lệ che khuất tăng lên 95%, mô hình của Sapiens đạt được sự tái tạo hợp lý của giải phẫu con người trên các mẫu được giữ lại. Sự tái tạo của mô hình tiền huấn luyện của Sapiens trên hình ảnh con người không nhìn thấy được thể hiện trong hình sau.

Hơn nữa, Sapiens sử dụng một tập dữ liệu lớn độc quyền cho việc tiền huấn luyện, bao gồm khoảng 1 tỷ hình ảnh trong tự nhiên, tập trung độc quyền vào hình ảnh con người. Việc tiền xử lý bao gồm việc loại bỏ hình ảnh có watermark, văn bản, hình ảnh nghệ thuật hoặc các yếu tố không tự nhiên. Sapiens sau đó sử dụng một bộ phát hiện hộp giới hạn người sẵn có để lọc hình ảnh, giữ lại những hình ảnh có điểm số phát hiện trên 0,9 và kích thước hộp giới hạn trên 300 pixel. Hơn 248 triệu hình ảnh trong tập dữ liệu chứa nhiều đối tượng.

Ước tính tư thế 2D

Khung Sapien tinh chỉnh bộ mã hóa và bộ giải mã trong P trên nhiều bộ xương, bao gồm K = 17 [67], K = 133 [55] và một bộ xương chi tiết mới, với K = 308, như được hiển thị trong hình sau.

So với các định dạng hiện có với tối đa 68 điểm then chốt khuôn mặt, chú thích của Sapien bao gồm 243 điểm then chốt khuôn mặt, bao gồm các điểm đại diện xung quanh mắt, môi, mũi và tai. Thiết kế này được thiết kế để bắt chính xác các chi tiết tinh vi của biểu cảm khuôn mặt trong thế giới thực. Với những điểm then chốt này, khung Sapien đã chú thích thủ công 1 triệu hình ảnh ở độ phân giải 4K từ một thiết lập thu trong nhà. Tương tự như các nhiệm vụ trước, chúng tôi đặt kênh đầu ra của bộ giải mã ước tính pháp tuyến N là 3, tương ứng với các thành phần xyz của vectơ pháp tuyến tại mỗi pixel. Dữ liệu tổng hợp được tạo cũng được sử dụng làm giám sát cho ước tính pháp tuyến bề mặt.

Sapien : Thử nghiệm và Kết quả

Sapiens-2B được tiền huấn luyện bằng 1024 GPU A100 trong 18 ngày với PyTorch. Sapiens sử dụng bộ tối ưu hóa AdamW cho tất cả các thí nghiệm. Lịch trình học bao gồm một giai đoạn khởi động tuyến tính ngắn, tiếp theo là annealing cosine cho việc tiền huấn luyện và giảm tuyến tính cho việc tinh chỉnh. Tất cả các mô hình đều được tiền huấn luyện từ đầu ở độ phân giải 1024 × 1024 với kích thước bản vá 16. Đối với việc tinh chỉnh, hình ảnh đầu vào được thay đổi kích thước thành tỷ lệ 4: 3, tức là 1024 × 768. Sapiens áp dụng các tăng cường tiêu chuẩn như cắt, thay đổi kích thước, lật và biến dạng photometric. Một nền ngẫu nhiên từ các hình ảnh COCO không phải là con người được thêm vào cho các nhiệm vụ dự đoán phân đoạn, độ sâu và pháp tuyến. Điều quan trọng là Sapiens sử dụng tốc độ học phân biệt để bảo tồn tổng quát hóa, với tốc độ học thấp hơn cho các lớp ban đầu và tốc độ học cao hơn tiến bộ cho các lớp tiếp theo. Sự giảm tốc độ học theo lớp được đặt thành 0,85 với sự giảm trọng số 0,1 cho bộ mã hóa.

Các thông số kỹ thuật của Sapiens được chi tiết trong bảng sau. Theo một cách tiếp cận cụ thể, Sapiens ưu tiên việc mở rộng mô hình theo chiều rộng hơn là chiều sâu. Đáng chú ý, mô hình Sapiens-0,3B, mặc dù kiến trúc tương tự như ViT-Large truyền thống, bao gồm gấp 20 lần FLOPs do độ phân giải cao hơn.

Sapiens được tinh chỉnh cho ước tính tư thế khuôn mặt, cơ thể, chân và tay (K = 308) bằng cách sử dụng chú thích chất lượng cao. Đối với đào tạo, Sapiens sử dụng tập huấn luyện với 1M hình ảnh, và đối với đánh giá, nó sử dụng tập kiểm tra, được gọi là Humans5K, với 5K hình ảnh. Đánh giá tuân theo một cách tiếp cận từ trên xuống, nơi Sapiens sử dụng một bộ phát hiện hộp giới hạn người sẵn có để tạo hộp giới hạn và thực hiện suy luận tư thế con người đơn. Bảng 3 cho thấy so sánh giữa các mô hình Sapiens với các phương pháp hiện có cho ước tính tư thế toàn thân. Tất cả các phương pháp đều được đánh giá trên 114 điểm then chốt chung giữa từ vựng 308 điểm then chốt của Sapiens và từ vựng 133 điểm then chốt từ COCO-WholeBody. Sapiens-0,6B vượt qua trạng thái hiện tại của nghệ thuật, DWPose-l, với +2,8 AP. Không giống như DWPose, sử dụng một khuôn khổ học sinh-giáo viên phức tạp với sự khuếch tán tính năng được thiết kế riêng cho nhiệm vụ, Sapiens áp dụng một kiến trúc mã hóa-giải mã chung với tiền huấn luyện lấy con người làm trung tâm lớn.

Đáng chú ý, ngay cả với cùng số lượng tham số, các mô hình Sapiens thể hiện hiệu suất vượt trội so với các mô hình tương đương. Ví dụ, Sapiens-0,3B vượt qua VitPose+-L với +5,6 AP, và Sapiens-0,6B vượt qua VitPose+-H với +7,9 AP. Trong họ Sapiens, kết quả chỉ ra sự tương quan trực tiếp giữa kích thước mô hình và hiệu suất. Sapiens-2B thiết lập một trạng thái mới của nghệ thuật với 61,1 AP, một sự cải tiến đáng kể +7,6 AP so với kết quả tốt nhất trước đó. Mặc dù được tinh chỉnh với chú thích từ một studio thu trong nhà, Sapiens thể hiện sự tổng quát hóa mạnh mẽ đến các kịch bản thế giới thực, như được hiển thị trong hình sau.

Sapiens được tinh chỉnh và đánh giá bằng cách sử dụng từ vựng phân đoạn 28 lớp. Tập huấn luyện bao gồm 100K hình ảnh, trong khi tập kiểm tra, Humans-2K, bao gồm 2K hình ảnh. Sapiens được so sánh với các phương pháp phân đoạn bộ phận cơ thể hiện có được tinh chỉnh trên cùng một tập huấn luyện, sử dụng các điểm kiểm tra tiền huấn luyện được đề xuất bởi mỗi phương pháp làm khởi tạo. Tương tự như ước tính tư thế, Sapiens cho thấy sự tổng quát hóa trong phân đoạn, như được trình bày trong bảng sau.

Đáng chú ý, mô hình nhỏ nhất, Sapiens-0,3B, vượt qua các phương pháp phân đoạn hiện có như Mask2Former và DeepLabV3+ với 12,6 mIoU do độ phân giải cao hơn và tiền huấn luyện lấy con người làm trung tâm lớn. Hơn nữa, việc tăng kích thước mô hình còn cải thiện hiệu suất phân đoạn. Sapiens-2B đạt được hiệu suất tốt nhất, với 81,2 mIoU và 89,4 mAcc trên tập kiểm tra, như được hiển thị trong hình sau cho thấy kết quả định tính của các mô hình Sapiens.

Kết luận

Sapiens đại diện cho một bước tiến đáng kể trong việc thúc đẩy các mô hình tầm nhìn của con người vào lĩnh vực các mô hình nền tảng. Các mô hình Sapiens thể hiện khả năng tổng quát hóa mạnh mẽ trên nhiều nhiệm vụ lấy con người làm trung tâm. Hiệu suất tốt nhất của nghệ thuật được cho là do: (i) tiền huấn luyện quy mô lớn trên một tập dữ liệu được kiểm duyệt cụ thể để hiểu con người, (ii) mở rộng xương sống biến thể trình nhìn độ phân giải cao và dung lượng cao, và (iii) chú thích chất lượng cao trên dữ liệu phòng thu tăng cường và tổng hợp. Các mô hình Sapiens có tiềm năng trở thành một khối xây dựng quan trọng cho nhiều nhiệm vụ hạ nguồn và cung cấp quyền truy cập vào các xương sống tầm nhìn chất lượng cao cho một phần đáng kể của cộng đồng.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.