ปัญญาประดิษฐ์

Sapiens: พื้นฐานสำหรับโมเดลการมองเห็นของมนุษย์

Published September 9, 2024

Updated April 27, 2026

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

ความสำเร็จที่น่าประทับใจของการฝึกอบรมขนาดใหญ่ตามด้วยการปรับให้เหมาะสมสำหรับงานเฉพาะสำหรับการสร้างแบบจำลองภาษาได้กำหนดแนวทางนี้ให้เป็นแนวปฏิบัติที่เป็นมาตรฐาน ในทำนองเดียวกัน วิธีการมองเห็นของคอมพิวเตอร์กำลังยอมรับขนาดข้อมูลที่กว้างขวางสำหรับการฝึกอบรมก่อนหน้านี้ การเกิดขึ้นของชุดข้อมูลขนาดใหญ่ เช่น LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome และ YFCC100M ได้ทำให้สามารถสำรวจข้อมูลได้มากกว่าขอบเขตของมาตรฐานแบบดั้งเดิม งานที่โดดเด่นในโดเมนนี้รวมถึง DINOv2, MAWS และ AIM DINOv2 สามารถบรรลุประสิทธิภาพระดับแนวหน้าในการสร้างคุณลักษณะแบบไม่มีการกำกับด้วยการปรับขนาดวิธีการ iBot ที่เป็นคอนทราสต์บนชุดข้อมูล LDV-142M MAWS ศึกษาการปรับขนาดของตัวเข้ารหัส-ถอดรหัสแบบอัตโนมัติ (MAE) บนภาพล้านภาพ AIM ตรวจสอบความสามารถในการปรับขนาดการฝึกอบรมแบบอัตโนมัติแบบมองเห็นเช่นเดียวกับ BERT สำหรับวิชาแปลงภาพ ในทางตรงกันข้ามกับวิธีการเหล่านี้ ซึ่งมุ่งเน้นไปที่การฝึกอบรมภาพทั่วไปหรือการจำแนกภาพแบบไม่มีการกำกับ Sapiens ใช้แนวทางที่มุ่งเน้นไปที่มนุษย์อย่างชัดเจน: โมเดลของ Sapiens ใช้การรวบรวมภาพมนุษย์ขนาดใหญ่สำหรับการฝึกอบรมก่อนหน้านี้ และปรับให้เหมาะสมสำหรับชุดงานที่เกี่ยวข้องกับมนุษย์ การติดตามการสร้างแบบจำลอง 3 มิติของมนุษย์ยังคงเป็นเป้าหมายสำคัญในด้านการมองเห็นของคอมพิวเตอร์

มีการทำความก้าวหน้าอย่างมีนัยสำคัญภายในสภาพแวดล้อมที่ควบคุมหรือในสตูดิโอ แต่ยังคงมีความท้าทายในการขยายวิธีการเหล่านี้ไปยังสภาพแวดล้อมที่ไม่มีข้อจำกัด เพื่อแก้ไขความท้าทายเหล่านี้ การพัฒนาวิธีการที่สามารถทำงานได้หลายอย่าง เช่น การประมาณค่าจุดสำคัญ การแบ่งส่วนส่วนของร่างกาย การประมาณค่าความลึก และการคาดการณ์ปกติผิวจากภาพในสถานการณ์ตามธรรมชาติ เป็นสิ่งจำเป็น ในงานนี้ Sapiens มีเป้าหมายที่จะพัฒนาวิธีการสำหรับงานที่เกี่ยวข้องกับการมองเห็นของมนุษย์ที่สำคัญเหล่านี้ ซึ่งสามารถใช้ได้ในสถานการณ์ตามธรรมชาติ

ปัจจุบัน โมเดลภาษาที่ใหญ่ที่สุดที่สามารถเข้าถึงได้สาธารณะมีจำนวนพารามิเตอร์มากกว่า 100B ในขณะที่โมเดลภาษาที่ใช้บ่อยมีจำนวนพารามิเตอร์ประมาณ 7B ในทางตรงกันข้าม Transformer ของการมองเห็น (ViT) แม้ว่าจะมีโครงสร้างที่คล้ายกัน แต่ก็ยังไม่ได้ถูกปรับขนาดไปจนถึงระดับนี้อย่างสำเร็จ ในขณะที่มีความพยายามที่น่าสนใจในด้านนี้ รวมถึงการพัฒนา ViT-4B ที่ถูกฝึกอบรมทั้งภาษาและภาพ และการสร้างเทคนิคสำหรับการฝึกอบรมที่เสถียรของ ViT-22B โมเดลหลังที่ใช้บ่อยยังคงมีจำนวนพารามิเตอร์ระหว่าง 300M ถึง 600M และโดยทั่วไปจะถูกฝึกอบรมก่อนที่ความละเอียดของภาพประมาณ 224 พิกเซล ในทำนองเดียวกัน โมเดลการสร้างภาพแบบTransformer ที่มีอยู่ เช่น DiT ใช้พารามิเตอร์น้อยกว่า 700M และทำงานในพื้นที่ 潛伏ที่ถูกบีบอัดมาก เพื่อแก้ไขช่องว่างนี้ Sapiens นำเสนอชุดของโมเดล ViT ขนาดใหญ่และความละเอียดสูงซึ่งถูกฝึกอบรมก่อนที่ความละเอียดภาพ 1024 พิกเซล บนล้านภาพของมนุษย์

Sapiens นำเสนอชุดของโมเดลสำหรับงานที่เกี่ยวข้องกับการมองเห็นของมนุษย์สี่งานหลัก: การประมาณค่าโครงร่าง 2 มิติ การแบ่งส่วนส่วนของร่างกาย การประมาณค่าความลึก และการคาดการณ์ปกติผิว โมเดลของ Sapiens รองรับการอนุมานความละเอียดสูง 1K โดย nature และสามารถปรับให้เหมาะสมสำหรับงานเฉพาะได้อย่างง่ายดายโดยการปรับให้เหมาะสมของโมเดลที่ถูกฝึกอบรมก่อนบนภาพของมนุษย์มากกว่า 300 ล้านภาพในสถานการณ์ตามธรรมชาติ Sapiens สังเกตว่า เมื่อพิจารณาจากงบประมาณการคำนวณเท่ากัน การฝึกอบรมแบบไม่มีการกำกับบนชุดข้อมูลที่คัดเลือกของภาพมนุษย์สามารถเพิ่มประสิทธิภาพได้อย่างมีนัยสำคัญสำหรับชุดงานที่เกี่ยวข้องกับมนุษย์ที่หลากหลาย โมเดลที่ได้แสดงให้เห็นถึงการเรียนรู้ที่น่าประทับใจในสถานการณ์ตามธรรมชาติ แม้ว่าข้อมูลที่มีฉลากจะหายากหรือเป็นของสังเคราะห์เท่านั้น การออกแบบโมเดลที่เรียบง่ายยังช่วยให้สามารถปรับขนาดได้ — ประสิทธิภาพของโมเดลที่เพิ่มขึ้นเมื่อจำนวนพารามิเตอร์ขยายตั้งแต่ 0.3 ถึง 2 พันล้าน Sapiens คอยติดตามผลลัพธ์ที่ดีที่สุดในอดีตอย่างต่อเนื่องในงานที่เกี่ยวข้องกับการมองเห็นของมนุษย์ โดยบรรลุผลลัพธ์ที่ดีกว่าผลลัพธ์ที่ดีที่สุดในอดีตอย่างมีนัยสำคัญ: 7.6 mAP บน Humans-5K (โครงร่าง), 17.1 mIoU บน Humans-2K (การแบ่งส่วนส่วนของร่างกาย), 22.4% relative RMSE บน Hi4D (ความลึก) และ 53.5% relative angular error บน THuman2 (ปกติผิว)

Sapiens : การพัฒนาที่สำคัญในโมเดลการมองเห็นของมนุษย์

ในช่วงไม่กี่ปีที่ผ่านมา มีการก้าวหน้าอย่างมากในการสร้างมนุษย์ที่มีลักษณะเหมือนจริงใน 2 มิติและ 3 มิติ ความสำเร็จของวิธีการเหล่านี้สามารถอธิบายได้ด้วยการประมาณค่าที่มั่นคงและแม่นยำของสินทรัพย์ต่างๆ เช่น จุดสำคัญ 2 มิติ การแบ่งส่วนส่วนของร่างกายที่มีรายละเอียด การประมาณค่าความลึก และการคาดการณ์ปกติผิว อย่างไรก็ตาม การประมาณค่าที่มั่นคงและแม่นยำของสินทรัพย์เหล่านี้ยังคงเป็นเรื่องที่กำลังทำการวิจัยอยู่ และระบบที่ซับซ้อนในการเพิ่มประสิทธิภาพสำหรับงานเฉพาะอาจขัดขวางการนำไปใช้ได้อย่างกว้างขวาง

Sapiens แสดงให้เห็นว่าโมเดลที่เกี่ยวข้องกับมนุษย์ควรตอบสนองสามเกณฑ์: การเรียนรู้ที่ดี การใช้งานที่กว้างขวาง และคุณภาพสูง การเรียนรู้ที่ดีทำให้โมเดลมีความทนทานต่อสถานการณ์ที่ไม่เคยเห็นมาก่อน ทำให้สามารถทำงานได้อย่างสม่ำเสมอในสภาพแวดล้อมที่หลากหลาย การใช้งานที่กว้างขวางบ่งชี้ถึงความสามารถของโมเดลในการทำงานได้หลากหลาย โดยต้องมีการปรับเปลี่ยนน้อยที่สุด คุณภาพสูงแสดงถึงความสามารถของโมเดลในการสร้างผลลัพธ์ที่แม่นยำและละเอียดสูง ซึ่งจำเป็นสำหรับการสร้างมนุษย์ที่มีลักษณะเหมือนจริง

ตามข้อมูลเชิงลึก Sapiens ใช้ประโยชน์จากชุดข้อมูลขนาดใหญ่และโครงสร้างโมเดลที่สามารถปรับขนาดได้ ซึ่งเป็นสิ่งสำคัญสำหรับการเรียนรู้ที่ดี สำหรับการใช้งานที่กว้างขวาง Sapiens ใช้แนวทางการฝึกอบรมก่อนแล้วจึงปรับให้เหมาะสม ซึ่งช่วยให้สามารถปรับให้เหมาะสมสำหรับงานเฉพาะได้อย่างง่ายดายหลังการฝึกอบรมก่อน

Sapiens : วิธีการและโครงสร้าง

Sapiens ใช้แนวทางการฝึกอบรมแบบอัตโนมัติ (MAE) สำหรับการฝึกอบรมก่อน โมเดลถูกฝึกอบรมให้สร้างภาพมนุษย์ดั้งเดิมจากการสังเกตที่ไม่สมบูรณ์

การประมาณค่าโครงร่าง 2 มิติ

โครงร่าง Sapien ปรับให้เหมาะสมสำหรับการประมาณค่าโครงร่าง 2 มิติ โดยใช้โครงร่างที่มีรายละเอียดสูง

Sapien : การทดลองและผลลัพธ์

Sapiens-2B ถูกฝึกอบรมโดยใช้ 1024 A100 GPUs เป็นเวลา 18 วัน โดยใช้ PyTorch Sapiens ใช้ AdamW optimizer สำหรับการทดลองทั้งหมด

สรุป

Sapiens เป็นตัวแทนของขั้นตอนที่สำคัญในการพัฒนาวิธีการมองเห็นของมนุษย์ให้เป็นแบบจำลองพื้นฐาน โมเดลของ Sapiens แสดงให้เห็นถึงความสามารถในการเรียนรู้ที่ดีในสภาพแวดล้อมที่หลากหลาย

Kunal Kejriwal

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล