มุมมองของ Anderson
สตรีมมิ่ง AI อวตารเหมือนปี 1999

การวิจัยใหม่แสดงให้เห็นวิธีการสตรีมมิ่งอวตาร 3D ที่ดูเหมือนจริงซึ่งปรากฏขึ้นเกือบจะทันทีและคมชัดขึ้นในเวลาเดียวกัน แทนที่จะบังคับให้ผู้ใช้รอการดาวน์โหลดขนาดใหญ่ให้เสร็จสิ้น
ในหลายๆ ด้าน ความต้องการทรัพยากรที่มากของ AI และระบบการเรนเดอร์ที่ได้รับการช่วยเหลือจาก AI ได้นำความพร้อมใช้งานของลูกค้ากลับไปสู่ยุค 20 ปีที่แล้ว ในปี 2023 การมี 64GB RAM ในแล็ปท็อปหรือคอมพิวเตอร์เดสก์ท็อปดูเหมือนจะมากเกินไป แต่ตอนนี้ด้วยความนิยมที่เพิ่มขึ้นของ RAM และ/หรือการโหลด CPU ออกไป 64GB ดูเหมือนจะค่อนข้างน้อยสำหรับความต้องการ AI ในระดับโลก และองค์ประกอบเหล่านี้ของ PC ที่เคยธรรมดาและราคาไม่แพงยังคงเพิ่มขึ้นอย่างต่อเนื่องในราคาตามที่บริษัทต่างๆ ต่อสู้เพื่อตอบสนองความต้องการบริการ AI
ขนาดและความโลภของ AI และกระบวนการและสภาพแวดล้อมของ AI มักจะทำให้ฮาร์ดแวร์ระดับผู้บริโภคดูเล็กน้อย และแม้แต่การทำงานของโมเดลที่ “บาง” ที่มุ่งเน้นไปที่ระดับโลก เช่น GGUF ก็ยังทำให้ระบบโดยเฉลี่ยต้องใช้ทรัพยากรมาก
แม้แต่บริการ AI ที่เป็นข้อความ เช่น ChatGPT ก็ยังต้องเผชิญกับความเครียดอย่างมาก ทั้งในระดับไคลเอ็นต์และเซิร์ฟเวอร์ ดังนั้น เมื่อ AI ถูกขอให้ส่งมอบประสบการณ์มัลติมีเดียออนไลน์ในเวลาเดียวกัน เราสามารถคาดหวังได้ว่าจะมีการประนีประนอมที่รุนแรงในด้านความหน่วงและ/หรือคุณภาพ – เหมือนกับปัญหาของอินเทอร์เน็ตในยุคแรกๆ ที่มีการสตรีมมิ่ง미เดีย และไอคอน “การบัฟเฟอริ่ง” ที่ไม่ค่อยได้รับความนิยมของ RealPlayer และ QuickTime
ครั้งสุดท้ายที่มัลติมีเดียและปัญหาเครือข่ายสร้างความไม่สอดคล้องกันในประสบการณ์ของผู้ใช้ ฮาร์ดแวร์ระดับผู้บริโภคยังคงพัฒนาไปตามกฎของ Moore โดยมีการปรับปรุงอย่างมากทุกๆ ปี แม้ว่าระบบปฏิบัติการ เครือข่าย และโครงสร้างพื้นฐานที่รองรับจะพัฒนาไปตามความต้องการด้วย และในช่วง 10 ปีที่ผ่านมา ความสามารถของเทคโนโลยีของผู้บริโภคได้超过ความต้องการมัลติมีเดีย (อาจถึงขั้นที่ต้องเริ่มการเปลี่ยนแปลงใหม่เพื่อรักษาการขาย)
แต่ความอุดมสมบูรณ์ของความสามารถระดับโลกอาจกำลังจะสิ้นสุดลงเร็วๆ นี้ เนื่องจากฮาร์ดแวร์ระดับโลกมีการพัฒนาที่ต่ำลงและราคาที่สูงขึ้น และบริการ AI ต้องการทรัพยากรระดับเซิร์ฟเวอร์และระดับโลกที่สูงขึ้น
การได้รับหัว
ในยุคก่อนบรอดแบนด์ แม้แต่ในยุคแรกๆ ของวิดีโอสตรีมมิ่งที่ใช้งานได้ ผู้ใช้เว็บคุ้นเคยกับภาพที่ปรากฏขึ้นช้าๆ เมื่อใช้ JPEG ที่มีการปรับปรุงอย่างต่อเนื่อง ซึ่งช่วยให้ผู้ใช้ที่ขาดแคลนแบนด์วิธสามารถดูภาพที่กำลังโหลดได้ บางครั้งอาจจะช้ามากเมื่อมีการโหลดข้อมูลภาพมากขึ้น
ตอนนี้ดูเหมือนว่าเราอาจจะเผชิญกับประสบการณ์ที่คล้ายกันกับอวตาร AI ที่ได้รับการช่วยเหลือจาก Gaussian Splat:
คลิกเพื่อเล่น จากโครงการ ProgressiveAvatars ใหม่ การเปรียบเทียบการสตรีมมิ่งอวตาร Gaussian
ด้านบนเราเห็นสองรูปแบบของอวตาร Gaussian Splat – ตัวแทนของมนุษย์ที่ได้รับการช่วยเหลือบางส่วนจากเทคนิคการเรนเดอร์ที่ไม่ใช่ AI ซึ่งย้อนกลับไปในยุค 1990 และวิธีการสมัยใหม่ เช่น โมเดล FLAME ที่มีพารามิเตอร์ของมนุษย์ และวิธีการฝึกอบรมที่ใช้ AI:

การกระจาย Gaussian ใช้การแสดงผลของสีและข้อมูล 3 มิติแทนพิกเซลหรือโวคเซล และแมปข้อความที่สมจริงมากนี้ลงบนเมช CGI ที่เป็นแบบดั้งเดิม ซึ่งได้รับการอำนวยความสะดวกจาก ‘มนุษย์พารามิเตอร์’ ซึ่งเป็นใบหน้าหรือร่างกาย CGI ในระบบ เช่น FLAME และ STAR
ด้านซ้ายในวิดีโอด้านบน เราจะเห็นว่าการนำไปใช้แบบดั้งเดิมของอวตาร Gaussian Splat ดูเหมือนจะน่ากลัวเมื่อเรารอข้อมูลโหลดเสร็จ แต่ด้านขวา การนำไปใช้ใหม่จากจีนซึ่งเรียกว่า ProgressiveAvatars สามารถแสดงผลได้อย่าง优雅เมื่อข้อมูลโหลดเสร็จ โดยแสดงรูปภาพของมนุษย์ที่ไม่น่ากลัวตั้งแต่เริ่มต้น
ผู้เขียนอ้างว่าวิธีการของพวกเขาคือวิธีแรกที่สามารถสตรีมมิ่งอวตาร Gaussian ได้อย่างแท้จริง และเป็นวิธีแรกที่สามารถทำได้ในลักษณะที่มีการปรับปรุงอย่างต่อเนื่อง โดยที่ภาพสามารถสร้างขึ้นได้อย่าง优雅 และส่วนสำคัญ เช่น ดวงตาและริมฝีปาก สามารถจัดลำดับความสำคัญได้ เพื่อให้อวตารสามารถสนทนาได้แม้ว่าจะโหลดไม่สมบูรณ์:
คลิกเพื่อเล่นจากเว็บไซต์โครงการ ProgressiveAvatars การแสดงภาพของการโหลดที่ตระหนักถึงความสำคัญ
ก่อนหน้านี้ วิธีการ ‘ระดับความละเอียด’ (LOD) ได้ถูกใช้ในการพยายามลดขนาด ‘GSplat’ อวตาร โดยคล้ายกับการปรับให้เหมาะสมของวิดีโอเกม โดยที่รุ่นที่มีความละเอียดมากขึ้นของบุคคลจะถูกโหลดตามความสำคัญของมันในviewport หรือความสนใจของผู้ชม
โดเมนใหม่ที่เกิดขึ้น
หากสิ่งนี้ดูเหมือนเป็นปัญหาเฉพาะทาง ดังนั้นการสตรีมมิ่งวิดีโอก็เคยเป็นเช่นนั้นในสมัยที่การรันปลั๊กอินแรกๆ ให้ทำงานได้ถูกมอบหมายให้คนเก่งที่ใกล้ที่สุด นอกจากนี้ ความสามารถของการแสดงผล AI ที่สตรีมมิ่งยังขยายไปไกลกว่าอวตารของมนุษย์ ไปยังการสร้างเมือง การเล่นเกม และรูปแบบ 3 มิติของโดเมนออนไลน์เกือบทุกประเภท เช่น การลองเสื้อผ้าเสมือนจริง สำหรับการช็อปปิ้งเสื้อผ้า:
คลิกเพื่อเล่น จากโครงการในปี 2024 ภาพรวมของอนาคตของการลองเสื้อผ้าเสมือนจริงออนไลน์
เหมือนกับวิธีการที่เคยใช้ในการพัฒนาเกม มากกว่าการพัฒนาโดเมนอื่นๆ ที่ใช้การกระจาย Gaussian Splat
วิธีการ
วิธีการนี้เริ่มต้นด้วยวิดีโอของหัวคน โดยที่สำหรับแต่ละเฟรม โมเดลใบหน้า FLAME ที่เป็นมาตรฐานจะถูกปรับให้เหมาะสม เพื่อให้รูปร่างและน้ำเสียงเปลี่ยนแปลงไปตามเวลา ในขณะที่โครงสร้างเมชยังคงไม่เปลี่ยนแปลง เนื่องจากโครงสร้างพื้นฐานไม่เปลี่ยนแปลง โมเดล FLAME ที่มีเสถียรภาพสามารถถูกใช้ซ้ำและปรับปรุงได้แทนที่จะสร้างขึ้นใหม่ทุกครั้งเช่นเดียวกับงานก่อนหน้านี้:

วิดีโอของหัวคนจะถูกปรับให้เหมาะสมกับเมช FLAME ที่ติดตามได้ จากนั้น 3D Gaussians จะถูกแนบไปที่ใบหน้าแต่ละหน้าและเติบโตขึ้นตามลำดับ โดยที่การแสดงผลในพื้นที่หน้าจอแสดงให้เห็นถึงรายละเอียดที่หายไป ในระหว่างการฝึกอบรม การแบ่งส่วนแบบปรับเปลี่ยนนี้จะสร้างการแสดงผลหลายระดับภายใต้การดูแลหลายมุมมอง และในการอนุมาน คะแนนความสำคัญของใบหน้าแต่ละหน้าจะกำหนดว่า Gaussians ใดจะถูกส่งไปก่อน ซึ่งช่วยให้อวตารปรากฏขึ้นได้อย่างรวดเร็วและปรับปรุงอย่างต่อเนื่องเมื่อมีการเพิ่มระดับรายละเอียดที่สูงขึ้น
เหนือโครงสร้างพื้นฐานนี้ รายละเอียดจะถูกเพิ่มเป็นชั้นๆ โดยที่พื้นผิวจะถูกแบ่งออกเป็นลำดับชั้น และ 3D Gaussians ที่เล็กๆ จะถูกแนบไปที่ใบหน้าแต่ละหน้าในแต่ละระดับของรายละเอียด
แม้ว่าชั้นแรกๆ จะจับภาพรูปร่างของหัวและเคลื่อนไหวโดยรวม แต่ชั้นที่ละเอียดมากขึ้นจะให้รายละเอียด เช่น รอยย่น การเปลี่ยนแปลงเล็กๆ น้อยๆ และข้อความที่มีความถี่สูง
ภาพจะถูกแสดงจาก Gaussians เหล่านี้โดยใช้ Gaussian rasterizer ที่แตกต่างได้ และฝึกอบรมกับภาพที่มีมุมมองหลายมุม เพื่อให้อวตารเรียนรู้ที่จะสร้างภาพที่เหมือนกับของจริง
ระหว่างการฝึกอบรม ลำดับชั้นนี้จะเติบโตขึ้นโดยอัตโนมัติ โดยที่พื้นที่ที่ต้องการรายละเอียดมากขึ้นจะถูกแบ่งออกเป็นชั้นที่เล็กกว่า โดยได้รับการชี้นำจากสัญญาณในพื้นที่หน้าจอ เพื่อให้ความพยายามในการคำนวณมุ่งเน้นไปที่ที่ที่ผู้ชมมีแนวโน้มที่จะสังเกตเห็นข้อผิดพลาดมากที่สุด
ระหว่างการอนุมาน ลำดับชั้นนี้ทำให้สามารถสตรีมมิ่งแบบปรับปรุงได้ โดยที่รูปภาพที่ไม่สมบูรณ์ของอวตารสามารถแสดงได้ก่อน และเมื่อมีการโหลดชั้นที่สูงขึ้น Gaussians ใหม่ๆ สามารถเพิ่มเข้าไปได้โดยไม่ต้องเปลี่ยนแปลงสิ่งที่แสดงอยู่แล้ว ทำให้อวตารที่สามารถเคลื่อนไหวได้ปรากฏขึ้นได้อย่างรวดเร็วและปรับปรุงอย่างต่อเนื่องเมื่อมีการเพิ่มรายละเอียด
ผู้เขียนสังเกตว่าระบบทั้งหมดขึ้นอยู่กับการจัดลำดับความสำคัญของข้อมูลที่เข้ามา:

เมื่อ Gaussians ทั้งหมดที่ระดับหนึ่งๆ มีอยู่แล้ว โมเดลที่สมบูรณ์จะถูกแสดงด้วยคุณภาพสูงสุด แต่ระหว่างการสตรีมมิ่ง การส่ง Gaussians ที่มีส่วนร่วมมากที่สุดก่อนทำให้ผลลัพธ์บางส่วนแรกๆ มีความใกล้เคียงกับภาพสุดท้ายมากที่สุด ในขณะที่การส่ง Gaussians ที่มีส่วนร่วมน้อยที่สุดก่อนจะทำให้สมดุลของสีเสียและเน้นย้ำส่วนประกอบที่ไม่สำคัญ
ข้อมูลและการทดสอบ
สำหรับการทดสอบ วิธีการใหม่นี้ถูกประเมินบนชุดข้อมูล NeRSemble ซึ่งประกอบด้วยวิดีโอมุมมองหลายมุมสำหรับแต่ละหัวข้อที่มีพารามิเตอร์ที่ปรับให้เหมาะสมแล้ว:

ตัวอย่างของการแสดงผลที่หลากหลายของหัวข้อที่รวมอยู่ในชุดข้อมูล NeRSemble ที่ใช้ในการทดสอบ ProgressiveAvatars
ตามวิธีการดั้งเดิมของ GaussianAvatars ภาพจะถูกย่อขนาดลงเป็น 802x550px มาสก์หน้าจอจะถูกสร้างขึ้น และการแบ่งชุดข้อมูลการฝึกอบรม/การทดสอบของโครงการดั้งเดิมจะถูกนำมาใช้
ตัวเพิ่มประสิทธิภาพ Adam ถูกใช้สำหรับการอัปเดตพารามิเตอร์ โดยมีอัตราการเรียนรู้ของ 1×10-2 สำหรับพิกัด barycentric ทั้งหมด การฝึกอบรมดำเนินไปเป็นเวลา 60,000 รอบการวน โดยที่ลำดับชั้นนี้จะขยายออกไปโดยอัตโนมัติทุกๆ 2,000 รอบ
ในตอนแรก ผู้เขียนทดสอบสำหรับการสร้างและเคลื่อนไหว – การเปลี่ยนวิดีโอที่เป็นภาพ 2 มิติให้เป็นระบบ 3 มิติ (x/y/z) โดยใช้การแสดงผล CGI ของ FLAME ที่เป็นแบบดั้งเดิมเป็นเมชที่ยึดเหนี่ยว สำหรับการทดสอบนี้ ทุกๆ บรรทัดฐานจะถูกฝึกอบรมจากต้น และเฟรมเวิร์กที่เป็นคู่แข่งที่ถูกทดสอบคือ GaussianAvatars และ PointAvatar
สำหรับการทดสอบเหล่านี้ ตัวชี้วัดที่ใช้คือ อัตราส่วนสัญญาณต่อเสียงรบกวน (PSNR) ดัชนีความคล้ายคลึงกันทางโครงสร้าง (SSIM) และความคล้ายคลึงกันของภาพที่เรียนรู้ (LPIPS):

การเปรียบเทียบเชิงคุณภาพในการสังเคราะห์มุมมองใหม่และน้ำเสียงใหม่
เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนระบุว่า:
‘วิธีการของเรา [สร้าง] รายละเอียดที่คมชัดกว่าในหลายๆ พื้นที่ โดยเฉพาะรอบคอ คอและเสื้อผ้า พื้นที่เหล่านี้ถูกแบ่งออกเป็นรูปสามเหลี่ยมที่มีขนาดใหญ่กว่าในเทมเพลต FLAME เมื่อเทียบกับพื้นที่ใบหน้าที่มีความสำคัญสูง (เช่น บริเวณรอบดวงตา)
‘ดังนั้น วิธีการก่อนหน้านี้จึงมอบ 3D Gaussians ที่ไม่เพียงพอในพื้นที่เหล่านี้เพื่อจับรายละเอียดขนาดเล็กได้อย่างจริงจัง ในทางตรงกันข้าม ยุทธวิธีการเติบโตแบบปรับเปลี่ยนของเราจะเพิ่มจำนวน Gaussians และทำให้ลำดับชั้นละเอียดมากขึ้นเฉพาะในพื้นที่ที่ต้องการ ซึ่งทำให้การมอบหมายไม่ไว้วางใจในตัวแบ่งสามเหลี่ยมที่ไม่สม่ำเสมอของ FLAME’
ผู้เขียนระบุด้วยว่าวิธีการของพวกเขานั้นเทียบเท่ากับวิธีการที่ดีที่สุดในขณะนี้ โดยให้ผลลัพธ์ที่ใช้งานได้ด้วยการมอบหมายแบนด์วิธเพียง 5%:

การเปรียบเทียบเชิงปริมาณในการสังเคราะห์มุมมองใหม่และน้ำเสียงใหม่โดยใช้ PSNR, SSIM และ LPIPS
ต่อไป นักวิจัยทดสอบการแสดงผลแบบปรับปรุงตัวเอง โดยดำเนินการบน NVIDIA RTX 4090 โดยมี VRAM 24Gb และความละเอียด 550x802px ในสถานการณ์นี้ ผู้เขียนชี้ให้เห็นว่างบประมาณ 25% จะใช้ Gaussians ทั้งหมดที่ระดับ 1 รวมทั้งซับเซตของ Gaussians ระดับ 2 ซึ่งให้ภาพรวมของวิธีที่กลุ่ม Gaussians สร้างรายละเอียดขึ้นในกลุ่มที่มีหมายเลขสูงขึ้น และกลุ่มที่มีหมายเลขต่ำกว่าสร้างภาพพื้นฐาน:

ประสิทธิภาพภายใต้งบประมาณการถ่ายโอนที่แตกต่างกันสำหรับการสังเคราะห์มุมมองใหม่และน้ำเสียงใหม่
ผู้เขียนแสดงความคิดเห็นว่า:
‘ด้วยการถ่ายโอนเพียง 2.60 MB (5% ของงบประมาณ) อวตารของเราก็ได้รับคุณภาพที่สมเหตุสมผลแล้ว เมื่อ Gaussians ระดับสูงถูกสตรีมมิ่งไปแล้ว โครงสร้างที่ละเอียด เช่น ปุ่มเสื้อ ผม และฟัน จะคมชัดขึ้นในขณะที่ความเสถียรของเวลาได้รับการรักษาไว้’
‘ที่ 100% ของการถ่ายโอน วิธีการของเรามีคุณภาพการแสดงผลที่เทียบเท่ากับวิธีการที่ดีที่สุดในขณะนี้ ดังที่เห็นได้จากความถี่เฟรมที่ไม่ลดลงอย่างมีนัยสำคัญ ซึ่งอาจเป็นเพราะว่าภาระงาน 3DGS ยังไม่ส่งผลกระทบต่อ GPU’
อย่างไรก็ตาม ผู้เขียนชี้ให้เห็นว่าในสถานการณ์ VR แบบหลายผู้ใช้ จำนวน 3D Gaussians จะเติบโตอย่างรวดเร็วจนกลายเป็นปัญหาสำหรับการเรนเดอร์ GPU ในสถานการณ์ที่หนักกว่านี้ วิธีการที่เสนอให้สามารถแลกเปลี่ยนจำนวนไพรมิเทียบที่จะแสดงกับคุณภาพการแสดงผลได้ ทำให้การโหลดลดลงโดยไม่ทำให้การแสดงผลล้มเหลว
แม้ว่าเอกสารจะไม่ได้กล่าวถึง แต่เว็บไซต์โครงการมีการเปรียบเทียบการทดสอบเพิ่มเติม โดยมีโครงการ MeGA Hybrid mesh-Gaussian อวตาร:
คลิกเพื่อเล่นหนึ่งในวิดีโอพื้นฐานหลายวิดีโอจากเว็บไซต์โครงการที่มาพร้อมกับเอกสารนี้ การเปรียบเทียบวิธีการใหม่ในด้านการสังเคราะห์มุมมองใหม่
สรุป
การกระจาย Gaussian อาจหรือไม่อาจยังคงอยู่ หรืออาจจะถูกจดจำมากกว่า RealPlayer ในยุคแรกๆ ของการแสดงผลแบบโต้ตอบ การแสดงผล AI ที่สตรีมมิ่ง ซึ่งรวมถึงการแชทวิดีโอ การช็อปปิ้งเสมือนจริง การนำทางเส้นทาง และการแสดงผลความบันเทิงต่างๆ อาจเป็นไปได้ว่าเทคโนโลยีหรือวิธีการอื่นๆ จะเป็นผู้ชนะหรือว่าการกระจาย Gaussian จะเป็นวิธีการแสดงผล AI-วิดีโอที่น่าเชื่อถือที่สุด
อย่างไรก็ตาม เอกสารนี้เป็นการเปิดเผยถึงขอบเขตของโดเมนใหม่นี้ และเตือนเราอย่างอาจจะน่าสะเทือนใจถึงอินเทอร์เน็ตในยุคแรกๆ ที่ขาดแคลนแบนด์วิธ
* โดย ‘3 มิติ’ ผมไม่ได้หมายถึงประสบการณ์ที่ต้องการแว่นพิเศษ แต่หมายถึงประสบการณ์ที่มีมัลติมีเดียที่มีความเข้าใจในพิกัด X/Y/Z
เผยแพร่ครั้งแรกวันพุธที่ 18 มีนาคม 2026












