Anderson์ ๊ด์
์คํธ๋ฆฌ๋ฐ AI ์๋ฐํ๋ 1999๋ ์ฒ๋ผ

새로운 연구는 거의 즉시 나타나고 실시간으로 선명해지는 것 같은 생생한 3D 아바타를 스트리밍하는 방법을 제시하며, 사용자가 대규모 다운로드가 완료될 때까지 기다릴 필요가 없습니다.
많은 방면에서 대규모 자원 요구 사항을 갖는 생성적 AI와 AI 지원 렌더링 시스템은 소비자 준비도를 20년 이상 이전으로 되돌려 보냈습니다. 2023년만 해도 랩톱이나 데스크톱 PC에서 64GB RAM 할당은 과도한 것으로 보였지만, 이제 RAM과/또는 CPU 오프로딩의 성장으로 인해 64GB는 지역 AI 요구 사항에 대해 상당히 겸손한 것으로 보입니다. 이러한曾经平凡하고 저렴한 PC 요소는 AI 서비스에 대한 수요를 충족하기 위해 기업이 어려움을 겪고 있기 때문에 계속 가격이 상승하고 있습니다.
AI와 그 과정 및 환경의 규모와 탐욕은 일반적으로 소비자 수준의 하드웨어를 압도하며, 심지어 ‘슬림med down’ 지역 지향 모델을 GGUF 버전으로 실행하는 것도 일반적인 시스템에 부담을 줄 수 있습니다.
텍스트 기반 AI 서비스인 ChatGPT도 상당한 부담을 클라이언트와 서버 수준에서 받습니다. 따라서 AI가 실시간으로 온라인 멀티미디어 경험을 제공할 때, 우리는 합리적으로도 대기 시간과/또는 품질에서 매우 심각한妥协을 기대할 수 있습니다. 이는 초기 스트리밍 미디어와의 인터넷의 초기 어려움과 유사하며, RealPlayer와 QuickTime의 유명한 애니메이션 ‘버퍼링’ 아이콘과 유사합니다.
멀티미디어와 네트워크 문제가 사용자 경험에서 마찰을 생성한 마지막 مرة는 소비자 수준의 하드웨어가 여전히 무어의 법칙을 통해 진화하고 있었을 때였으며, 거의 지수적으로 더 좋아졌으며, OSes, 네트워크 및 기타 지원 인프라는 수요를 충족하기 위해 진화했습니다. 지난 10년 동안, 소비자 기술의 능력은 멀티미디어 수요를 초과했습니다(아마도 판매를 유지하기 위해 회전이 필요할 정도로).
그러나 지역 능력의 이러한 과잉은 곧 끝날 수 있습니다. 지역 하드웨어가 더 낮은 사양이고 더 비싼 것으로 바뀌고, AI 기반 서비스가 서버 측과 지역 자원에서 더 높은 수요를 요구하기 때문입니다.
Getting a Head
초고속 인터넷 이전 시대에, 초기 사용 가능한 스트리밍 비디오 이전에, 웹 사용자는 이미지가 천천히 초점을 맞추는 것을 관찰했습니다. 진보적 JPEG는 대역폭이 부족한 사용자가 다운로드되는 이미지를形成하는 것을 볼 수 있게 하였으며, 때로는 매우 천천히 진행되었습니다. 더 많은 이미지 데이터가 로컬로 로드됨에 따라.
이제, 우리는 AI 지원 가우시안 스플랫 아바타와 유사한 경험을 할 수 있을 것입니다:
클릭하여 재생. 새로운 ProgressiveAvatars 프로젝트에서 가우시안 아바타의 스트리밍 비교. 소스
위에서 우리는 두 가지 버전의 가우시안 스플랫 기반(GSplat) 아바타를 볼 수 있습니다. 한 사람은 부분적으로 비 AI 렌더링 기술인 FLAME 파라메트릭 인간 모델과 더 현대적인 방법을 사용하여 활성화됩니다.
위의 비디오에서 우리는 이전 가우시안 아바타 프로젝트가 새로운 데이터를 천천히 얻지만 데이터가 축적됨에 따라 매우 나쁨을 볼 수 있습니다. 반면에 Progressive Avatars 버전도 세부 사항을 천천히 구축하지만, 초기부터 기본적인 인간 형상을 제공하는 지능적인 방식으로 진행됩니다.
이전까지 ‘레벨 오브 디테일'(LOD) 접근 방식은 이전의 ‘GSplat’ 아바타를 줄이기 위한 시도에서 사용되었습니다. 비디오 게임 최적화와 유사하게, 더 자세한 버전의 사람이 뷰포트나 뷰어의 주목을 차지하는지 여부에 따라 로드됩니다.
물론, 이는 많은 중복 ‘스파어’ 아바타를 수반하며, 저자는 자신의 접근 방식을 더 합리적인 시스템으로 프레임합니다. 이러한 방법은 또한 GSplat 피규어(즉, 사용자 지정)에 변경을 적용할 때 다양한 LOD ‘쌍둥이’를 통해 이러한 변경 사항을 전파할 필요 없이 변경 사항을 적용할 수 있습니다.
새로운 도메인
이 문제가 마치 니치 문제처럼 보일 수 있지만, 스트리밍 비디오의 초기 시절에도 마찬가지였습니다. 초기 플러그인을 작동시키는 것은 가장 가까운 사용 가능한 기술 전문가에게 외주로 맡겨졌습니다. 더욱이, AI 기반 스트리밍 표현의 잠재력은 인간 아바타를 넘어 도시 생성, 게임, 그리고 거의 모든 온라인 도메인의 3D 기반 버전에까지 확장됩니다.
클릭하여 재생. 2024년 프로젝트에서 온라인 ‘시착’의 미래를 간략하게 보여줍니다. 다른 프로젝트는 동작과 상호작용을 추가하려고 합니다.소스
비디오 게임에서 주로 사용된 LOD 기반 접근 방식과 마찬가지로, 게임 개발에서만 사용된 많은 고려 사항이 스플랫 기반 표현으로 넘어갈 가능성이 있습니다. 예를 들어, 대부분의 초기 GSplat 아웃은 단일 인간을 묘사하며, 여러 인간과 환경 특징 및 분위기가 필요한 상황이 필요할 것입니다. 이는 데이터를 스트리밍할 때 높은 성능의 ‘트라이어지’ 시스템이 필요하여 뷰어가 순간을 유지할 수 있도록 데이터를 우선순위에 둡니다.
새로운 논문은 ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars라는 제목으로, 중국 헤페이의 중국과학기술대학의 3명의 연구자로부터 나왔습니다.
방법
이 접근 방식은 초기에 사람의 머리 비디오를 사용합니다. 각 프레임에 대해 표준 FLAME 파라메트릭 얼굴 모델이 맞춤 설정되어 있습니다. 따라서 모양과 표현은 시간이 지남에 따라 변경되지만, 기본 메시 구조는 고정됩니다. 기본 토폴로지가 변경되지 않기 때문에 안정적인 FLAME 템플릿을 재사용하고 재구성할 수 있습니다.

머리 비디오는 먼저 추적된 FLAME 메시로 맞춤 설정되고, 3D 가우시안은 각 얼굴에 연결되고, 화면 공간 그라디언트가 누락된 세부 사항을 나타낼 때 계층적으로 성장합니다. 훈련 중에 이 적응적 분할은 다중 뷰 감시하에 다중 레벨 표현을 구축하며, 추론 중에 각 얼굴 중요도 점수가 먼저 가우시안을 스트리밍하는 것을 결정하여 아바타가 빠르게 나타나고 점진적으로 세부 사항을 추가합니다.
이 기본 구조 위에 세부 사항이 계층으로 추가됩니다. 표면은 암시적으로 계층으로 분할되며, 작은 3차원 가우시안은 각 세부 수준의 얼굴에 연결됩니다.
초기에는 더 粗한 계층이 전체 머리 모양과 운동을 포착하지만, 이후의 더 세부적인 계층은 주름, 미세한 변형 및 고주파 수를 제공합니다. 이미지들은 이러한 가우시안에서 다중 뷰 그라운드 트루스 비디오에 대해 훈련된 차별 가능한 가우시안 래스터라이저를 사용하여 렌더링됩니다.
훈련 중에 이 계층 구조는 자동으로 성장합니다. 더 많은 세부 사항이 필요한 영역은 화면 공간 신호에 의해 안내되는 하위 단계로 더 세분화됩니다. 따라서 계산 노력은 뷰어의 눈이 가장 많이注意하는 오류를 나타낼 가능성이 높은 영역에 집중됩니다.
추론 중에 이 계층 구조는 진행적인 스트리밍을 가능하게 합니다. 여기서 아바타의 거친 버전을 먼저 표시하고, 추가 계층을 로드함에 따라 새로운 가우시안을 추가할 수 있습니다. 이는 이미 표시된 내용을 변경하지 않고, 애니메이션 가능한 헤드 아바타를 가능하게 합니다. 이는 빠르게 나타나고, 더 많은 데이터가 도착함에 따라 더 선명하고 자세해집니다.
저자들은 전체 시스템이 들어오는 데이터의 우선순위를 결정하는 것에 달려 있다고 관찰합니다:

모든 가우시안이 주어진 수준에 사용할 수 있는 경우, 전체 모델은 최대 신뢰도로 렌더링되지만, 스트리밍 중에最高 기여 가우시안을 먼저 전송하면 초기 부분 결과가 최종 이미지와 밀접하게 일치하고, 낮은 기여 가우시안을 먼저 전송하면 색상 균형을 왜곡하고 소규모 구성 요소를 강조합니다.
데이터 및 테스트
테스트를 위해 새로운 방법은 NeRSemble 데이터셋에서 평가되었습니다. 이는 각 주제에 대한 다중 뷰 비디오로 구성되며, 모든 뷰에서 캘리브레이션된 매개변수가 있습니다:

테스트에 사용된 NeRSemble 데이터셋의 다양한 주제 해석 예시. 소스
원래 GaussianAvatars 방법론과 일치하여, 이미지들은 802x550px로 다운샘플링되었으며, 전경 마스크가 생성되고, 원래 프로젝트의 훈련/테스트 분할이 채택되었습니다.
Adam 옵티마이저는 매개변수 업데이트에 사용되었으며, 모든 바리센트릭 좌표에서 1×10-2의 학습률이 사용되었습니다. 훈련은 60,000 반복으로 실행되었으며, 계층은 자동으로 2,000 반복마다 확장되었습니다.
초기적으로 저자들은 재구성 및 애니메이션을 테스트했습니다. 이는 평면 비디오를 3D 인식(x/y/x) 시스템으로 변환하는 작업입니다. 여기서 FLAME의 캐논 CGI 표현을錨定 메시로 사용합니다. 이 작업에서 모든 기준선은 스크래치에서 훈련되었으며, 경쟁 프레임워크는 앞서 언급한 GaussianAvatars와 PointAvatar였습니다.
이 테스트에서 사용된 지표는 피크 신호 대 노이즈 비율(PSNR), 구조적 유사성 지수(SSIM), 및 학습된 감知 이미지 패치 유사성(LPIPS)였습니다:

새로운 뷰 및 새로운 표현 합성에 대한 정량적 비교를 위해 PSNR, SSIM, LPIPS를 사용합니다. 전체 전송에서 제안된 방법은 두 작업 모두에서最高 PSNR을 달성하며, 5% 설정은 극단적인 대역폭 제약하에서 품질折衷을 보여줍니다.
다음으로, 연구자들은 진행적인 렌더링 자체를 테스트했습니다. 이것은 NVIDIA RTX 4090에서 24Gb의 VRAM과 550x802px 해상도에서 수행되었습니다. 이 시나리오에서 저자들은 25% 예산이 모든 ‘레벨 1’ 가우시안과 일부 ‘레벨 2’ 가우시안을 사용할 것임을 지적합니다. 이는 가우시안 그룹이 더 높은 번호 그룹에서 세부 사항을 축적하는 방식과, 더 낮은 번호 그룹이 기본 캔버스를 구축하는 방식을 보여줍니다.

새로운 뷰 및 새로운 표현 합성에 대한 다양한 전송 예산下的 성능. 가우시안과 데이터가 스트리밍됨에 따라 품질이 점진적으로 증가하며, RTX 4090에서 실시간 속도를 유지합니다.
저자들은 다음과 같이 말합니다:
‘2.60 MB가 전송됨(5% 예산)으로 아바타가 합리적인 품질을 달성합니다. 더 높은 수준의 가우시안이 스트리밍됨에 따라, 세부 구조(예: 셔츠 단추, 치아, 머리카락)가 점진적으로 선명해지고, 시간적 안정성이 유지됩니다. ‘
‘100% 전송에서, 저희의 접근 방식은 최첨단 방법과 비교할 수 있는 렌더링 품질을 달성합니다. 주목할 점은 프레임 속도가 크게 떨어지지 않는다는 것입니다. 이는 3DGS 작업이 아직 GPU를 포화시키지 않았기 때문입니다.’
그러나 저자들은 다중 사용자 VR 시나리오에서 가우시안의 수가 GPU 래스터라이제이션을 병목 현상으로 만드는 지점까지 빠르게 증가할 수 있다고 지적합니다. 이러한 더 무거운 시나리오에서, 제안된 접근 방식은 원시 대 수를 렌더링 품질과 교환할 수 있게 하여, 렌더링을 유지하지 않고 부담을 줄입니다.
이 논문은 자세히 설명하지 않지만, 프로젝트 사이트에는 추가적인 테스트 비교도 포함되어 있으며, MeGA 하이브리드 메시-가우시안 아바타 프로젝트도 포함되어 있습니다:
클릭하여 재생. 논문의 동반 프로젝트 사이트에서 제공하는 보충 비디오 중 하나, 새로운 접근 방식의 새로운 뷰 합성 비교를 보여줍니다.
결론
가우시안 스플래팅은 지속되거나, 또는 초기의 상호작용 스트리밍과 마찬가지로 기억될 수 있습니다. AI 주도 또는 AI 지원 3D 인식 표현, 비디오 채팅, 가상 쇼핑, 경로 탐색 및 다양한 엔터테인먼트 애플리케이션을 포함합니다. 대체 기술이나 접근 방식이 우세할 수 있거나, GSplat이 가장 신뢰할 수 있는 AI 비디오 표현이 될 수 있습니다.
어쨌든, 이 흥미로운 새로운 논문은 이 새로운 도메인의 일부를 알리고, 또한 과거의 대역폭이 부족한 인터넷을 향수적으로 상기시킵니다.
* 3D라 함은 특별한 안경이 필요한 경험을 의미하지 않으며, 멀티미디어 콘텐츠가 X/Y/Z 좌표를 이해하는 경험을 의미합니다.
2026년 3월 18일 처음 게시됨






