인공지능

개인적인 컴퓨터 비전 문헌 동향에 대한 관점 2024

Published December 24, 2024

Updated April 27, 2026

Martin Anderson

ChatGPT image: 'A panoramic orthographic-view image of a stylized bunch of SIMs-style scientists working in white coats at a computer research laboratory. Ariel view, orthographic projection, stylized, cartoon-style.'

컴퓨터 비전(CV) 및 이미지 합성 연구 분야를 약 5년간 지속적으로关注해 왔으며, 따라서 시간이 지남에 따라 이러한 동향이 명백해지고 매년 새로운 방향으로 전환됨을 알 수 있습니다.

따라서 2024년이 끝나가면서, Arxiv의 컴퓨터 비전 및 패턴 인식 섹션에서 새로운 또는 발전하는 특징을 살펴보는 것이 적절하다고 생각합니다. 이러한 관찰은 수백 시간의 연구를 통해 정보를 얻었지만, 엄격히 개인적인 관찰에 기반합니다.

동아시아의 지속적인 상승

2023년 말까지,私は ‘음성 합성’ 카테고리의 대부분의 문헌이 중국과 동아시아의 다른 지역에서 나온다는 것을 알게 되었습니다. 2024년 말에,私は 이러한 현상이 이미지 및 비디오 합성 연구 분야에도 적용된다는 것을 관찰해야 합니다(사실, 이러한 관찰은 수백 시간의 연구를 통해 정보를 얻었지만, 엄격히 개인적인 관찰에 기반합니다).

이것은 중국과 인접 국가들이 반드시 항상 최고의 연구를 출력하는 것은 아니며(실제로, 반대의 증거가 있습니다), 또한 중국에서(서양과 마찬가지로) 가장 интерес하고 강력한 새로운 개발 시스템은 독점적이며 연구 문헌에서 제외된다는 점을 의미하지 않습니다.

그러나 이것은 동아시아가 이러한 분야에서 서양을 볼륨으로 추월하고 있음을 시사합니다. 이러한 의미는 에디슨 스타일의 지속성에 대한 믿음의 정도에 따라 다르며, 이는 일반적으로 불가항력적인 장애물에 직면하여 효과적이지 않습니다(엘리자베스 홈즈의 테라노스 사례).

생성적 AI에는 많은这样的 장벽이 있으며, 이러한 장벽 중 어떤 것은 기존 아키텍처를 해결함으로써 해결할 수 있으며, 어떤 것은 다시 재고해야 합니다.

동아시아의 연구자들이 컴퓨터 비전 논문이 더 많은 것을 생산하고 있지만,私は ‘프랑켄슈타인’ 스타일의 프로젝트가 증가하고 있음을 관찰했습니다. 이러한 프로젝트는 이전의 연구를 결합하여 새로운 아키텍처의 혁신을 제한적으로 추가합니다(또는 아마도 다른 유형의 데이터를 추가합니다).

이번 년도에는 동아시아(주로 중국 또는 중국과 협력하는 공동 연구) 출처의 논문이 더 많아졌으며, 이는 실질적으로 기여하는 것보다 할당량에 의해 주도되는 것으로 보입니다. 이는 이미 과밀한 분야에서 신호 대 잡음 비율을 크게 증가시킵니다.

동시에, 2024년에 더 많은 동아시아 논문이私の 주목과 감탄을 받았습니다. 따라서 이것이 숫자 게임이라면, 실패하지는 않지만, 또한 저렴하지도 않습니다.

제출량의 증가

모든 출처 국가를 통해 논문의 제출량이 명백히 증가했습니다.

제출량이 가장 많은 날은 일년 내내 변동합니다. 현재는 화요일이며, 컴퓨터 비전 및 패턴 인식 섹션에 제출되는 논문의 수가 종종 300-350개에 달하는 날이 있습니다(5월-8월 및 10월-12월, 즉 컨퍼런스 시즌과 ‘연간 할당량 마감’ 시즌).

私の 경험을 넘어서, Arxiv 자체는 2024년 10월에 새로운 제출 기록을 세웠으며, 총 6000개의 새로운 제출이 있었으며, 컴퓨터 비전 섹션은 기계 학습 섹션 다음으로 두 번째로 많이 제출된 섹션입니다.

그러나 Arxiv의 기계 학습 섹션은 종종 ‘추가’ 또는 집계된 슈퍼 카테고리로서 사용되므로, 이것은 컴퓨터 비전 및 패턴 인식이 실제로 Arxiv에서 가장 많이 제출된 카테고리임을 의미합니다.

Arxiv의 자체 통계는 명백히 컴퓨터 과학이 제출량에서 선두를 지키고 있음을 보여줍니다:

컴퓨터 과학(CS)가 지난 5년간 Arxiv의 제출 통계에서 선두를 지키고 있습니다. 출처: https://info.arxiv.org/about/reports/submission_category_by_year.html

스탠퍼드 대학교의 2024 AI 지수 보고서는 아직 가장 최근의 통계를 보고하지는 못하지만, 최근 몇 년간 기계 학습 논문의 제출량이 크게 증가한 것도 강조합니다:

2024년의 수치가 아직 없지만, 스탠퍼드 보고서는 기계 학습 논문의 제출량이 크게 증가한 것을 보여줍니다. 출처: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

확산 > 메시 프레임워크의 普及

私が 관찰한 또 다른 명백한 동향은 잠재 확산 모델(LDMs)을 생성기로서 사용하는 논문이 크게 증가한 것입니다.

이러한 프로젝트에는 텐센트의 InstantMesh3D, 3Dtopia, Diffusion², V3D, MVEdit, 및 GIMDiffusion가 포함됩니다.

3Dtopia에서 확산 기반 프로세스를 통해 메시 생성 및 정제. 출처: https://arxiv.org/pdf/2403.02234

이 새로운 연구 분야는 생성적 시스템의 난해함을 간접적으로 인정하는 것으로 볼 수 있습니다.

Stability.ai는 오픈 소스 Stable Diffusion 모델의 개발사로, Stable Zero123를 출시했습니다. 이는 AI 생성 이미지의 Neural Radiance Fields(NeRF) 해석을 사용하여 Unity, 비디오 게임, aumented reality, 및 다른 3D 좌표가 필요한 플랫폼에서 사용할 수 있는 명시적 메시 기반 CGI 모델을 생성할 수 있습니다.

클릭하여 재생. Stable Diffusion에서 생성된 이미지는 합리적인 CGI 메시로 변환할 수 있습니다. 여기에서는 Stable Zero 123를 사용한 이미지 > CGI 워크플로우의 결과를 볼 수 있습니다. 출처: https://www.youtube.com/watch?v=RxsssDD48Xc

3D 의미론

생성적 AI 분야에서는 2D와 3D 시스템 구현의 차이를 명확히 합니다. 예를 들어, 면部 랜드마크 프레임워크는 3D 객체(얼굴)를 나타내지만, 모두 3D 좌표를 계산하지는 않습니다.

인기 있는 FANAlign 시스템은 2017년의 딥페이크 아키텍처에서 널리 사용되었습니다. 이는 2D와 3D 접근 방식을 모두 수용할 수 있습니다:

위에는 2D 랜드마크가 인식된 얼굴의 선과 특징에 기반하여 생성됩니다. 아래에는 3D X/Y/Z 공간으로 합리화됩니다. 출처: https://github.com/1adrianb/face-alignment

따라서 ‘딥페이크’와 마찬가지로 ‘3D’는 생성적 AI 연구에서 혼란스러운 용어가 되었습니다.

소비자에게는 일반적으로 스테레오 기능이 있는 미디어(특수 안경을 착용해야 하는 영화)를 의미합니다. 시각 효과 전문가와 모델러에게는 2D 아트워크(개념 스케치)와 메시 기반 모델(메야 또는 시네마4D와 같은 3D 프로그램에서 조작할 수 있음)의 차이를 제공합니다.

그러나 컴퓨터 비전 분야에서는 단순히 모델의 잠재 공간에 카르테시안 좌표 시스템이 존재함을 의미합니다. 사용자가 직접 조작할 수 있는 것은 아닙니다. 적어도 3DMM 또는 FLAME와 같은 제3자 해석 CGI 기반 시스템을 사용하지 않는 한입니다.

따라서 ‘확산 > 3D’라는 개념은 부정확합니다. 任意 유형의 이미지(실제 사진 포함)를 입력으로 사용하여 생성적 CGI 모델을 생성할 수 있으며, ‘메시’라는 용어가 더 적절합니다.

그러나 이러한 프로젝트 대부분에서 확산은 원본 사진을 메시로 해석하는 데 필요합니다. 따라서 더 정확한 설명은 ‘이미지 > 확산 > 메시’입니다.

그러나 이것은 보드 회의 또는 투자자를 끌어들이기 위한 홍보 자료에서 판매하기 어렵습니다.

아키텍처의 고착화 증거

2023년과 비교하여, 지난 12개월 동안의 논문은 확산 기반 생성의 실제 제한을 제거하는 데 대한 절실함이 증가하고 있습니다.

주요 장애물은 여전히 내러티브적으로 일관성 있고 시간적으로 일관성 있는 비디오 생성이며, 단일 생성 비디오 클립의 짧은 실행 시간에 걸쳐서도 캐릭터와 객체의 일관된 외관을 유지하는 것입니다.

확산 기반 합성의 마지막 획기적인 혁신은 2022年的 LoRA의 등장입니다. 더 새로운 시스템인 Flux는 일부 아웃라이어 문제(예: Stable Diffusion의 이전 텍스트 콘텐츠 재생성 불가능성)를 개선했으며, 전체적인 이미지 품질이 향상되었습니다. 그러나私は 2024년에 연구한 대부분의 논문은 본질적으로 음식을 접시 위에서 옮기는 것에 불과했습니다.

이러한 고착화는 GANs와 NeRF에서도 발생했으며, 둘 다 초기의 잠재력을 충족하지 못했습니다. 또한 이러한 시스템은 점점 더 전통적인 시스템에서 활용되고 있습니다(예: NeRF의 Stable Zero 123 사용).

이것은 확산 모델에서도 발생하는 것으로 보입니다.

가우시안 스플래팅 연구의 전환

2023년 말에는 3D 가우시안 스플래팅(3DGS)이라는 레스터라이제이션 방법이 인간 이미지 합성 도전 과제(예: 얼굴 시뮬레이션 및 재창조, 아이덴티티 전송)에 대한 오토인코더 기반 시스템을突然超过할 것으로 보였습니다.

2023년 ASH 논문은 전체 바디 3DGS 인간을 약속했으며, 가우시안 아바타는 다른 방법보다 훨씬 더詳細한 디테일을 제공했습니다.

그러나今年, 이러한 돌파구는 상대적으로 적었습니다. 대부분의 논문은 이전 연구의 파생물이거나 그 능력을 초과하지 못했습니다.

대신, 3DGS의 기본 아키텍처의 실현 가능성을 개선하는 데 중점이 맞춰졌습니다. 이를 통해 3DGS 외부 환경을 개선하는 논문이 나타났습니다. 특히 SLAM 3DGS 접근 방식에 대한 관심이 집중되었습니다.

이러한 프로젝트에는 Gaussian Splatting SLAM, Splat-SLAM, Gaussian-SLAM, DROID-Splat 등이 있습니다.

인간 합성에 대한 스플랫 기반 연구를 계속하거나 확장한 프로젝트에는 MIGS, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM, 및 Topo4D 등이 있습니다. 그러나 이러한 프로젝트 중 어느 것도 2023년 말에 등장한 논문의 초기 영향을 따라가지 못했습니다.

‘웨인스타인 시대’의 테스트 샘플은衰退中

동남아시아, 특히 중국의 연구는 종종 테스트 예시를 특징으로 하며, 이러한 예시는 문제가 있을 수 있습니다. 이러한 예시는 조금 ‘스파이시’할 수 있습니다.

이것은 동남아시아의 연구 과학자들이 주목을 끌기 위해 노력하는 것인지, 또는 다른 이유인지는 논란의 여지가 있습니다. 그러나 지난 18개월 동안, 생성적 AI(이미지 및/또는 비디오) 분야의 논문이 더 많이 증가했으며, 이러한 논문은 젊은 여성과 소녀를 테스트 예시로 사용하고 있습니다.

이러한 예로는 UniAnimate, ControlNext, 및 Evaluating Motion Consistency by Fréchet Video Motion Distance(FVMD)가 있습니다.

이것은 생성적 AI를 중심으로 한 커뮤니티와 서브레딧의 일반적인 경향을 따릅니다. 여기에서는 Rule 34가 여전히 유효합니다.

셀러브리티 대결

이러한 부적절한 예시는 셀러브리티의 외모를 임의로 사용하는 문제와 겹칩니다. 특히, 이러한 예시는 일반적으로 젊은 여성, 특히 유명인으로 구성됩니다.

예를 들어, AnyDressing은 젊은 여성 애니메이션 스타일의 캐릭터를 특징으로 하며, 또한 마릴린 먼로와 같은 클래식 셀러브리티와 앤 해서웨이와 같은 현재의 셀러브리티를 사용합니다. 앤 해서웨이는 이러한 사용에 대해 강하게 비난했습니다.

동남아시아에서 논문에서 셀러브리티의 임의 사용은 여전히 일반적입니다. 출처: https://crayon-shinchan.github.io/AnyDressing/

서양의 논문에서는 이러한 관행이 2024년을 통해衰退하고 있습니다. 이는 FAANG 및 다른 높은 수준의 연구 기관에서 더 큰 릴리스를 주도하며, 이러한 주요 기업은 잠재적인 소송에 대한 의식이 높아지고 있습니다.

그들이 생성하는 시스템(예: Imagen 및 Veo2)은 명백히 이러한 출력을 생성할 수 있지만, 서양의 생성적 AI 프로젝트에서 예시는 이제 ‘かわいい’, 디즈니風, 그리고 매우 ‘안전한’ 이미지와 비디오로 전환하고 있습니다.

구글 리서치의 Imagen은 사진실적 출력을 생성할 수 있지만, 프로모션된 샘플은 일반적으로 환상적이고 가족적인 콘텐츠입니다. 출처: https://imagen.research.google/

페이스 워싱

서양의 CV 문헌에서, 이러한 접근 방식은 특히 사용자 지정 시스템에서 더 명백히 나타납니다. 이러한 시스템은 일관된 외모를 생성할 수 있습니다.

예를 들어, orthogonal visual embedding, LoRA-Composer, 구글의 InstructBooth 등이 있습니다.

구글의 InstructBooth는かわいい 요소를 11까지 끌어올립니다. 출처: https://sites.google.com/view/instructbooth

이러한 시스템은 사용자 지정 외모를 생성할 수 있지만, 실제로 생성하는 것은かわいい 이미지와 비디오입니다. 사용자들은 사진실적 인간을 생성하는 것보다かわいい 캐릭터를 생성하는 것에 더 관심이 있습니다.

이러한 시스템은かわいい 예시를 생성하며, 이는 사용자들이 원하는 것과 다를 수 있습니다. 그러나 이러한 접근 방식은 생성적 AI 연구에서 일반적입니다.

最初에 2024년 12월 24일에 게시되었습니다.