AI 101

AI의 확산 모델 – 모든 것을 이해하기

Published March 31, 2023

Updated April 5, 2026

Haziqa Sajid

A collage of human faces created using AI image generator

AI 생태계에서 확산 모델은 기술 발전의 방향과 속도를 설정하고 있습니다.它们는 복잡한 생성적 AI 작업에 대한 접근 방식을 혁신하고 있습니다. 이러한 모델은 가우시안 원리, 분산, 미분 방정식 및 생성 시퀀스의 수학에 기반합니다. (아래에서 기술 용어를 설명하겠습니다)

Nvidia, Google, Adobe 및 OpenAI가 개발한 최신 AI 중심 제품 및 솔루션은 확산 모델을 중심으로 하여 주목을 받고 있습니다. DALL.E 2, Stable Diffusion 및 Midjourney는 최근 인터넷에서 회자되는 확산 모델의 대표적인 예입니다. 사용자는 간단한 텍스트 프롬프트를 입력으로 제공하면, 이러한 모델은 실제 이미지로 변환할 수 있습니다.

Midjourney v5를 사용하여 생성된 이미지: vibrant California poppies. 출처: Midjourney

확산 모델의 기본 작동 원리와它们가 오늘날 우리가 보는 세계의 방향과 기준을 어떻게 변경하는지 살펴보겠습니다.

확산 모델이란?

연구 논문 “Denoising Diffusion Probabilistic Models“에 따르면, 확산 모델은 다음과 같이 정의됩니다.

“확산 모델 또는 확률적 확산 모델은 매개변수화된 마르코프 체인이며, 변분 추론을 사용하여 유한 시간 후에 데이터와 일치하는 샘플을 생성하는 방식으로 훈련됩니다”

간단히 말해, 확산 모델은 훈련 데이터와 유사한 데이터를 생성할 수 있습니다. 모델이 고양이 이미지로 훈련되면, 실제적인 고양이 이미지와 유사한 이미지를 생성할 수 있습니다.

위에서 언급한 기술적 정의를 자세히 살펴보겠습니다. 확산 모델은 시간에 따라 변하는 시스템의 행동을 분석하고 예측할 수 있는 확률적 모델의 작동 원리와 수학적 기초에서 영감을 얻습니다.

정의에 따르면, 확산 모델은 매개변수화된 마르코프 체인이며, 변분 추론을 사용하여 훈련됩니다. 마르코프 체인은 시스템이 시간에 따라 다른 상태로 전환하는 방식을 정의하는 수학적 모델입니다. 시스템의 현재 상태는 특정 상태로 전환할 수 있는 확률만을 결정합니다. 즉, 시스템의 현재 상태는 특정 시간에 시스템이 취할 수 있는 가능한 상태를 결정합니다.

변분 추론을 사용하여 모델을 훈련하는 것은 확률 분포에 대한 복잡한 계산을 포함합니다. 이는 모델의 손실 함수 값을 최소화하는 것을 목표로 합니다. 즉, 예측된 상태와 관찰된 상태 사이의 차이를 최소화하는 것을 목표로 합니다.

모델을 훈련한 후, 모델은 관찰된 데이터와 일치하는 샘플을 생성할 수 있습니다. 이러한 샘플은 시스템이 시간에 따라 취할 수 있는 가능한 궤적 또는 상태를 나타내며, 각 궤적에는 발생할 수 있는 확률이 다릅니다. 따라서 모델은 샘플을 생성하고 각 샘플의 확률을 찾음으로써 시스템의 미래 행동을 예측할 수 있습니다.

AI의 확산 모델을 어떻게 해석할 수 있나요?

확산 모델은 깊은 생성 모델로, 가우시안 노이즈를 추가하여 훈련 데이터(전방 확산 과정이라고 함)를 노이즈로 만들고, 노이즈를 제거하여 데이터를 복원하는 역방향 확산 과정으로 작동합니다. 모델은渐進적으로 노이즈를 제거하는 것을 학습합니다. 이러한 학습된 노이즈 제거 과정은 임의의 시드(임의의 노이즈 이미지)에서 높은 품질의 이미지를 생성할 수 있습니다.

역방향 확산 과정: 노이즈 이미지에서 노이즈를 제거하여 원래 이미지를 복원하거나 변형된 이미지를 생성하는 훈련된 확산 모델. 출처: Denoising Diffusion Probabilistic Models

확산 모델의 3가지 카테고리

확산 모델의 과학적 근거를 뒷받침하는 세 가지 기본적인 수학적 프레임워크가 있습니다. 세 가지 모두 노이즈를 추가하고 노이즈를 제거하여 새로운 샘플을 생성하는 동일한 원리에 기반합니다. 아래에서 자세히 설명하겠습니다.

확산 모델이 이미지에서 노이즈를 추가하고 제거합니다. 출처: Diffusion Models in Vision: A Survey

1. 노이즈 제거 확산 확률 모델 (DDPMs)

위에서 설명한 바와 같이, DDPMs는 주로 시각적 또는 오디오 데이터에서 노이즈를 제거하는 생성 모델입니다.它们는 다양한 이미지 및 오디오 노이즈 제거 작업에서 인상적인 결과를 보여주었습니다. 예를 들어, 영화 산업은 생산 품질을 향상시키기 위해 최신 이미지 및 비디오 처리 도구를 사용합니다.

2. 노이즈 조건부 점수 기반 생성 모델 (SGMs)

SGMs는 주어진 분포에서 새로운 샘플을 생성할 수 있습니다.它们는 대상 분포의 로그密度를 추정할 수 있는 점수 함수를 학습하여 작동합니다. 로그密度 추정은 사용 가능한 데이터 포인트가 알려지지 않은 데이터 세트(테스트 세트)의 일부라는 가정에 기반합니다. 이 점수 함수는 затем 분포에서 새로운 데이터 포인트를 생성할 수 있습니다.

예를 들어, 딥페이크는 유명인사의 가짜 비디오 및 오디오를 생성하는 것으로 악명 높습니다. 그러나它们는 주로 생성적 적대적 네트워크 (GANs)에 기인합니다. 그러나 SGMs는 유사한 능력을 보여주었습니다. 때때로 GANs를 능가하는 높은 품질의 유명인사 얼굴을 생성할 수 있습니다. 또한 SGMs는 엄격한 규정과 산업 표준으로 인해大量으로 사용할 수 없는 의료 데이터 세트를 확장하는 데 도움이 될 수 있습니다.

3. 스토캐스틱 미분 방정식 (SDEs)

SDEs는 시간에 따른 무작위 과정의 변화를 설명합니다.它们는 물리학 및 금융 시장에서 무작위 요인에 의해 크게 영향을 받는 시장 결과를 포함하는 분야에서 널리 사용됩니다.

예를 들어, 商品의 가격은 매우 동적이며 다양한 무작위 요인에 의해 영향을 받습니다. SDEs는 금융 파생상품(원유 계약과 같은)을 계산하여 시장 결과를 모델링하고 유리한 가격을 정확하게 계산하여 안정감을 제공할 수 있습니다.

AI의 확산 모델의 주요 응용 분야

AI의 확산 모델의 널리 채택된 관행과 사용법을 살펴보겠습니다.

고품질 비디오 생성

깊은 학습을 사용하여 고급 비디오를 생성하는 것은 비디오 프레임의 높은 연속성이 필요하기 때문에 어려울 수 있습니다. 이는 확산 모델이 유용한 곳입니다. 확산 모델은 누락된 프레임을 채우기 위해 비디오 프레임의 하위 집합을 생성할 수 있으며, 이는 지연 시간 없이 고품질이고 매끄러운 비디오를 생성할 수 있습니다.

연구자들은 유연한 확산 모델 및 잔차 비디오 확산과 같은 기술을 개발했습니다. 이러한 모델은 또한 실제 프레임 사이에 AI 생성 프레임을 무결하게 추가하여 실제 촬영과 같은 실제 비디오를 생성할 수 있습니다.

이러한 모델은 낮은 프레임률의 비디오의 프레임률을 실제 프레임에서 학습한 패턴을 사용하여 더미 프레임을 추가하여提高할 수 있습니다. 거의 프레임 손실 없이, 이러한 프레임워크는 깊은 학습 기반 모델이 실제 촬영과 같은 실제 비디오를 생성하는 데 도움이 될 수 있습니다.

2023년에 비디오 콘텐츠 생산 및 편집을 빠르고 간단하게 만드는 다양한 인상적인 AI 비디오 생성기가 있습니다.

텍스트-이미지 생성

텍스트-이미지 모델은 입력 프롬프트를 사용하여 고품질 이미지를 생성합니다. 예를 들어, 입력 “적색 사과가 있는 접시”와 실제적인 사과가 있는 접시의 사진을 생성합니다. 블렌DED 확산 및 unCLIP은 사용자 입력에 따라 정확한 이미지를 생성할 수 있는 두 가지 대표적인 모델입니다.

또한, GLIDE by OpenAI는 2021년에 출시된 사용자 입력을 사용하여 실제적인 이미지를 생성하는 또 다른 널리 알려진 솔루션입니다. 이후 OpenAI는 가장 발전된 이미지 생성 모델인 DALL.E-2를 출시했습니다.

구글도 이미지 생성 모델을 개발했습니다. 이는 대형 언어 모델을 사용하여 입력 텍스트의 깊은 텍스트적 이해를 개발하고 실제적인 이미지를 생성합니다.

위에서 언급한 이미지 생성 도구인 Midjourney 및 Stable Diffusion (DreamStudio)를 살펴보세요. 아래에서 Stable Diffusion을 사용하여 생성된 이미지를 확인하십시오.

Stable Diffusion 1.5를 사용하여 생성된 이미지: hyper-realistic, many variations portrait of very old thom yorke. 프롬프트: “collages, hyper-realistic, many variations portrait of very old thom yorke, face variations, singer-songwriter, ( side ) profile, various ages, macro lens, liminal space, by lee bermejo, alphonse mucha and greg rutkowski, greybeard, smooth face, cheekbones”

AI의 확산 모델 – 미래에 무엇을 기대할 수 있나요?

확산 모델은 복잡한 이미지 및 비디오 데이터 세트에서 높은 품질의 샘플을 생성하는 강력한 접근 방식으로 나타났습니다. 인간의 능력을 향상시키고 데이터를 사용하고 조작할 수 있는 확산 모델은 오늘날 우리가 보는 세계를 혁신할 수 있습니다. 우리는 확산 모델의 더 많은 응용 분야를 볼 수 있을 것입니다.

그러나 확산 모델은 생성적 AI 기술의 유일한 방법은 아닙니다. 연구자들은 또한 생성적 적대적 네트워크 (GANs), 변분 오토인코더 및 흐름 기반 깊은 생성 모델을 사용하여 AI 콘텐츠를 생성합니다. 확산 모델과 다른 생성 모델을 구별하는 근본적인 특성을 이해하면 향후 더 효과적인 솔루션을 생성하는 데 도움이 될 수 있습니다.

AI 기반 기술에 대해 더 알아보려면 Unite.ai를 방문하세요. 아래에서 생성적 AI 도구에 대한 우리의 큐레이션된 리소스를 확인하십시오.