분류 전체보기 7

DDPM 식 (3)에서 (5)로: ELBO 전개와 KL Divergence 분해의 이유

DDPM (Denoising Diffusion Probabilistic Models) 논문에서는 전방 (Forward) 과정 $q(x_{1:T} \mid x_0)$와 역방향 (Reverse) 과정 $p_\theta(x_{0:T})$를 사용하여 변분 하한 (Variational Lower Bound)을 아래와 같이 정의합니다. 이는 DDPM논문에서의 (3)번 수식입니다. 그리고 (3) 수식 유도에 대한 내용은 앞서 DDPM에서의 ELBO유도 Jensen's Ineqaulity와 KL's Non-negativity편에서 다뤘습니다.  오늘 다뤄볼 내용은 이 ELBO수식을 더 전개해서 DDPM에서의 5번 수식에 도달해보겠습니다. 설명하면서 ddpm의 (n)번째 수식을 지칭해서 어디서 어디로 넘어가는 단계가 어..

카테고리 없음 2025.03.07

Joint Distribution Decomposition using Markov Chains: Reverse and Forward Processes

1. Reverse Process 역방향 프로세스는 모델이 데이터를 생성하는 방법을 나타냅니다.   즉, 노이즈가 많이 섞인 latent 변수 $x_T$에서 시작해, 점진적으로 “노이즈를 제거(denoising)”하면서 데이터 $x_0$를 복원하는 과정입니다.   역방향 프로세스는 마르코프 체인(Markov chain)으로 정의되며, 조인트 분포는 다음과 같이 분해됩니다: $$ p_\theta(x_0, x_1, \dots, x_T) = p(x_T) \prod_{t=1}^{T} p_\theta(x_{t-1} \mid x_t) $$ 여기서: - $p(x_T) = \mathcal{N}(x_T; 0, I)$는 마지막 latent $x_T$에 대한 사전 분포(prior)입니다. - 각 조건부 분포 $p_\thet..

카테고리 없음 2025.03.07

DDPM에서의 ELBO 유도 - KL 발산의 비음수성(non-negativity)편

먼저, 앞에 보이는 수식(사진)은 DDPM 논문의 3번 수식이고, $-\log p_\theta(x_0)$를 최소화 하는 대신 Variatoinal Bound를 최소화 하는 식으로 바뀌게 됩니다. 위 수식에서는 $\log p_\theta(x_0)$에 음수가 곱해졌기에 ELBO(Evidence Lower Bound)에도 음수가 곱해진 형태라서 ELBO라는 표현 대신 Variational Bound라는 표현을 사용했습니다.  KL의 비음수성을 이용한 ELBO 유도 DDPM과 같은 확률 모델에서는 관측 데이터 $x_0$에 대한 우도 $p_\theta(x_0)$를 직접 최적화하기 어렵습니다.   대신, 변분 추론(Variational Inference) 기법을 통해 Evidence Lower Bound (ELBO..

카테고리 없음 2025.03.06

DDPM에서의 ELBO 유도 - Jensen’s Inequality 편

먼저, 앞에 보이는 수식(사진)은 DDPM 논문의 3번 수식이고, $-\log p_\theta(x_0)$를 최소화 하는 대신 Variatoinal Bound를 최소화 하는 식으로 바뀌게 됩니다. 위 수식에서는 $\log p_\theta(x_0)$에 음수가 곱해졌기에 ELBO(Evidence Lower Bound)에도 음수가 곱해진 형태라서 ELBO라는 표현 대신 Variational Bound라는 표현을 사용했습니다. DDPM에서는 관측 데이터 $x_0$의 우도 $\log p_\theta(x_0)$를 직접 최적화(최대화)하기 어려워, 이 우도(likelihood)의 하한(Evidence Lower Bound, ELBO)을 최대화하는 방식으로 모델을 학습합니다. 우선, 모델의 likelihood는 잠재 변..

카테고리 없음 2025.03.06

Jensen's Inequality proof

젠센의 부등식에 대해 한번 증명을 해보겠습니다. Ox edux에서 만든 영상을 이용하여 설명할 것입니다. 젠센의 부등식을 공부하는 목적은 VAE 또는 DDPM의 ELBO를 유도하는 과정이 Jensen’s Inequality(표준 변분 추론)를 이용하는 방식과 KL 발산의 비음수성(non-negativity)을 이용하는 방식이 두가지로 나뉘기 때문입니다. 젠센의 부등식은 임의의 확률변수 X와 볼록(convex) 함수 g에 대해 다음을 말합니다: $$ g\bigl(\mathbb{E}[X]\bigr) \le \mathbb{E}\bigl[g(X)\bigr] $$ 만약 g가 오목(concave) 함수라면 부등호 방향이 반대가 되어, $$ g\bigl(\mathbb{E}[X]\bigr) \ge \mathbb{E}\..

카테고리 없음 2025.03.06

Posterior and Variational Inference in Diffusion Models

## Generative Model의 궁극적인 목표 Generative model은 관측 데이터 $x$의 우도, 즉 $p(x)$ (또는 $\log p(x)$)를 최대화하는 것을 목표로 합니다.   그러나,   $$ p(x) = \int p(x, z) \, dz, $$   와 같이 잠재 변수 $z$에 대해 적분된 값은 계산하기(intractable) 어려운 경우가 많습니다. ## Posterior (사후분포) 관측 데이터 $x$가 주어졌을 때, 잠재 변수 (latent variable) $z$가 어떻게 분포되는지를 나타내는 분포는 베이즈 정리에 의해 다음과 같이 정의됩니다: $$ p(z \mid x) = \frac{p(x \mid z)\, p(z)}{p(x)}. $$ 여기서, - $p(x \mid z)$:..

카테고리 없음 2025.03.06