변분법Calculus of Variations

Contents

Calculus of Variations
- Maxima and Minima
- Euler-Lagrange variational principle

Calculus of Variations✔

변분법이 다루는 문제

고정된 점 \(A(a, y_a), B(b, y_b)\) 와 두 점을 잇는 곡선

의 집합을 잡자. 변분법이 다루는 문제는 일반적으로 \(Y(a) = y_a, Y(b) = y_b\) 에 대하여 다음과 같은 적분을 최소화하는 집합의 원소 \(Y = y(x)\) 를 찾는 문제이다.

\[ J(Y) = \int_{a}^{b}F(x, Y, Y')dx \tag{2.2} \]

곡선 \(Y\) 는 연속이고 미분가능하거나 둘 다 아닐 수 있다. 이는 \(J(Y)\) 에 대한 문제에 영향을 미친다. 여기에서는 함수 \(Y = Y(x)\) 가 연속이고 적당한 횟수로 연속 미분 가능하다고 가정한다. \((2.1)\) 함수는 다음과 같이 정의된 함수 집합 \(\Omega\) 에 포함된다.

\[ \Omega= \left\{ Y : Y \text{ 는 } C ^{k} \text{ 함수 } \right\} \]

그러면 문제는 다음이 성립하는 \(\Omega\) 안의 함수 \(Y\) 에서 \(J(Y)\) 를 최소화하는 것이 된다.

\[ Y(a) = y_a, \quad Y(b) = y_b \]

예시

공간 속의 두 점 \(A, B\) 를 잇는 가장 짧은 경로를 찾는 문제를 다음과 같이 표현할 수 있다.

\(A, B\) 를 잇는 곡선을 함수 \(Y\) 로 표현할 수 있다. 피타고라스 정리에 의하여 \(Y' = \frac{dY}{dx}\) 에 대하여 다음이 성립한다.

\[ \begin{equation}\begin{split} ds ^{2} & = dx ^{2} + dY ^{2} \\ & = \left\{ 1 + (Y')^{2}\right\} dx ^{2}\\ \end{split}\end{equation} \tag*{} \]

\(A, B\) 사이의 경로를 찾기 위하여 \(A, B\) 사이의 \(ds\) 에 대한 적분 \(\int_{A}^{B}ds\) 을 취하자. 이 \(ds\) 를 위 식으로 치환하면 곡선의 길이를 표현하는 다음과 같은 식을 얻는다.

\[ J(Y) = \int_{a}^{b}\sqrt[]{1 + (Y')^{2}}dx \]

경로를 최소화하려면, 즉, \(J\) 를 최소화하려면, 극함수(extremal function) \(Y\) 를 찾아야 한다.
예시

영역을 덮는 최소 표면을 찾는 문제를 다음과 같이 표현할 수 있다.

위와 같은 표면을 구하기 위해서는 점 \(A\) 와 \(B\) 사이의 \(2 \pi Yds\) 를 적분하면 된다. 즉, \(\int_{A}^{B}2 \pi Yds\) 를 구하면 된다. 위와 같이 \(ds\) 를 치환하면 다음을 얻는다.

\[ J(Y) = \int_{a}^{b}2 \pi Y \sqrt[]{1 + (Y')^{2}}dx \]

최소 표면을 구하려면 극함수 \(Y\) 를 찾아야 한다.

범함수(functional)

함수 집합 \(\Omega\) 에 대하여 함수 \(J: \Omega \to \R\) 을 범함수라고 한다.

위와 같은 예시의 \(J(Y)\) 를 범함수라고 한다.
따라서 변분법(calculus of variations)을 범함수의 최대최소(maxima, minima) 같은 극값을 구하는 방법이라고 생각하면 된다.

Maxima and Minima✔

예시

다음 그림과 같이 함수 \(f(u)\) 에 대하여 점 \(a\) 근방의 모든 \(u\) 에서 \(f(u) \geq f(a)\) 이면 \(u = a\) 를 극소점이라고 한다.(이는 극소점에서 일반적으로 정의했었다.)

\(f(a)\) 에 극소점이 존재한다고 가정하고, \(u=a\) 에서 다음과 같은 테일러 전개가 존재한다고 가정하자. 이때 \(df(a, h) := hf'(a)\) 를 1차 미분(first differential)이라고 한다.(전미분에서 일반적으로 정의했었다.)

\[ f(a + h) = f(a) + hf'(a) + \dfrac{h ^{2}}{2}f''(a) + \operatorname{O}_3 \quad (h \neq 0) \tag{3.1} \]

\(u = a\) 에 극소점이 존재하므로 어떤 \(h \in (-\delta ,\delta )\) 에 대하여 다음이 성립한다.

\[f(a+h) \geq f(a) \tag{3.2} \]

이때 \(f'(a) \neq 0\) 라고 하고, 가령, \(f'(a) > 0\) 라고 해보자. \(h\) 는 충분히 작다고 가정하자. 그러면 다음이 성립한다.

\[ \operatorname{sgn} \{\Delta f = f(a+h) - f(a)\} = \operatorname{sgn} \{df = hf'(a)\} \quad (\neq 0) \]

위 식의 좌변은 \(\geq 0\) 이다. \(f\) 가 \(a\) 에서 극솟값을 갖기 때문에 \((3.2)\) 가 성립하기 때문이다. \(h>0\) 이므로 우변은 \(>0\) 이다. 이는 모순이다. 따라서 \(df = 0\) 이고, \(\implies f'(a) = 0\) 이다. 즉, 다음이 성립하고, 극소점에서의 미분값은 \(0\) 이다.

\[ df = 0 \implies f'(a) = 0 \]

예시

이변수 함수 \(f(u, v)\) 에 대하여 \((a, b)\) 가 극소점이면 \(a\) 근방의 모든 \(u\) 와 \(b\) 근방의 모든 \(v\) 에 대하여 \(f(u, v) \geq f(a, b)\) 이다.

이에 대응되는 테일러 전개는 다음과 같다.(이는 다변수 함수의 1차 테일러 다항식에서 일반적으로 정의했었다.)

\[ f(a+h, b+k) = f(a,b) + hf_u(a, b) + kf_v(a,b) + \operatorname{O}_2 \tag{3.5} \]

이때 \(df(a,b,h,k):=hf_u(a,b)+kf_v(a,b)\) 라고 정의한다.(전미분에서 일반적으로 정의했다.)

위 예시에서와 같이 점 \((a, b)\) 가 극점(극소점 또는 극대점)이려면 \((a, b)\) 에서 다음이 성립해야 한다.

\[ df = 0 \implies \dfrac{\partial f}{\partial u}=\dfrac{\partial f}{\partial v}=0 \]
예시

n변수 함수 \(f = f(u_1, \dots, u_n) = f(\mathbf{u})\) 에 대하여 다음과 같은 테일러 전개를 얻는다. 이는 다변수 함수의 1차 테일러 다항식에서 정의했었다.

\[ f(\mathbf{a}+\mathbf{h}) = f(\mathbf{a}) + \mathbf{h}\cdot \nabla f(\mathbf{a})+\operatorname{O}_2 \tag{3.7} \]

위 예시들과 마찬가지로 \(\mathbf{a}\) 가 극소점(또는 극대점)이려면 다음이 성립해야 한다.

\[ df = 0 \implies \nabla f(\mathbf{a}) = 0 \]

위 예시들은 극값의 정리 2.2를 다시 살펴본 것에 불과하다. 이 정리에서처럼 \(\R^n\) 에서 정의된 함수가 점 \(\mathbf{a}\) 에서 극값을 가지면 \(\nabla f(\mathbf{a})=0\) 이다. 이제 이것처럼 범함수 \(J(Y)\) 가 \(Y=y\) 에서 극솟값을 가지면 다음이 성립한다는 것을 증명해보자.

범함수의 극값 조건, 범함수의 제1변분(first variation)

범함수

\[ J(Y) = \int_{a}^{b}F(x, Y, Y')dx \tag{3.9} \]

가 \(Y=y\) 에서 극값을 가지면 변곡선(varied curve)

\[ Y = y(x) + \epsilon \xi(x) \tag{3.11} \]

을 표현하기 위한 극미한 변화량 \(\epsilon\) 과 변함수 \(\xi (x)\) 에 대한 \(J\) 의 제1변분

\[\displaystyle \delta J = \epsilon \int_{a}^{b}\left\{ \xi \dfrac{\partial F}{\partial y} + \xi ' \dfrac{\partial F}{\partial y'} \right\} dx\]

에 대하여 다음이 성립한다.

\[ \delta J = 0 \]

통상적인 미적분학에서처럼 \(dJ\) 로 표기하지 않고 변분법에서는 \(\delta J\) 로 표기한다. 이 \(\delta J\) 는 \((3.1)\) 의 1차항(linear term) \(df\), \((3.5)\) 의 1차항 \(df\), \((3.7)\) 의 1차항 \(\mathbf{h}\cdot \nabla f(\mathbf{a})\) 과 같은 존재이다.
범함수 \(J(Y)\) 를 최소화하는 곡선 \(Y=y\) 가 구체적으로 무엇인지 감을 잡기 위하여 가령, 다음과 같은 곡선 \(y = (x+1) - \frac{1}{3}e ^{x}\) 이 범함수 \(J(Y)\) 를 최소화시키는 입력인 상황을 생각할 수 있다.
증명

범함수 \(J(Y)\) 가 곡선 \(Y = y\) 에서 극솟값을 갖는다고 가정하자. 그러면 \(Y \in \Omega= \{Y : Y \in C_2, Y(a) = y_a, Y(b) = y_b\}\) 에 대하여 다음이 성립해야 한다.

\[ J(Y) \geq J(y) \tag{3.10} \]

\((3.10)\) 의 곡선 \(Y\) 는 다음과 같은 변곡선으로 표현된다.

\[ Y = y(x) + \epsilon \xi(x) \tag{3.11} \]

이 변곡선은 \(J\) 의 극솟값 \(y\) 근방의 함수들을 표현한 것으로써 다음 그림과 같다.

모든 곡선 \(Y\) 는 점 \(A\) 와 \(B\) 를 지나야 하므로 다음을 만족해야 한다.

\[ \xi (a) = 0 , \quad \xi (b) = 0 \]

그러면 \((3.10)\) 은 모든 \(y + \epsilon \xi \in \Omega\) 에 대하여

\[ J(Y) = J(y + \epsilon \xi ) \geq J(y) \]

와 같고 \((3.9)\) 는 다음과 같다.

\[ J(y + \epsilon \xi ) = \int_{a}^{b}F(x, y + \epsilon \xi , y' + \epsilon \xi ') dx \]

이때 \((a, b)\) 안에서 \(x\) 를 고정시키고, \(y\) 와 \(y'\) 을 독립변수로 여기자. 그러면 \(J\) 는 이변수 함수이다. 위 예시의 \((3.5)\) 에서처럼 이변수 함수의 테일러 전개는 다음과 같다.

\[ f(u + h, v + k) = f(u, v) + h \dfrac{\partial f}{\partial u} + k \dfrac{\partial f}{\partial v} + \operatorname{O}_2 \]

이때 \(u = y, h = \epsilon \xi , v = y', k = \epsilon \xi ', f = F\) 로 잡으면 다음이 성립한다.

\[ \begin{equation}\begin{split} J(Y) = J(y + \epsilon \xi ) &= \int_{a}^{b}\left\{ F(x, y, y') + \epsilon \xi \dfrac{\partial F}{\partial y} + \epsilon \xi ' \dfrac{\partial F}{\partial y'} + \operatorname{O}(\epsilon ^{2}) \right\} dx\\ & = J(y) + \delta J + \operatorname{O}_2 \\ \end{split}\end{equation} \tag*{} \]

\(\delta J\) 는 다음과 같다.

\[ \delta J = \epsilon \int_{a}^{b}\left\{ \xi \dfrac{\partial F}{\partial y} + \xi ' \dfrac{\partial F}{\partial y'} \right\} dx \]

\(F\) 의 \(y\) 에 대한 편미분은 다음과 같다.

\[ \dfrac{\partial F}{\partial y} = \left\{ \dfrac{\partial F(x, Y, Y')}{\partial Y} \right\}_{Y=y,Y'=y'} \tag{3.17} \]

\(\delta J \neq 0\) 라고 하면 \(J(Y) - J(y) = \delta J + \operatorname{O}_2\) 이다. 충분히 작은 \(\epsilon \xi\) 에 대하여 다음이 성립한다.

\[ \operatorname{sgn} \{J(Y) - J(y)\} = \operatorname{sgn} \{\delta J\} \]

\(\epsilon \xi\) 에 대응되는 어떤 변곡선에 대하여 \(\delta J>0\) 또는 \(\delta J<0\) 이다. 그러나 \(Y = y\) 에서 \(J\) 는 극솟값을 갖고, 이에 따라 좌변이 \(\geq 0\) 이다. 이는 모순이다. ■

정리 3.1 범함수의 극값 조건, 정상 조건(stationary condition)

\[ \left< f,g \right> = \int_{a}^{b}f(x)g(x)dx \]

와 같이 내적을 정의하고, \(J\) 의 미분 \(J'\) 을

\[ J'(y) = \dfrac{\partial F}{\partial y} - \frac{d}{dx}\dfrac{\partial F}{\partial y'} \]

와 같이 쓰자. \(J(Y)\) 가 \(Y=y\) 에서 극값을 가지면 모든 \(\xi\) 에 대하여 다음이 성립한다. 즉, \(J(Y)\) 가 \(Y=y\) 에서 극값을 가지면 \(\delta J(y, \epsilon \xi ) = 0\) 이다.

\[ \delta J = \left< \epsilon \xi , J'(y) \right> = 0 \tag{3.26} \]

\((3.26)\) 을 \(J\) 의 정상 조건이라고 한다.

이 정리는 범함수의 극값 조건을 더욱 간소하게 최적화시키고, 내적으로 표기를 단순하게 하여 다시 표현한 것에 불과하다.
이 정리로 다음과 같은 테일러 전개를 얻는다. 이는 위 예시의 \((3.1), (3.5), (3.7)\) 의 테일러 전개와 같은 형태이다.

\[ J(y+\epsilon \xi )=J(y) + \underbrace{\left< \epsilon \xi ,J'(y) \right>}_{\delta J} + \operatorname{O}_2 \]
증명

\[ \delta J = \epsilon \int_{a}^{b}\left( \xi \dfrac{\partial F}{\partial y} + \xi ' \dfrac{\partial F}{\partial y'} \right)dx \]

에서 두번째 항에 대하여 부분적분하면 \(\xi (a)=\xi (b)=0\) 이므로 다음을 얻는다.

\[ \begin{equation}\begin{split} \delta J& = \epsilon \int_{a}^{b} \left( \xi \dfrac{\partial F}{\partial y} - \xi \frac{d}{dx} \dfrac{\partial F}{\partial y'} \right)dx + \underbrace{\epsilon \left[ \xi \dfrac{\partial F}{\partial y'} \right]_{a}^{b}}_{=0} \\ & = \epsilon \int_{a}^{b}\xi \left\{ \dfrac{\partial F}{\partial y} - \frac{d}{dx}\dfrac{\partial F}{\partial y'} \right\}dx \\ \end{split}\end{equation} \tag*{} \]

그러면 \(\delta J\) 를 다음과 같이 축약할 수 있다.

\[ \delta J = \left< \epsilon \xi ,J'(y) \right> \tag*{■}\]

임계곡선(critical curve, extremal), 정상값(stationary value)

\(y\) 가 \(\delta J = 0\) 의 해이면 \(y\) 를 임계곡선이라고 한다.

임계곡선 \(y\) 에 대한 \(J(y)\) 를 \(J\) 의 정상값이라고 한다.

임계점에 대응되는 개념이다.
극점이 성립하려면 다음의 부호를 확인해야 한다.

\[ \Delta J = J(y + \epsilon \xi ) - J(y) = \text{ total variation of }J \]

Euler-Lagrange variational principle✔

정리 4.1 오일러-라그랑주 변분원리(Euler-Lagrange variational principle, 정상 원리, stationary principle), 오일러-라그랑주 방정식(Euler-Lagrange equation)

\(Y(a) = y_a, Y(b) = y_b\) 을 만족하는

\[ J(Y) = \int_{a}^{b}F(x, Y, Y') dx \]

가 \(Y = y\) 에서 극값을 가지면, \(y\) 는 \(a<x<b\) 와 \(F = F(x, y, y')\) 에 대하여 다음을 만족한다.

\[ J'(y) = \dfrac{\partial F}{\partial y} - \frac{d}{dx}\dfrac{\partial F}{\partial y'} = 0 \]

이 식을 오일러-라그랑주 방정식이라고 한다.

지금까지의 논의의 결론이 이 정리이다.

정리 3.1 범함수의 극값 조건을 다시 한번 간소하게 최적화한 정리이다. 이로써 완전히 간소하게 최적화된 정상 조건은 오일러-라그랑주 방정식의 해를 찾는 문제가 된다.

이로써 범함수의 극값을 구하고 싶으면 오일러-라그랑주 방정식의 해를 구하면 된다는 것을 알 수 있다.
증명

정상 조건

\[ \delta J = 0 \]

은 다음과 같다.

\[ \left< \epsilon \xi , J'(y) \right> = \int_{a}^{b}\epsilon \xi J'(y)dx = 0 \]

\(J'(y)\) 는 다음과 같다.

\[ J'(y) = \dfrac{\partial F}{\partial y} - \frac{d}{dx}\dfrac{\partial F}{\partial y'} \]

정상조건이 성립하려면 \(\epsilon > 0\) 이고 \(\xi\) 는 변함수이므로 \(J'(y) = 0\) 이어야 한다. ■
예시

공간 속의 두 점 \(A, B\) 를 잇는 가장 짧은 경로를 찾는 문제를 다시 생각해보자. 이 상황을 \(F(x, Y, Y') = \sqrt[]{1 + (Y')^{2}}\) 라고 썼지만, 여기에서는 \(F(x, y, y') = \sqrt[]{1 + (y')^{2}}\) 라고 쓴다. 오일러-라그랑주 방정식을 계산하면 다음과 같다.

\[ \dfrac{\partial F}{\partial y} = 0, \quad \dfrac{\partial F}{\partial y'} = \dfrac{2y'}{2 \sqrt[]{1 + (y')^{2}}} = \dfrac{y'}{\sqrt[]{1 + (y')^{2}}} \]

\[ \begin{equation}\begin{split} 0 - \frac{d}{dx} &\left( \dfrac{y'}{\sqrt[]{1 + (y')^{2}}} \right) = 0 \qquad a<x<b\\ & \implies \dfrac{y'}{\sqrt[]{1 + (y')^{2}}} = \text{ const. } \\ & \implies y' = \alpha \\ & \implies y = \alpha x+\beta \\ \end{split}\end{equation} \tag*{} \]

즉, 임의의 상수 \(\alpha ,\beta\) 에 대한 \(y = \alpha x+\beta\) 가 임계곡선이다.
예시

\(F = y(x) ^{2} + (y'(x)) ^{2}\) 이면 오일러-라그랑주 방정식은 다음과 같다.

\[ \dfrac{\partial F}{\partial y} = 2y, \quad \dfrac{\partial F}{\partial y'} = 2y' \]

\[ \begin{equation}\begin{split} &\dfrac{\partial F}{\partial y} - \frac{d}{dx}\dfrac{\partial F}{\partial y'}=0 \quad \leadsto \quad 2y - \frac{d}{dx}2y'=0\\ \leadsto \quad & y - \frac{d}{dx}\frac{dy}{dx}=0 \quad \leadsto \quad y(x) - \frac{d ^{2}y}{dx ^{2}}=0\\ \end{split}\end{equation} \tag*{} \]

이 미분방정식 \(y - y'' = 0\) 은 경계 조건을 설정하여 풀 수 있다.
범함수가 \(F\) 의 미분에 의존하지 않는 경우, 즉, \(F(x, Y)\) 와 같은 형식일 경우 정상 조건은 모든 \(x\) 에 대한 \(\dfrac{\partial G}{\partial y}(x) = 0\) 가 된다.
확률 분포에 대한 범함수를 최적화하는 경우 확률에 대한 정규화 제한을 유지해야 한다. 이는 라그랑주 승수를 통하여 수행되는 경우가 많다. 이로써 제약 없는 최적화를 수행할 수 있다.
정상 조건의 다변수 함수의 변수 \(\mathbf{x}\) 로의 확장은 꽤 이해하기 쉽다.

Arthurs, A. M. (1975). Calculus of variations. Routledge & Kegan Paul Books.

Bishop, C. M., & Bishop, H. (2023). Deep learning: Foundations and Concepts. Springer Nature.