Extrema

Contents

Gradients and Steepest Ascent
Vector Fields
- Gradient Field, Potential Function
grad, div, curl, del
Taylor's Theorem
- Differentials
- Hessian
Extrema of Functions
Lagrange Multipliers

Gradients and Steepest Ascent✔

Colley Theorem 6.2 방향도함수 계산법

열린집합 \(X \subset \R^n\) 에 대한 함수 \(f:X \to \R\) 이 \(\mathbf{a} \in X\) 에서 미분가능하면 임의의 벡터 \(\mathbf{v} \in \R^n\) 방향으로의 방향도함수 \(D_ \mathbf{v} f(\mathbf{a})\) 가 존재하고, 다음이 성립한다.

\[ D_{\mathbf{v}}f(\mathbf{a}) = \nabla f(\mathbf{a}) \cdot \mathbf{v} \]

\(f\) 가 각 점 \(\mathbf{x} \in X\) 에서 미분가능하면 다음이 성립한다.

\[ D_{\mathbf{v}}f(\mathbf{x}) = \nabla f(\mathbf{x}) \cdot \mathbf{v} \]

이 정리는 방향도함수의 기하학적 특성을 강조해준다. 이 결과는 방향도함수가 기울기와 방향 벡터 \(\mathbf{v}\) 의 점곱임을 말해준다.

기울기가 편미분으로 구성되므로 결론적으로 방향도함수는 순전히 방향 벡터와 편미분에 의존한다는 것을 알 수 있다.
증명

다음과 같이 함수 \(F\) 를 정의하자.

\[ F(\mathbf{t}) = f(\mathbf{a} + \mathbf{t} \mathbf{v}) \]

그러면 방향도함수의 정의에 의하여 다음이 성립한다.

\[ D_{\mathbf{v}}f(\mathbf{a}) = \lim_{\mathbf{t} \to 0} \dfrac{f(\mathbf{a} + \mathbf{t}\mathbf{v}) - f(\mathbf{a})}{\mathbf{t}} = \lim_{\mathbf{t} \to 0} \frac{F(\mathbf{t}) - F(0)}{\mathbf{t} - 0} = F'(0) \]

\[ \leadsto D_{\mathbf{v}}f(\mathbf{a}) = \frac{d}{dt}f(\mathbf{a} + \mathbf{t}\mathbf{v}) \big | _{\mathbf{t}=0} \]

\(f\) 가 \(\mathbf{a}\) 에서 미분가능하므로 \(x(\mathbf{t}) = \mathbf{a} + \mathbf{t}\mathbf{v}\) 로 두고 연쇄법칙을 사용할 수 있다. 우변에 연쇄법칙을 사용하면 다음이 성립한다.

\[ \frac{d}{dt}f(\mathbf{a} + \mathbf{t}\mathbf{v}) = Df(x)Dx(\mathbf{t}) = Df(x)\mathbf{v} \]

그러면 \(\mathbf{t} = 0\) 일 때 다음이 성립한다.

\[ D_{\mathbf{v}}f(\mathbf{a}) = Df(\mathbf{a})\mathbf{v} = \nabla f(\mathbf{a}) \cdot v \tag*{■}\]
예시

함수 \(f(x, y) = x ^{2} -3xy + 2x - 5y\) 은 연속 편미분을 가지므로 미분가능하고, 이에 따라 임의의 단위 벡터 \(\mathbf{v} = v_1i + v_2j \in \R^2\) 에 대하여 다음이 성립한다.

\[ \begin{align}\begin{split} D_{\mathbf{v}}f(x, y)&= \nabla f(x, y) \cdot \mathbf{v} = (f_x(x, y)i + f_y(x, y)j) \cdot (v_1i + v_2j) \\ &=((2x-3y+2)i + (-3x -5)j) \cdot (v_1i + v_2j) \\ &=(2x-3y+2)v_1 + (-3x -5)v_2 \\ \end{split}\end{align} \tag*{} \]

따라서 가령 \((0, 0)\) 에서의 방향도함수는 다음과 같다.

\[ D_{\mathbf{v}}f(0, 0) = 2v_1 - 5v_2 \]

더 나아가서 점 \((0, 0)\) 에서 벡터 \((1, 1)\) 방향으로의 함수의 변화율은 \(-3\) 이 되고, 만약 벡터 \((5, 2)\) 방향으로 움직이면 함수의 변화율은 \(0\) 이다.

Colley Theorem 6.3

열린집합 \(X \subset \R^n\) 에 대한 함수 \(f:X \to \R\) 의 \(\mathbf{a} \in X\) 에서 단위벡터 \(\mathbf{v} \in \R^n\) 방향으로의 방향도함수 \(D_{\mathbf{v}}f(\mathbf{a})\) 에 대하여 다음이 성립한다.

\(\mathbf{v}\) 가 \(\nabla f(\mathbf{a})\) 와 같은 방향이면 \(D_{\mathbf{v}}f(\mathbf{a})\) 가 최댓값 \(\left\| \nabla f(\mathbf{a}) \right\|\) 이 된다.
\(\mathbf{v}\) 가 \(\nabla f(\mathbf{a})\) 와 반대 방향이면 \(D_{\mathbf{v}}f(\mathbf{a})\) 가 최솟값 \(- \left\| \nabla f(\mathbf{a}) \right\|\) 가 된다.

이 정리는 특정 지점에서 어떤 방향으로 향해야만 그래프가 가장 크게 증가하는지, 또는 가장 크게 감소하는지 말해준다.
증명

위 정리에 의하여 다음이 성립한다.

\[ D_{\mathbf{v}}f(\mathbf{a}) = \nabla f(\mathbf{a}) \cdot \mathbf{v} \]

유클리드 공간에서는 유클리드 공간에서 두 벡터의 내적 정리에 의하여 다음이 성립한다.

\[ D_{\mathbf{v}}f(\mathbf{a}) = \left\| \nabla f(\mathbf{a}) \right\| \left\| \mathbf{v} \right\| \cos \theta = \left\| \nabla f(\mathbf{a}) \right\| \cos \theta \]

\[ \leadsto -\left\| \nabla f(\mathbf{a}) \right\| \leq D_{\mathbf{v}}f(\mathbf{a}) \leq \left\| \nabla f(\mathbf{a}) \right\| \]

그러므로 \(\cos \theta = 1 \implies \theta = 0 \degree\) 일 때 \(D_{\mathbf{v}}f(\mathbf{a})\) 이 최댓값이고 \(\cos \theta = -1 \implies \theta = 180 \degree\) 일 때 \(D_{\mathbf{v}}f(\mathbf{a})\) 이 최솟값이다. \(\theta\) 는 두 벡터 \(\nabla f(\mathbf{a}), \mathbf{v}\) 가 이루는 각이므로 결론적으로 두 벡터가 같은 방향일 때 최댓값, 정반대 방향일 때 최솟값이다. ■
예시

함수 \(f(x, y, z) = 5x ^{2} + 7y ^{4} +x ^{2}z ^{2}\) 의 점 \((1, -1, 2)\) 에서 가장 가파른 변화량은 \(\nabla f(1, -1, 2)\) 방향으로의 변화량이고, 그 변화량은 다음과 같다.

\[ \begin{align}\begin{split} \left\| \nabla f(1, -1, 2) \right\| &= \left\| (10x + 2xz ^{2}, 21y ^{3}, 2x ^{2}z)|_{(1, -1, 2)} \right\| \\ &= \left\| 18i - 28j + 4k \right\| \\ &= 2 \sqrt[]{281} \\ \end{split}\end{align} \tag*{} \]

Vector Fields✔

벡터장(vector field)

\(\R^n\) 위의 벡터장은 함수 \(F: X \subset \R^n \to \R^n\) 이다.

즉, 벡터장은 정의역의 점을 벡터로 대응시키는 함수이다.
함수 \(f:X \subset \R^n \to \R\) 을 스칼라 장(scalar field)라고 부르기도 한다.
예시

상수 벡터 \(\mathbf{a}\) 에 대한 벡터장 \(F:\R^2 \to \R^2, \mathbf{x} \mapsto \mathbf{a}\) 은 \(\R^2\) 의 각 점을 벡터 \(\mathbf{a}\) 로 대응시킨다. 그 결과 다음과 같이 정의역의 각 점에서 \(\mathbf{a}\) 와 평행하는 벡터들이 그려진다.
예시

\(G(x, y) = yi - xj\) 와 같이 정의된 벡터장 \(G:\R^2 \to \R^2\) 을 그려보자. 먼저 \(G\) 의 각 점 \((x, y)\) 에서의 벡터의 길이는 다음과 같다.

\[ \left\| G(x, y) \right\| = \left\| yi - xj \right\| = \sqrt[]{y ^{2} + x ^{2}} \]

이 결과는 벡터장 \(G\) 가 원 \(x ^{2} + y ^{2} = a ^{2}\) 위에서는 일정한 길이의 벡터를 생성해낸다는 것을 의미한다.

또한 다음이 성립한다.

\[ (x, y) \cdot G(x, y) = (xi + yj) \cdot (yi - xj) = 0 \]

이는 각 점 \((x, y)\) 을 종점으로 하는 벡터와 \(G(x, y)\) 가 수직임을 뜻한다. 이 두 가지 사실을 고려하면 벡터장 \(G\) 가 다음과 같이 그려진다는 것을 알 수 있다.

Gradient Field, Potential Function✔

기울기 장(gradient field), 포텐셜 함수(potential function)

\(\R^n\) 위의 벡터장 \(F: X \subset \R^n \to \R^n\) 이 어떤 함수 \(f: X \to \R\) 대하여 다음이 만족시키면 \(F\) 를 기울기 장이라 한다.

\[ \forall \mathbf{x} \in X : F(\mathbf{x}) = \nabla f(\mathbf{x}) \]

이때 함수 \(f\) 를 벡터장 \(F\) 의 포텐셜 함수라고 한다.

즉, \(F\) 가 어떤 함수 \(f: X \to \R\) 의 기울기가 되면 기울기장인 것이다.
예시

벡터 \(\mathbf{r} = xi + yj + zk\) 과 상수 \(c \neq 0\) 에 대하여 다음과 같이 정의된 벡터장 \(F: \R^3 - \{0\} \to \R^3\) 를 역제곱 벡터장(inverse square vector field)이라 한다.

\[ F(x, y, z) = \dfrac{c}{\left\| \mathbf{r} \right\|^{3}}\mathbf{r} \]

벡터 \(\mathbf{u} = \dfrac{\mathbf{r}}{\left\| \mathbf{r} \right\|}\) 를 정의하면 \(\mathbf{r} = \left\| \mathbf{r} \right\|\mathbf{u}\) 가 되는데 이에 대하여 다음이 성립한다.

\[ F(x, y, z) = \frac{c}{\left\| \mathbf{r} \right\|^{2}}\frac{\mathbf{r}}{\left\| \mathbf{r} \right\|} = \frac{c}{\left\| \mathbf{r} \right\|^{2}}\mathbf{u} \]

이는 벡터 \(\mathbf{r}\) 의 정규화 벡터 \(\mathbf{u}\) 에 \(\dfrac{c}{\left\| \mathbf{r} \right\|^{2}}\) 를 곱한 것이다. 따라서 \(F(x, y, z)\) 는 점 \((x, y, z)\) 를 종점으로 하는 벡터와 평행하고, 점 \((x, y, z)\) 까지와의 거리의 제곱의 역수라는 거리를 갖는 벡터이다. 그래서 \(F\) 를 역제곱 벡터장이라 한다. 한편, \(F(x, y, z)\) 의 방향은 \(c\) 가 음수이면 원점을 향하고, 양수이면 바깥을 향한다.

역제곱 벡터장은 물리학에서 중요한데, 가령 중력 벡터장을 표현할 수 있기 때문이다. 상수 \(c\) 를 중력상수 \(-GMm\) 으로 두면 \(F = - \dfrac{GMm}{\left\| \mathbf{r} \right\|^{2}}\mathbf{u}\) 가 되는데 이 중력 벡터장은 다음과 같이 그려진다.

이러한 역제곱 벡터장 \(F\) 는 기울기장이다. 다음과 같은 포텐셜 함수 \(f: \R^3 \to \R\) 을 갖기 때문이다.

\[ f(x, y, z) = - \dfrac{c}{\sqrt[]{x ^{2} + y ^{2} + z ^{2}}} = - \dfrac{c}{\left\| \mathbf{r} \right\|} \]

실제로 \(F(x, y, z)\) 를 성분별로 따져보면

\[ f(x, y, z) = \dfrac{cx}{(x ^{2} + y ^{2} + z ^{2}) ^{3/2}}i + \dfrac{cy}{(x ^{2} + y ^{2} + z ^{2}) ^{3/2}}j + \dfrac{cz}{(x ^{2} + y ^{2} + z ^{2}) ^{3/2}}k \]

와 같은데, 포텐셜 함수 \(f\) 의 \(x\) 에 대한 편미분이

\[ \dfrac{\partial f}{\partial x} = \dfrac{c \cdot 2x \cdot 1/2 \cdot (x ^{2} + y ^{2} + z ^{2}) ^{-1/2}}{x ^{2} + y ^{2} + z ^{2}} = \dfrac{cx}{(x ^{2} + y ^{2} + z ^{2})^{3/2}} \]

꼴이므로 \(\nabla f(x, y, z) = F(\mathbf{x})\) 가 된다.

grad, div, curl, del✔

델 연산자(del)

\(\R^n\) 의 점 \(\mathbf{x} = (x_1, x_2, \dots, x_n)\) 에 대하여 델 연산자 \(\nabla\) 는 다음과 같은 벡터이다.

\[ \nabla = \left( \dfrac{\partial }{\partial x_1}, \dfrac{\partial }{\partial x_2},\dots ,\dfrac{\partial }{\partial x_n} \right) = e_1 \dfrac{\partial }{\partial x_1} + e_2 \dfrac{\partial }{\partial x_2} + \dots + e_n\dfrac{\partial }{\partial x_n} \]

\(\nabla\) 의 성분은 비어있는 편미분인데 이것은 스칼라장 혹은 벡터장이 입력되어야 함을 뜻한다.

가령 \(\R^3\) 의 스칼라장 \(f:X \subset \R^3 \to \R\) 에 대하여 다음과 같이 벡터 \(\nabla\) 와 스칼라장 \(f\) 의 곱 \(\nabla f(x, y, z)\) 이 \(f\) 의 기울기 벡터로 여겨진다.

\[ \begin{align}\begin{split} \nabla f(x, y, z) &= \left( i \dfrac{\partial }{\partial x} + j \dfrac{\partial }{\partial y} + k \dfrac{\partial }{\partial z} \right) f(x, y, z) \\ &= \dfrac{\partial f}{\partial x}i + \dfrac{\partial f}{\partial y}j + \dfrac{\partial f}{\partial z}k \\ &= \operatorname{grad} f \\ \end{split}\end{align} \tag*{} \]
델 연산자 \(\nabla\) 를 나블라(nabla)로도 읽는다.

벡터장의 발산(divergence of vector field)

미분가능한 벡터장 \(F: X \subset \R^n \to \R^n\) 와 점 \(\mathbf{x} = (x_1, x_2, \dots, x_n) \in \R^n\) 와 \(F\) 의 성분함수 \(F_1, F_2, \dots, F_n: X \to \R\) 에 대하여 \(F\) 의 발산은 다음과 같은 스칼라 장이다.

\[ \operatorname{div} F = \nabla \cdot F = \dfrac{\partial F_1}{\partial x_1} + \dfrac{\partial F_2}{\partial x_2} + \dots + \dfrac{\partial F_n}{\partial x_n} \]

발산을 \(\operatorname{div} F\) 을 \(\nabla \cdot F\) 라고도 표기한다. 벡터장 \(F\) 를

\[ F = F_1e_1 + F_2e_2 + \dots F_ne_n \]

와 같이 표기하면 다음이 성립하기 때문이다.

\[ \begin{align}\begin{split} \nabla \cdot F&= \left( e_1\dfrac{\partial }{\partial x_1}+ e_2\dfrac{\partial }{\partial x_2}+\dots + e_n\dfrac{\partial }{\partial x_n} \right) \cdot (F_1e_1 + F_2e_2 + \dots F_ne_n)\\ &= \operatorname{div} F\\ \end{split}\end{align} \tag*{} \]
발산은 벡터장이 정의된 공간의 어떤 점에서 벡터가 생성되어 퍼지고 있는지, 벡터가 모여서 소멸되는지 측정하기 위한 연산자이다. 예를 들어 어떤 점에서 발산이 양수라면 벡터가 생성되어 퍼지는 것이고, 발산이 음수라면 벡터가 모여들어 소멸되는 것이고, 발산이 \(0\) 라면 그 지점에서 벡터가 생성되는 정도와 소멸되는 정도가 똑같다는 것이다.

가령, 욕조에서 마개를 열어 물이 마개로 빨려들어가고 있는 공간을 생각하자. 그리고 편의상 물이 빠지는 하수구 쪽에서 물이 사라진다고 생각하자. 그러면 물이 빠져나가서 소멸되고 있는 마개 부분에서 발산값은 음수이다. 그 이외의 지점에서는 물이 생기거나 없어지지 않고 단지 흐르기 때문에 \(0\) 가 된다.
예시

벡터장 \(F = x ^{2}yi + xzj + xyzk\) 에 대한 발산은 다음과 같다.

\[ \operatorname{div} F = \dfrac{\partial }{\partial x}(x ^{2}y) + \dfrac{\partial }{\partial y}(xz) + \dfrac{\partial }{\partial z}(xyz) = 3xy \]

회전(curl)

\(\R^3\) 에서 미분가능한 벡터장 \(F: X \subset \R^3 \to \R^3\) 의 회전은 다음과 같은 벡터장이다.

\[ \begin{align}\begin{split} \operatorname{curl} F = \nabla \times F &= \left( i \dfrac{\partial }{\partial x} + j \dfrac{\partial }{\partial y} + k \dfrac{\partial }{\partial z} \right) \times (F_1i + F_2j + F_3k) \\ &= \left( \dfrac{\partial F_3}{\partial y} - \dfrac{\partial F_2}{\partial z} \right) i + \left( \dfrac{\partial F_1}{\partial z} - \dfrac{\partial F_3}{\partial x} \right) j \\ & \qquad + \left( \dfrac{\partial F_2}{\partial x} - \dfrac{\partial F_1}{\partial y} \right) k \\ \end{split}\end{align} \tag*{} \]

기울기 벡터는 델 연산자 \(\nabla\) 와의 스칼라 곱으로, 발산은 \(\nabla\) 와의 내적으로, 회전은 \(\nabla\) 와의 외적으로 정의된다. 그러나 회전은 \(\R^n\) 이 아니라 \(\R^3\) 에서 정의된다.

Colley Theorem 4.3 - 2

\(C^2\) 의 스칼라장 \(f:X \subset \R^3 \to \R\) 에 대하여 다음이 성립한다.

\[ \operatorname{curl} (\operatorname{grad} f) = 0 \]

증명

Colley Theorem 4.4

\(C^2\) 의 벡터장 \(F: X \subset \R^3 \to \R^3\) 에 대하여 다음이 성립한다.

\[ \operatorname{div} (\operatorname{curl} F) = 0 \]

증명

Taylor's Theorem✔

Colley Theorem 1.1 일변수 함수의 테일러 정리(Taylor's Theorem in One Variable), 테일러 다항식(Taylor polynomial)

\(\R\) 에서 열린집합 \(X\) 에 대한 함수 \(f:X \subset \R \to \R\) 가 \(k\)번 미분가능할 때 \(a \in X\) 와

\[ \begin{align}\begin{split} p_k(x) &= f(a) + f'(a)(x - a) + \frac{f''(a)}{2}(x - a) ^{2} \\ &\qquad + \dots + \dfrac{f ^{(k)}(a)}{k!}(x - a) ^{k} \\ \end{split}\end{align} \tag*{} \]

와 \(\displaystyle \lim_{x \to a} \dfrac{R_k(x, a)}{(x - a) ^{k}} = 0\) 인 나머지 항 \(R_k\) 에 대하여 다음이 성립한다.

\[ f(x) = p_k(x) + R_k(x, a) \]

이때 \(p_k(x)\) 를 \(a\) 에서 \(f\) 의 \(k\)차 테일러 다항식이라 한다.

\(R_k\) 의 의미는 테일러 다항식 \(p_k\) 가 점 \(a\) 에서 \(f\) 를 근사할 때 오차가 줄어드는 속도가 \((x-a)^{k}\) 보다 훨씬 더 빠르다는 것이다.

그러나 이 정리는 테일러 다항식과 원 함수 간의 오차 \(R_k\) 에 대한 단서를 주지 않는다. 따라서 다음의 정리가 필요하다.
함수 \(f(x) = \ln x\) 에서 점 \(a = 1\) 를 잡으면 다음이 성립한다.

\[ f(1) = \ln 1 = 0 \]

\[ f'(1) = \frac{1}{1} = 1 \]

\[ f''(1) = - \frac{1}{1^2} = -1 \]

따라서 \(f\) 의 1차, 2차 테일러 다항식은 다음과 같다.

\[ p_1(x) = 0 + 1(x-1) = x-1 \]

\[ p_2(x) = 0 + 1(x-1) - \frac{1}{2}(x-2)^{2} = - \frac{1}{2}x ^{2} + 2x - \frac{3}{2} \]

이 두 테일러 다항식은 다음 그림과 같이 점 \(a=1\) 에서 \(y = \ln x\) 를 근사한다. 테일러 다항식의 차수가 높아질수록 더 잘 근사할 수 있다.
\(f\) 가 \(a\) 에서 미분가능하면 다음과 같은 \(a\) 에서의 접선 \(p_1\) 은 \(f\) 를 \(a\) 에서 선형근사한다.

\[ p_1(x) = f(a) + f'(a)(x - a) \]

즉, \(R_1(x, a) = f(x) - p_1(x)\) 으로 두면 다음이 성립한다.

\[ \lim_{x \to a} \frac{R_1(x, a)}{x - a} = 0 \]

이 근사 함수 \(p_1\) 은 다음을 만족한다.

\[ p_1(a) = f(a), \quad p'_1(a) = f'(a) \]

▲

그러나 다음과 같이 이계도함수까지 근사되도록 하는 근사 함수 \(p_2\) 만들 수 있다.

\[ p_2(a) = f(a), \quad p'_2(a) = f'(a), \quad p''_2(a) = f''(a) \]

이 \(p_2\) 는 단순히 다음과 같이 만들면 된다.

\[ p_2(x) = f(a) + f'(a)(x - a) + \frac{f''(a)}{2}(x - a) ^{2} \]

\(f\) 가 \(C^2\) 함수라면 \(\displaystyle \lim_{x \to a} \frac{R_2(x, a)}{(x - a)^2} = 0\) 을 만족하는 \(R_2(x, a)\) 에 대하여 \(f(x) = p_2(x) + R_2(x, a)\) 이 성립함을 증명할 수 있다. 그러면 이 과정을 충분히 일반화 할 수 있다.
증명

Colley Theorem 1.2

\(f\) 가 \(C ^{k+1}\) 함수라면 \(f\) 의 나머지 항 \(R_k\) 에 대하여 \(x\) 와 \(a\) 사이에 있고 다음을 만족하는 \(z\) 가 존재한다.

\[ R_k(x, a) = \frac{f ^{(k+1)}(z)}{(k + 1)!}(x - a) ^{k+1} \]

위 정리를 이 정리와 함께 사용하려면 약간 더 강력한 가정인 \(f\) 가 \(C ^{k+1}\) 함수라는 조건이 필요하긴 하다.
증명
예시

\(x = \frac{\pi }{2}\) 에서 \(f(x) = \cos x\) 의 5차 테일러 다항식 \(p_5\) 는 다음과 같다.

\[ p_5(x) = -\left( x - \dfrac{\pi }{2} \right) + \frac{1}{6}\left( x - \dfrac{\pi }{2} \right)^{3} - \frac{1}{120}\left( x - \dfrac{\pi }{2} \right)^{5} \]

본 정리에 의하여 \(p_5\) 와 원 함수 \(\cos x\) 와의 차이, 즉, \(R_5\) 는 \(\pi /2\) 와 \(x\) 사이에 있는 어떤 수 \(z\) 에 대하여 다음과 같다.

\[ R_5 \left( x, \dfrac{\pi }{2} \right) = \dfrac{f ^{(6)}(z)}{6!}\left( x - \dfrac{\pi }{2} \right)^{6} = - \dfrac{\cos z}{6!} \left( x - \dfrac{\pi }{2} \right)^{6} \]

\(|\cos x|\) 는 \(1\) 을 넘지 않으므로 다음이 성립한다.

\[ \left| R_5 \left( x, \dfrac{\pi }{2} \right) \right| = \left| \dfrac{\cos z}{6!}\left( x - \dfrac{\pi }{2} \right)^{6} \right| \leq \dfrac{(x - \pi /2)^{6}}{720} \]

구간 \([0, \pi ]\) 에 속하는 \(x\) 에 대하여 다음을 얻는다.

\[ \left| R_5 \left( x, \dfrac{\pi }{2} \right) \right| \leq \dfrac{(\pi -\pi /2)^{6}}{720} = \dfrac{\pi ^{6}}{46,080} \approx 0.0209 \]

즉, 구간 \([0, \pi]\) 에서 \(\cos x\) 와 다항식 \(p_5\) 의 차이는 \(0.0209\) 를 넘지 않는다.

Colley Theorem 1.3 다변수 함수의 1차 테일러 다항식(First-Order Taylor's Formula in Several Variables)

\(\R^n\) 에서 열린집합 \(X\) 와 \(\mathbf{a} \in X\) 에서 미분가능한 함수 \(f:X \subset \R^n \to \R\) 와

\[ \begin{equation}\begin{split} p_1(\mathbf{x} ) &= f(\mathbf{a} ) + Df(\mathbf{a} )(\mathbf{x} - \mathbf{a} ) \\ & = f(\mathbf{a} ) + \nabla f(\mathbf{a} )\cdot (\mathbf{x} - \mathbf{a} ) \\ \end{split}\end{equation} \tag*{} \]

와 \(\displaystyle \lim_{\mathbf{x} \to \mathbf{a} } \frac{R_1(\mathbf{x} , \mathbf{a} )}{\left\| \mathbf{x} - \mathbf{a} \right\|}\) 인 나머지 항 \(R_1\) 에 대하여 다음이 성립한다.

\[ f(\mathbf{x} ) = p_1(\mathbf{x} ) + R_1(\mathbf{x} , \mathbf{a} ) \]

\(\R ^{2}\) 에서 열린 집합 \(X\) 에 대한 함수 \(f:X \subset \R ^{2} \to \R\) 가 \(C ^{1}\) 함수이면, 점 \((a,b) \in X\) 근방에서의 \(f\) 의 선형 근사는 \((a, b, f(a, b))\) 에서 다음을 만족하는 접평면 \(p_1\) 이다.

\[ p_1(x, y) = f(a, b) + f_x(a, b)(x- a)+f_y(a,b)(y-b) \]

\[ f(x, y) \approx p_1(x, y) \]

이 선형 다항식 \(p_1\) 는 다음의 성질을 갖는다.

\[ p_1(a, b) = f(a, b) \]

\[ \dfrac{\partial p_1}{\partial x}(a, b) = \dfrac{\partial f}{\partial x}(a, b) \]

\[ \dfrac{\partial p_1}{\partial y}(a, b) = \dfrac{\partial f}{\partial y}(a, b) \]

이렇게 \(\R ^{3}\) 공간의 함수 \(f\) 를 \((a, b, f(a,b))\) 에서 선형 근사하는 접평면을 기하학적으로 이해해보면 다음과 같다.
이 상황을 일반화하면, \(C^1\) 함수 \(f:X \subset \R^n \to \R\) 의 점 \(\mathbf{a} = (a_1, a_2, \dots, a_n) \in X\) 에서의 초접평면 \(p_1\) 을 다음과 같이 정의할 수 있다.

\[ \begin{equation}\begin{split} p_1(x_1, x_2, \dots, x_n) =& f(\mathbf{a} ) + f _{x_1}(\mathbf{a} )(x_1 - a_1) + f _{x_2}(\mathbf{a} )(x_2 - a_2) \\ & \qquad + \dots + f _{x_n}(\mathbf{a} )(x_n - a_n)\\ \end{split}\end{equation} \tag*{} \]

\[ f(x_1, \dots, x_n) \approx p_1(x_1, \dots, x_n) \]

이것을 \(Df(\mathbf{a} )\) 와 \(\mathbf{x} - \mathbf{a}\) 의 행렬곱으로 표현하면 다음과 같다.

\[ \begin{equation}\begin{split} p_1(x_1, x_2, \dots, x_n) &= f(\mathbf{a} ) + \sum_{i=1}^{n}f _{x_i}(\mathbf{a} )(x_i - a_i) \\ & = f(\mathbf{a} ) + Df(\mathbf{a} )(\mathbf{x} - \mathbf{a} ) \\ \end{split}\end{equation} \tag{3} \]
증명

Differentials✔

바로 위의 식 \((3)\) 에서 \(\mathbf{h} = \mathbf{x} -\mathbf{a}\) 로 두면 다음이 성립한다.

\[ p_1(\mathbf{x} ) = f(\mathbf{a} ) + Df(\mathbf{a} )\mathbf{h} = f(\mathbf{a} ) + \sum_{i=1}^{n}\dfrac{\partial f}{\partial x_i}(\mathbf{a} )h_i \tag{5} \]

여기에서 나타난 합이 보여주는 특징을 다음과 같이 정리할 수 있다.

전미분(total differential)

함수 \(f:X \subset \R^n \to \R\) 와 \(\mathbf{a} \in X\) 에 대하여 다음과 같이 정의한다.

\(f\) 의 증분을 \(\Delta f = f(\mathbf{a} + \mathbf{h}) - f(\mathbf{a} )\) 라 한다.
\(f\) 의 전미분 \(df(\mathbf{a} , \mathbf{h})\) 을 다음과 같이 정의한다.

\[ df(\mathbf{a} , \mathbf{h}) = \dfrac{\partial f}{\partial x_1}(\mathbf{a} )h_1 + \dfrac{\partial f}{\partial x_2}(\mathbf{a} )h_2 + \dots + \dfrac{\partial f}{\partial x_n}(\mathbf{a} )h_n \]

이때 \(\mathbf{h} \approx 0 \implies \Delta f \approx df\) 이다.

\(h\) 는 \(x \in X\) 의 증분 \(\Delta x\) 또는 \(dx\) 를 간략하게 표현한 것이다. 따라서 전미분을 다음과 같이 표기할 수 있다.

\[ df = \dfrac{\partial f}{\partial x_1}dx_1 + \dfrac{\partial f}{\partial x_2}dx_2 + \dots + \dfrac{\partial f}{\partial x_n}dx_n \]
예시

\(f(x, y, z) = \sin (xyz) + \cos (xyz)\) 에 대한 전미분은 다음과 같다.

\[ \begin{align}\begin{split} df &= \dfrac{\partial f}{\partial x}dx + \dfrac{\partial f}{\partial y}dy + \dfrac{\partial f}{\partial z}dz \\ &=(\cos (xyz) - \sin (xyz))(yz dx + xzdy + xydz) \\ \end{split}\end{align} \tag*{} \]
전미분의 기하학적 의미는 이렇다. 먼저 증분 \(\Delta f\) 는 \(\mathbf{a}\) 에서 \(\mathbf{a} +\mathbf{h}\) 로의 이동할 때 그래프 \(f\) 의 높이의 변화를 말한다. 전미분 \(df\) 는 \(\mathbf{a}\) 에서의 (초)접평면 그래프의 높이의 변화를 말한다. 가령, 다음과 같이 증분 \(\Delta f\) 는 그래프 \(f\) 의 \(y\) 좌표의 변화를 말하지만, 미분 \(df\) 는 접선의 \(a\) 에서의 \(y\) 좌표의 변화를 말한다.

마찬가지로 다음과 같은 3차원 좌표계에서 \(\Delta f\) 은 점 \(\mathbf{a}=(a,b) \in \R ^{2}\) 이 \(\mathbf{a}+\mathbf{h}=(a+h,b+k)\) 로 이동할 때 그래프 \(z=f(x,y)\) 의 \(z\) 좌표의 변화를 말하지만, 미분 \(df\) 는 점 \((a,b)\) 에서의 접평면의 \(z\) 좌표의 변화를 말한다.

이렇게 \(df\) 는 원함수의 변화량 \(\Delta f\) 와의 오차를 갖지만, \(\left\| \mathbf{h} \right\|\) 가 작으면, 즉, \(\mathbf{a}+\mathbf{h}\) 가 \(\mathbf{a}\) 에 가까워지면, 미분 \(df\) 는 증분 \(\Delta f\) 에 근사된다. 기술적인 이유로 증분 \(\Delta f\) 보다 미분 \(df\) 를 사용하는 것이 편하다.
예시

\(f(x,y) = x-y+2x ^{2}+xy ^{2}\) 와 \((a, b) = (2, -1)\) 에 대하여 증분은 다음과 같다.

\[ \begin{equation}\begin{split} \Delta f &= f(2 + \Delta x, -1 + \Delta y) - f(2, -1) \\ & = 2 + \Delta x - (-1 + \Delta y) + 2(2 + \Delta x)^{2} + \\ & \qquad (2 + \Delta x)(-1 + \Delta y)^{2} - 13 \\ & = 10 \Delta x - 5 \Delta y + 2(\Delta x)^{2} -2 \Delta x \Delta y + 2(\Delta y) ^{2} + \Delta x(\Delta y)^{2} \end{split}\end{equation} \tag*{} \]

이렇게 증분을 직접 다루면 기술적으로 복잡하다. 그러나 미분을 다루게 되면 다음과 같이 기술적으로 편해진다.

\[ \begin{equation}\begin{split} df((2, -1), (\Delta x, \Delta y)) & = f_x(2, -1)\Delta x + f_y(2, -1)\Delta y\\ & = (1 + 4x + y ^{2})| _{(2, -1)}\Delta x + (-1 + 2xy) | _{(2,-1)}\Delta y \\ & = 10 \Delta x - 5 \Delta y \\ \end{split}\end{equation} \tag*{} \]

이렇게 미분은 항상 \(\Delta f\) 의 항들의 1차식으로 이루어진다. 왜냐하면 이것이 1차 테일러 근사의 본질이기 때문이다.

현실 세계에서도 \(\Delta x\) 와 \(\Delta y\) 가 작은 경우에 증분 \(\Delta f\) 가 아니라 미분 \(df\) 만 사용해도 충분한 상황이 많다. 가령, 이 예시에서 \(\Delta x = \Delta y = 0.01\) 로 잡으면 다음이 성립한다.

\[ df = (0.1 - 0.05) = 0.05 \]

\[ \begin{equation}\begin{split} \Delta f & = (0.1 - 0.05) + 0.0002 - 0.0002 + 0.0002 + 0.000001\\ & = 0.05 + 0.000201 = 0.050201\\ \end{split}\end{equation} \tag*{} \]

\(df\) 가 \(\Delta f\) 의 소수점 셋째자리까지 똑같다.

Colley Theorem 1.5 다변수 함수의 2차 테일러 다항식(Second-Order Taylor's Formula in Several Variables)

\(\R^n\) 에서 열린집합 \(X\) 에 대한 \(C^2\) 함수 \(f:X \subset \R^n \to \R\) 와 \(\mathbf{a}\in X\) 에 대한

\[ \begin{align}\begin{split} p_2(\mathbf{x} ) &= f(\mathbf{a}) + \sum_{i=1}^{n}\dfrac{\partial f}{\partial x_i}(\mathbf{a})(x_i - a_i) \\ & \qquad + \frac{1}{2}\sum_{i,j=1}^{n}\dfrac{\partial ^{2} f}{\partial x_i \partial x_j}(\mathbf{a})(x_i - a_i)(x_j - a_j) \\ \end{split}\end{align} \tag*{} \]

와 \(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} \frac{|R_2|}{\left\| x-a \right\|^{2}} = 0\) 인 나머지항 \(R_2\) 에 대하여 다음이 성립한다.

\[ f(\mathbf{x} ) = p_2(\mathbf{x} ) + R_2(\mathbf{x} , \mathbf{a}) \]

한편, 아래에서 정의한 헤세 행렬 \(Hf(\mathbf{a})\) 에 대하여 \(p_2\) 를 다음과 같이 축약할 수 있다.

\[ p_2(\mathbf{x} ) = f(\mathbf{a}) + Df(\mathbf{a})\mathbf{h} + \frac{1}{2}\mathbf{h} ^{\top}Hf(\mathbf{a})\mathbf{h} \]

이변수 \(C ^{2}\) 함수 \(f : X \subset \R ^{2} \to \R\) 를 잡자. 그러면 주어진 점 \((a, b) \in X\) 에서 이 함수의 접평면은 \(f\) 의 선형근사 \(p_1\) 이 된다. 그런데 이차 곡면(quadric surface)을 사용하면 다음과 같이 함수를 더 잘 근사할 수 있다.

선형 근사 \(p_1\) 처럼 \(p_2\) 는 1차 편미분이 \(f\) 와 같고, 더 나아가서 2차 편미분까지도 \(f\) 와 같은 근사이다. 즉, 이 이차 곡면 \(p_2\) 에 대하여 다음이 성립해야 한다.

\[ p_2(a, b) = f(a, b), \]

\[ \dfrac{\partial p_2}{\partial x}(a, b) = \dfrac{\partial f}{\partial x}(a, b), \quad \dfrac{\partial p_2}{\partial y}(a, b) = \dfrac{\partial f}{\partial y}(a, b), \]

\[ \dfrac{\partial ^{2} p_2}{\partial x ^{2}}(a, b) = \dfrac{\partial ^{2}f}{\partial x ^{2}}(a, b), \quad \dfrac{\partial ^{2}p_2}{\partial x \partial y}(a, b) = \dfrac{\partial ^{2} f}{\partial x \partial y}(a, b), \]

\[ \dfrac{\partial ^{2} p_2}{\partial y ^{2}}(a, b) = \dfrac{\partial ^{2}f}{\partial y ^{2}}( a, b) \]

대수적 계산을 조금만 하면 다음과 같은 2차 다항식이 위 조건을 만족한다는 것을 쉽게 알 수 있다.

\[ \begin{equation}\begin{split} p_2(x, y) &= f(a, b) + f_x(a, b) (x- a) + f_y(a, b)(y - b) \\ & \qquad + \frac{1}{2}f _{xx}(a, b)(x - a)^{2} + f _{xy}(a, b)(x- a)(y - b) \\ & \qquad + \frac{1}{2}f _{yy}(a, b)(y - b)^{2}\\ \end{split}\end{equation} \tag*{} \]

이제, 이 상황을 n변수 함수로 일반화하려 한다. 먼저 함수 \(f: X \subset \R ^{n} \to \R\) 와 점 \(\mathbf{a}=(a_1, \dots, a_n)\in X\) 를 잡자. 그러면 요구되는 조건은 다음과 같다.

\[ p_2(\mathbf{a}) = f(\mathbf{a}), \]

\[ \dfrac{\partial p_2}{\partial x_i}(\mathbf{a}) = \dfrac{\partial f}{\partial x_i}(\mathbf{a}),\quad i = 1,2,\dots ,n, \]

\[ \dfrac{\partial ^{2} p_2}{\partial x_i \partial x_j}(\mathbf{a}) = \dfrac{\partial ^{2} f}{\partial x_i \partial x_j}(\mathbf{a}),\quad i, j = 1,2,\dots ,n \]

대수적 계산을 조금만 거치면 다음과 같은 2차 다항식이 위 조건을 만족한다는 것을 알 수 있다.

\[ \begin{equation}\begin{split} p_x(\mathbf{x} )& = f(\mathbf{a}) + \sum_{i=1}^{n}f _{x_i}(\mathbf{a})(x_i - a_i) + \\ & \qquad \frac{1}{2}\sum_{i,j=1}^{n}f _{x_ix_j}(\mathbf{a})(x_i - a_i)(x_j - a_j) \\ \end{split}\end{equation} \tag*{} \]

위의 \(\sum_{i,j=1}^{n}\) 은 \(\sum_{i=1}^{n}\sum_{j=1}^{n}\) 을 축약하여 표기한 것이다. 따라서 이는 \(n ^{2}\) 항의 합을 의미한다.
증명
예시

\(f(x, y, z) = e ^{x+y+z}\) 와 점 \(\mathbf{a}=(a,b,c) = (0,0,0)\) 을 잡자. 다음이 성립한다.

\[ \begin{equation}\begin{split} f(0, 0, 0) &= e ^{0} = 1 \\ f_x(0, 0, 0) &= f_y(0, 0, 0) = f_z(0, 0,0) = e ^{0} = 1 \\ f _{xx}(0, 0, 0) &= f _{xy}(0, 0, 0) = f _{xz}(0, 0,0) = f _{yy}(0,0,0) \\ &= f _{yz}(0, 0, 0) = f _{zz}(0, 0,0) = e ^{0} = 1 \\ \end{split}\end{equation} \tag*{} \]

그러면 2차 테일러 다항식 \(p_2\) 는 다음과 같다.

\[ \begin{equation}\begin{split} p_2(x, y, z) & = 1 + 1(x - 0) + 1(y - 0) + 1(z - 0) \\ & \qquad + \frac{1}{2}[1(x - 0)^{2} + 2 \cdot 1(x - 0)(y - 0) + 2 \cdot 1(x - 0)(z - 0) \\ & \qquad + 1(y - 0)^{2} + 2 \cdot 1 (y - 0)(z - 0) + 1(z - 0)^{2}] \\ & = 1 + x + y + z + \frac{1}{2}x ^{2} + xy + xz + \frac{1}{2}y ^{2} + yz + \frac{1}{2}z ^{2} \\ & = 1 + (x + y + z) + \frac{1}{2}(x + y + z)^{2} \\ \end{split}\end{equation} \tag*{} \]

계산할 때 \(f\) 가 \(C ^{2}\) 함수이므로 \(f _{xy} = f _{yx}\) 라는 사실을 사용하면 편하다.

Hessian✔

위의 Colley Theorem 1.3 에서 1차 테일러 다항식 \(p_1\) 을 벡터와 행렬로 깔끔하게 표기할 수 있었다. 2차 테일러 다항식 \(p_2\) 도 비슷하게 표기할 수 있다.

헤세 행렬(hessian)

함수 \(f:X \subset \R^n \to \R\) 의 헤세 행렬은 \(i\)행 \(j\)열 원소가 \(\displaystyle \dfrac{\partial ^{2} f}{\partial x_j \partial x_i}\) 인 다음과 같은 행렬이다.

\[ Hf = \begin{bmatrix} f _{x_1x_1}&f _{x_1x_2}& \dots & f _{x_1x_n}\\ f _{x_2x_1}&f _{x_2x_2}& \dots & f _{x_2x_n}\\ \vdots &\vdots &\ddots &\vdots \\ f _{x_nx_1}&f _{x_nx_2}& \dots & f _{x_nx_n}\\ \end{bmatrix} \]

또한 헤세 행렬을 다음과 같이 표기한다.

\[ Hf = \frac{d ^{2}}{dx ^{2}} f = f'' = \nabla ^{2} _{x}f\]

\(f: \R^{n}\to \R\) 의 헤세 행렬은 \(n \times n\) 행렬이 되고, 벡터장 \(f: \R^{n}\to \R^m\) 의 헤세 행렬은 \((m \times n \times n)\)-텐서가 된다.
\(f\) 의 이계도함수가 연속이므로 헤세 행렬의 원소에 교환법칙이 성립하여 헤세 행렬은 대칭 행렬이 된다. 즉, \(Hf = (Hf) ^{\top}\) 이다.
헤세 행렬은 \(\nabla f\) 의 야코비 행렬이다. 즉, 다음이 성립한다.

\[ Hf = J(\nabla f) \]
Colley Theorem 1.5 에서 \(\mathbf{x} - \mathbf{a} = \mathbf{h}\) 로 두면 2차 테일러 근사식 \(p_2(\mathbf{x} )\) 은 다음과 같다.

\[ p_2(\mathbf{x} ) = f(\mathbf{a}) + \sum_{i=1}^{n}\dfrac{\partial f}{\partial x_i}(\mathbf{a})h_i + \frac{1}{2}\sum_{i,j=1}^{n}\dfrac{\partial ^{2} f}{\partial x_i \partial x_j}(\mathbf{a})h_ih_j \]

이는 다음과 같이 행렬곱으로 표현될 수 있다.

\[ \begin{align}\begin{split} &p_2(\mathbf{x} ) = f(\mathbf{a}) + \begin{bmatrix} f _{x_1}(\mathbf{a})& f _{x_2}(\mathbf{a})& \dots & f _{x_n}(\mathbf{a}) \\ \end{bmatrix} \begin{bmatrix} h_1\\ h_2\\ \vdots \\ h_n\\ \end{bmatrix}\\ & + \frac{1}{2} \begin{bmatrix} h_{1}&h_{2}&\dots&h_{n}\\ \end{bmatrix} \begin{bmatrix} f _{x_1x_1}(\mathbf{a})&f _{x_1x_2}(\mathbf{a})&\dots &f _{x_1x_n}(\mathbf{a})\\ f _{x_2x_1}(\mathbf{a})&f _{x_2x_2}(\mathbf{a})&\dots &f _{x_2x_n}(\mathbf{a})\\ \vdots &\vdots &\ddots &\vdots \\ f _{x_nx_1}(\mathbf{a})&f _{x_nx_2}(\mathbf{a})&\dots &f _{x_nx_n}(\mathbf{a})\\ \end{bmatrix}\begin{bmatrix} h_{1}\\ h_{2}\\ \vdots\\ h_{n}\\ \end{bmatrix} \\ \end{split}\end{align} \tag*{} \]

즉, 다음이 성립한다.

\[ \boxed{p_2(\mathbf{x} ) = f(\mathbf{a}) + Df(\mathbf{a})\mathbf{h} + \frac{1}{2}\mathbf{h} ^{\top}Hf(\mathbf{a})\mathbf{h}} \tag{10} \]
예시

\(f(x, y) = \cos x \cos y\) 와 점 \((a, b) = (0, 0)\) 을 잡으면 다음이 성립한다.

\[ \begin{equation}\begin{split} f(0, 0) &= 1 \\ f_x(0, 0) &= - \sin x \cos y|_{(0, 0)} = 0 \\ f_y(0, 0) &= - \cos x \sin y|_{(0, 0)} = 0 \\ f _{xx}(0, 0) &= - \cos x \cos y|_{(0, 0)} = -1 \\ f _{xy}(0, 0) &= \sin x \sin y|_{(0, 0)} = 0 \\ f _{yy}(0, 0) &= - \cos x \cos y|_{(0, 0)} = -1 \\ \end{split}\end{equation} \tag*{} \]

그러면 Colley Theorem 1.5 2차 테일러 다항식에 의하여 다음이 성립한다.

\[ f(x, y) \approx p_2(x, y) = 1 + \frac{1}{2}(-1 \cdot x ^{2} - 1 \cdot y ^{2}) = 1 - \frac{1}{2}x ^{2} - \frac{1}{2}y ^{2} \]

그러나 헤세 행렬을 통하여 \(p_2\) 를 구해보면 행렬곱으로 계산이 간편해진다.

\[ Df(x, y) = \begin{bmatrix} -\sin x \cos y & -\cos x \sin y\\ \end{bmatrix} \]

\[ Hf(x, y) = \begin{bmatrix} -\cos x \cos y & \sin x \sin y\\ \sin x \sin y & -\cos x \cos y\\ \end{bmatrix} \]

와 \(\mathbf{h}=(h_1, h_2) = (x-0, y-0) = (x, y)\) 에 대하여 다음이 성립한다.

\[ \begin{equation}\begin{split} p_2(x, y)& = f(0, 0) + Df(0, 0)\mathbf{h}+ \frac{1}{2}\mathbf{h}^{\top}Hf(0, 0)\mathbf{h} \\ & = 1 + \begin{bmatrix} 0&0\\ \end{bmatrix} \begin{bmatrix} h_1\\ h_2\\ \end{bmatrix} + \frac{1}{2}\begin{bmatrix} h_1&h_2\\ \end{bmatrix}\begin{bmatrix} -1&0\\ 0&-1\\ \end{bmatrix}\begin{bmatrix} h_1\\ h_2\\ \end{bmatrix} \\ & = 1 - \frac{1}{2}h _{1}^{2} - \frac{1}{2}h _{2}^{2} = 1 - \frac{1}{2}x ^{2} - \frac{1}{2}y ^{2} \\ \end{split}\end{equation}\tag*{} \]

다변수 함수의 k차 테일러 다항식(k-Order Taylor's Formula in Several Variables)

\(\R^n\) 에서 열린집합 \(X\) 에 대한 \(C^k\) 함수 \(f:X \subset \R^n \to \R\) 와 점 \(\mathbf{a}\in X\) 에 대한

\[ \begin{equation}\begin{split} &p_k(\mathbf{x} ) = f(\mathbf{a}) + \sum_{i=1}^{n}\dfrac{\partial f}{\partial x_i}(\mathbf{a})(x_i - a_i) \\ &\qquad + \frac{1}{2}\sum_{i,j=1}^{n}\dfrac{\partial ^{2} f}{\partial x_i \partial x_j}(\mathbf{a})(x_i - a_i)(x_j - a_j) + \dots \\ &\qquad + \frac{1}{k!}\sum_{i_1,\dots ,i_k = 1}^{n}\dfrac{\partial ^{k} f}{\partial x _{i_1} \dots \partial x _{i_k}}(\mathbf{a})(x _{i_1} - a _{i_1})\dots (x _{i_k} - a _{i_k}) \\ \end{split}\end{equation} \tag*{} \]

와 \(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} \frac{|R_k(\mathbf{x} ,\mathbf{a})|}{\left\| \mathbf{x} - \mathbf{a} \right\|^{k}} = 0\) 인 나머지항 \(R_k\) 에 대하여 다음이 성립한다.

\[ f(\mathbf{x} ) = p_k(\mathbf{x} ) + R_k(\mathbf{x} , \mathbf{a}) \]

증명

나머지 항의 식

\(f\) 가 \(C ^{2}\) 함수이고 \(\mathbf{h}=\mathbf{x} -\mathbf{a}\) 이면 다음이 성립한다.

\[ \begin{equation}\begin{split} R_1(\mathbf{x} ,\mathbf{a}) &= \sum_{i,j=1}^{n}\int_{0}^{1}(1 - t)f _{x_ix_j}(\mathbf{a}+t \mathbf{h})h_ih_jdt \\ & = \int_{0}^{1}[\mathbf{h}^{\top}Hf(\mathbf{a}+t \mathbf{h})\mathbf{h}](1 - t)dt \\ \end{split}\end{equation} \tag*{} \]

\(f\) 가 \(C ^{3}\) 함수이면 다음이 성립한다.

\[ R_2(\mathbf{x} ,\mathbf{a}) = \sum_{i,j,k=1}^{n}\int_{0}^{1}\frac{(1-t)^2}{2}f _{x_ix_jx_k}(\mathbf{a}+t \mathbf{h})h_ih_jh_kdt \]

\(f\) 가 \(C ^{k+1}\) 함수이면 다음이 성립한다.

\[ R_k(\mathbf{x} ,\mathbf{a}) =\\ \sum_{i_1,\dots ,i _{k+1} =1}^{n}\int_{0}^{1}\frac{(1-t)^{k}}{k!}f _{x _{i_1} x _{i_2}\dots x _{i _{k+1}}}(\mathbf{a}+t \mathbf{h})h _{i_1} h _{i_2}\dots h _{i _{k+1}} dt \]

증명
하지만 이 식은 너무 복잡해서 현실 세계에서 사용되지 않는다. 대신 이 식의 미분된 버전인 다음과 같은 나머지 항의 라그랑주 형태가 자주 사용된다.

나머지 항의 라그랑주 형식(Lagrange's form of the remainder)

\(f\) 가 \(C ^{2}\) 함수이면 Colley Theorem 1.3 의 나머지항 \(R_1\) 은 \(\mathbf{a}\) 와 \(\mathbf{x} =\mathbf{a}+\mathbf{h}\) 를 잇는 선분 위의 \(f\) 의 정의역 안의 적절한 점 \(\mathbf{z}\) 에 대하여 다음과 같다.

\[ R_1(\mathbf{x} ,\mathbf{a}) = \frac{1}{2}\sum_{i,j=1}^{n}f _{x_ix_j}(\mathbf{z})h_ih_j \]

\(f\) 가 \(C ^{3}\) 함수이면 Colley Theorem 1.5 의 나머지항 \(R_2\) 은 \(\mathbf{a}\) 와 \(\mathbf{x} =\mathbf{a}+\mathbf{h}\) 를 잇는 선분 위의 적절한 점 \(\mathbf{z}\) 에 대하여 다음과 같다.

\[ R_2(\mathbf{x} ,\mathbf{a}) = \frac{1}{3!}\sum_{i,j,k=1}^{n}f _{x_ix_jx_k}(\mathbf{z})h_ih_jh_k \]

\(f\) 가 \(C ^{k+1}\) 함수이면 나머지항 \(R_k\) 은 \(\mathbf{a}\) 와 \(\mathbf{x} =\mathbf{a}+\mathbf{h}\) 를 잇는 선분 위의 적절한 점 \(\mathbf{z}\) 에 대하여 다음과 같다.

\[ R_k(\mathbf{x} ,\mathbf{a}) = \frac{1}{(k+1)!}\sum_{i_1,\dots ,i _{k+1}=1}^{n}f _{x _{i_1}\dots x _{i _{k+1}}}(\mathbf{z})h _{i_1} \dots h _{i _{k+1}} \]

증명
예시

\(f(x, y) = \cos x \cos y\) 의 나머지 항 \(R_2\) 는 \(f\) 의 모든 편미분이 사인과 코사인의 곱이므로 다음과 같다.

\[ \begin{equation}\begin{split} |R_2(x, y, 0, 0)| &= \frac{1}{3!}\left| \sum_{i,j,k=1}^{2}f _{x_ix_jx_k}(\mathbf{z})h_ih_jh_k \right| \\ & \leq \frac{1}{3!}\sum_{i,j,k=1}^{2}1 \cdot |h_ih_jh_k| \\ & = \frac{1}{6}(|h_1|^{3} + 3 h _{1}^{2}|h_2| + 3 |h_1|h _{2}^{2} + |h_2|^{3}) \\ \end{split}\end{equation} \tag*{} \]

가령, \(|h_1|\) 와 \(|h_2|\) 가 \(0.1\) 을 넘지 않는다면 다음이 성립한다.

\[ |R_2(x, y, 0, 0)| \leq \frac{1}{6}(8 \cdot (0.1)^{3}) = 0.001 \bar{3} \]

그래프에서 살펴보면, \(f(x, y) = \cos x \cos y\) 를 근사하는 이차곡면 \(p_2 = 1 - \frac{1}{2}x ^{2} - \frac{1}{2}y ^{2}\) 는 다음과 같다.

위의 나머지항 \(R_2\) 의 부등식을 통하여 이 이차곡면이 다음과 같이 \(0.1\) 안에서 오차 \(0.001 \bar{3}\) 로 \(f\) 를 근사한다는 것을 알 수 있다.

Extrema of Functions✔

극대(local maximum), 극소(local minimum), 극점(local extremum)

\(\R^n\) 에서 열린집합 \(X\) 에 대한 함수 \(f:X \subset \R^n \to \R\) 에 대하여 다음과 같이 정의한다.

\(\forall \mathbf{x} \in U : f(\mathbf{x}) \geq f(\mathbf{a})\) 인 \(\mathbf{a} \in X\) 의 근방 \(U\) 가 존재하면 \(\mathbf{a}\) 를 \(f\) 의 극소점이라 한다.
\(\forall \mathbf{x} \in U : f(\mathbf{x}) \leq f(\mathbf{a})\) 인 \(\mathbf{a} \in X\) 의 근방 \(U\) 가 존재하면 \(\mathbf{a}\) 를 \(f\) 의 극대점이라 한다.

극대점과 극소점을 극점이라 한다.

다음 함수 \(f:[a, b] \to \R\) 의 최소점(global minimum)은 \(A\), 최대점(global maximum)은 \(J\), 극소점은 \(A,E,G,K\), 극대점은 \(B,D,F,J\) 이다.

Critical Point✔

임계점(critical point)

\(\R^n\) 에서 열린집합 \(X\) 에 대한 미분가능한 함수 \(f: X \subset \R^n \to \R\) 에 대하여 \(Df(\mathbf{a}) = 0\) 가 되거나 \(Df(\mathbf{a})\) 가 정의되지 않으면 점 \(\mathbf{a} \in X\) 를 임계점이라 한다.

Colley Theorem 2.2

\(\R^n\) 에서 열린집합 \(X\) 에 대한 미분가능한 함수 \(f: X \subset \R^n \to \R\) 가 \(\mathbf{a} \in X\) 에서 극값을 가지면 \(Df(\mathbf{a}) = 0\) 이다.

함수 \(f: \R \to \R\) 에서 극솟값 또는 극댓값을 지나갈 때 그래프의 기울기가 \(0\) 가 된다. 이 현상을 일반화한 것이다.
이 정리에 따르면 함수는 임계점에서만 극점을 가진다.
증명

Saddle Point✔

안장점(saddle point)

\(\R^n\) 에서 열린집합 \(X\) 에 대한 미분가능한 함수 \(f: X \subset \R^n \to \R\) 에 대한 임계점 \(\mathbf{a} \in X\) 을 포함하는 임의의 근방 \(U\) 에서 다음이 성립하면 \(\mathbf{a}\) 를 안장점이라 한다.

\[ (\exists \mathbf{x} \in U : f(\mathbf{a}) \leq f(\mathbf{x}) ) \land (\exists \mathbf{x} \in U : f(\mathbf{a}) \geq f(\mathbf{x}) ) \]

즉, 어떤 임계점 \(\mathbf{a}\) 에서 아무리 작은 근방을 잡아도 \(f(\mathbf{a})\) 보다 큰 \(f(\mathbf{x})\) 가 있고 \(f(\mathbf{a})\) 보다 작은 \(f(\mathbf{x})\) 가 존재하면 \(\mathbf{a}\) 를 안장점이라 한다.
예시

\(f(x, y) = x ^{2} - y ^{2}\) 의 미분은 \(Df(x, y) = \begin{bmatrix} 2x&-2y\\ \end{bmatrix}\) 이므로 임계점은 \((0, 0)\) 뿐이다. 다음 그래프에서 볼 수 있듯이 \((0, 0)\) 의 아무리 작은 근방을 잡아도 \(f(0,0) = 0\) 보다 큰 \(f(x, y)\) 가 있고 \(f(0, 0)=0\) 보다 작은 \(f(x, y)\) 가 있다. 따라서 \((0, 0)\) 은 안장점이다.

Finding Local Extrema✔

이차형식(quadratic form), 양의 정부호(positive definite), 음의 정부호(negative definite)

점 \(\mathbf{h} = (h_1, \dots, h_n) \in \R^n\) 와 각 상수 \(b _{ij}\) 에 대하여 다음과 같은 함수 \(Q\) 를 \(\mathbf{h}\) 의 이차형식이라 한다.

\[ Q(h_1, h_2, \dots, h_n) = \sum_{i,j=1}^{n}b _{ij}h_ih_j \]

이차형식 \(Q\) 가 임의의 \(\mathbf{h} \neq 0\) 에 대하여 \(Q(\mathbf{h}) > 0\) 이면 양의 정부호라 하고, 임의의 \(\mathbf{h} \neq 0\) 에 대하여 \(Q(\mathbf{h}) < 0\) 이면 음의 정부호라 한다.

\(Q\) 는 다음과 같은 행렬곱으로 표현되며, 선형대수학에서는 보통 이렇게 표현한다.

\[ Q(\mathbf{h}) = \begin{bmatrix} h_{1}&h_{2}&\dots&h_{n}\\ \end{bmatrix}\begin{bmatrix} b_{11}&b_{12}&\dots&b_{1n}\\ b_{21}&b_{22}&\dots&b_{2n}\\ \vdots& \vdots& \ddots& \vdots \\ b_{n1}&b_{n2}&\dots&b_{nn}\\ \end{bmatrix}\begin{bmatrix} h_{1}\\ h_{2}\\ \vdots\\ h_{n}\\ \end{bmatrix} = \boxed{ \mathbf{h} ^{\top}B \mathbf{h} } \]
이차형식 \(Q\) 가 양의 정부호면 \(\mathbf{h} = 0\) 에서 최소값을 가지고, 음의 정부호면 \(\mathbf{h} = 0\) 에서 최대값을 가진다.

Colley Theorem 2.3

열린집합 \(U \subset \R^n\) 에 대한 \(C^2\) 함수 \(f:U \to \R\) 에 대하여 \(\mathbf{a} \in U\) 가 \(f\) 의 임계점이면 다음이 성립한다.

헤세 행렬 \(Hf(\mathbf{a})\) 가 양의 정부호면 \(\mathbf{a}\) 는 \(f\) 의 극소점이다.
헤세 행렬 \(Hf(\mathbf{a})\) 가 음의 정부호면 \(\mathbf{a}\) 는 \(f\) 의 극대점이다.
\(\det Hf(\mathbf{a}) \neq 0\) 이고 \(Hf(\mathbf{a})\) 가 양의 정부호가 아니고 음의 정부호도 아니면 \(\mathbf{a}\) 는 \(f\) 의 안장점이다.

\(C^2\) 의 함수 \(f:\R^n \to \R\) 의 임계점 \(\mathbf{a}\) 와 \(f\) 의 2계도 테일러 근사 \(p_2(\mathbf{x})\) 에 대하여 \(\mathbf{x} \approx \mathbf{a}\) 에서 다음이 성립한다.

\[ \begin{align}\begin{split} \Delta f &= f(\mathbf{x}) - f(\mathbf{a}) \approx p_2(\mathbf{x}) - f(\mathbf{a}) \\ &= Df(\mathbf{a})(\mathbf{x} - \mathbf{a}) + \frac{1}{2}(\mathbf{x} - \mathbf{a})^{\top}Hf(\mathbf{a})(\mathbf{x} - \mathbf{a}) \\ &= \frac{1}{2}(\mathbf{x} - \mathbf{a})^{\top}Hf(\mathbf{a})(\mathbf{x} - \mathbf{a}) \\ \end{split}\end{align} \tag*{} \]

이 결과는 \(f\) 의 임계점 \(\mathbf{a}\) 근방에서의 \(f\) 의 증분 \(\Delta f\) 가 헤세행렬 \(Hf(\mathbf{a})\) 과 벡터 \(\mathbf{x} - \mathbf{a}\) 에 대한 이차형식임을 말해준다.

자명하게, 임계점 \(\mathbf{a}\) 근방에서 \(f\) 의 증분 \(\Delta f\) 가 항상 양수가 되면 \(\mathbf{a}\) 주변에서 \(f\) 가 상승할 뿐이므로 \(\mathbf{a}\) 는 극소점이고, \(\Delta f\) 가 항상 음수이면 \(\mathbf{a}\) 주변에서 \(f\) 가 감소할 뿐이므로 \(\mathbf{a}\) 는 극대점이다. 이 사실은 결국, 헤세 행렬 \(Hf(\mathbf{a})\) 가 양의 정부호면 \(\mathbf{a}\) 가 \(f\) 의 극소점이고, 음의 정부호면 \(\mathbf{a}\) 가 \(f\) 의 극대점이라는 것이 된다.
증명

극점에 대한 이계도 판정법(Second derivative test for local extrema)

\(C^2\) 의 함수 \(f\) 의 임계점 \(\mathbf{a}\) 에 대하여 다음과 같은 헤세 행렬 \(Hf(\mathbf{a})\) 를 잡자.

\[ Hf(\mathbf{a}) = \begin{bmatrix} f _{x_1x_1}(\mathbf{a})& f _{x_1x_2}(\mathbf{a})& \dots & f _{x_1x_n}(\mathbf{a}) \\ f _{x_2x_1}(\mathbf{a})& f _{x_2x_2}(\mathbf{a})& \dots & f _{x_2x_n}(\mathbf{a}) \\ \vdots & \vdots & \ddots & \vdots \\ f _{x_nx_1}(\mathbf{a})& f _{x_nx_2}(\mathbf{a})& \dots & f _{x_nx_n}(\mathbf{a}) \\ \end{bmatrix} \]

\(Hf(\mathbf{a})\) 의 왼쪽 위부터의 \(k \times k\) 부분행렬 \(H_k\) 에 대한 행렬식 \(d_k = \det H_k\) 를 다음과 같이 잡자.

\[ \begin{equation}\begin{split} d_1 & = f _{x_1x_1}(\mathbf{a}) \\ d_2 & = \det \begin{bmatrix} f _{x_1x_1}(\mathbf{a}) & f _{x_1x_2}(\mathbf{a})\\ f _{x_2x_1}(\mathbf{a}) & f _{x_2x_2}(\mathbf{a})\\ \end{bmatrix} \\ d_3 & = \det \begin{bmatrix} f _{x_1x_1}(\mathbf{a}) & f _{x_1x_2}(\mathbf{a}) & f _{x_1x_3}(\mathbf{a}) \\ f _{x_2x_1}(\mathbf{a}) & f _{x_2x_2}(\mathbf{a}) & f _{x_2x_3}(\mathbf{a}) \\ f _{x_3x_1}(\mathbf{a}) & f _{x_3x_2}(\mathbf{a}) & f _{x_3x_3}(\mathbf{a}) \\ \end{bmatrix} \\ & \vdots \\ d_n &= \det Hf(\mathbf{a}) \end{split}\end{equation} \tag*{} \]

\(d_n = \det Hf(\mathbf{a}) \neq 0\) 이면 다음이 성립한다.

각 \(k = 1, \dots, n\) 에 대하여 \(d_k > 0\) 이면 \(\mathbf{a}\) 는 \(f\) 의 극소점이다.
홀수 \(K\) 에 대하여 \(d_k < 0\) 이고 짝수 \(k\) 에 대하여 \(d_k > 0\) 이면 \(\mathbf{a}\) 는 \(f\) 의 극대점이다.
그 이외의 경우라면 \(\mathbf{a}\) 는 \(f\) 의 안장점이다.

\(\det Hf(\mathbf{a}) = 0\) 인 경우 임계점 \(\mathbf{a}\) 가 퇴화되었다(degenerate)고 한다.

\(Hf(\mathbf{a}) = 0\) 의 경우 극점을 판단하기 위하여 다른 방법을 사용해야 한다.
증명

Finding Global Extrema✔

Colley Theorem 2.5 Extreme Value Theorem

콤팩트 집합 \(X \subset \R^n\) 에서 정의된 연속함수 \(f:X \to \R\) 는 최소점과 최대점을 갖는다.

지금까지 극점(local extrema)을 찾는 법을 논의했지만 함수의 최소점이나 최대점(global extrema)을 찾는 법은 논의하지 않았다. 그 이유는 일반적인 공간에서 일반적인 함수의 최대점과 최소점을 찾는 방법에 대한 효과적인 방법이 아직까지도 밝혀지지 않았기 때문이다.

그러나 제한된 공간에서 조건을 추가하면 함수가 최대점과 최소점을 갖는다는 것을 말할 수 있다. 콤팩트 공간이라는 조건이 없다면 함수가 무한히 증가하거나 감소하여 최대점이나 최소점을 찾을 수 없기 때문이다.
위상수학의 정리 Th 27.3 에 의하여 \(\R\) 에서 콤팩트한 것은 닫힌 유계 집합으로 이해하면 된다.
증명

위상수학의 EVT 에서 이미 증명하였다. ■

Lagrange Multipliers✔

현실 세계에서 함수를 단순히 최소화하거나 최대화해야 하는 경우는 별로 없다. 현실 세계에서는 상황에 따른 추가적인 제한을 걸고 함수의 극값을 구하는 것이 보통이다. 가령, 열린 박스의 부피가 \(4 \operatorname{ft}^{3}\) 로 고정된 상태에서 박스의 면적을 최소화하는 문제를 생각하자.

그러면 부피의 방정식 \(V(x, y, z) = xyz = 4\) 을 만족시키면서 다음의 면적 함수를 최소화해야 한다.

\[ A(x, y, z) = 2xy + 2yz + xz \]

\(V\) 에 의하여 \(z = \frac{4}{xy}\) 이므로 다음과 같은 새로운 함수를 얻는다.

\[ a(x, y) = A \left( x,y,\frac{4}{xy} \right) = 2xy + \frac{8}{x} + \frac{4}{y} \]

\(a\) 의 임계점을 얻기 위해 \(Da\) 를 \(\mathbf{0}\) 으로 설정하면 다음을 얻는다.

\[ \dfrac{\partial a}{\partial x}= 2y - \frac{8}{x^2} = 0, \qquad \dfrac{\partial a}{\partial y}= 2x - \frac{4}{y^2} = 0 \]

첫번째 식에 의하여 \(y = \frac{4}{x^2}\) 이므로 두번째 식에 의하여 다음을 얻는다.

\[ x \left( 1- \frac{1}{8}x ^{3} \right) = 0 \]

\(x=0\) 라는 해는 버려지기 때문에 \(x=2\) 이고, 따라서 \(a\) 의 임계점 \((2, 1)\) 을 얻고, \(A\) 에 대해서는 \((2, 1, 2)\) 라는 제한된 임계점을 얻는다. 이제 이 임계점을 판정하기 위하여 헤세 판정법을 사용하면 다음을 얻는다.

\[ Ha(x, y) = \begin{bmatrix} 16/x^3&2\\ 2&8/y^3\\ \end{bmatrix} \quad \leadsto \quad Ha(2, 1) = \begin{bmatrix} 2&2\\ 2&8\\ \end{bmatrix} \]

부분행렬의 행렬식열이 \(2, 12\) 이므로 임계점 \((2, 1)\) 는 \(a\) 의 극소점이다. 그런데 \(x \to 0 ^{+}, y \to 0 ^{+}, x \to \infty, y \to \infty\) 일 때 \(a(x, y) \to \infty\) 이므로 이 극소점은 최소점이다.

이 상황을 일반화하면 함수 \(f(x_1, \dots, x_n)\) 의 최솟값, 최댓값을 구하는 문제에 어떤 함수 \(g\) 와 상수 \(c\) 에 대한 \(g(x_1, \dots, x_n) = c\) 가 제한으로 걸린 상황이라고 말할 수 있다. 이 경우 위와 같이 연립방정식을 풀듯이 독립변수를 치환함으로써 풀 수도 있지만, 현실 세계에서는 이렇게 독립변수를 고립시킬 수 있도록 방정식이 단순하게 정의되는 경우가 별로 없다. 가령,

\[ g(x, y, z) = e ^{xy} - x ^{5}y ^{2}z + \cos \left( \frac{x}{yz} \right) = 2 \]

와 같은 제한을 걸고 다음과 같은 함수를 최대화하는 문제에서 독립변수를 고립시킬 수 없으므로 연립방정식을 풀듯이 풀 수가 없다.

\[ f(x, y, z) = x ^{2} + 3y ^{2} + y ^{2}z ^{4} \]

이 문제를 해결하기 위하여 다음과 같은 수학적 도구가 탄생했다.

Colley Theorem 3.1 라그랑주 승수(Lagrange multiplier, 미정승수법, undetermined multiplier)

\(\R ^{n}\) 에서 열린 \(X\) 에 대한 \(C ^{1}\) 함수 \(f, g:X \to \R\) 를 잡자. 상수 \(c\) 와 함수 \(g\) 에 대한 레벨 집합 \(S = \{\mathbf{x}\in X: g(\mathbf{x})= c\}\) 를 잡자.

\(f|_S\) 가 \(\nabla g(\mathbf{x}_0) \neq \mathbf{0}\) 인 점 \(\mathbf{x}_0 \in S\) 에서 극값을 가지면, 다음을 만족하는 스칼라 \(\lambda\) 가 존재한다.

\[ \nabla f(\mathbf{x}_0) = \lambda \nabla g(\mathbf{x}_0) \]

이때, 스칼라 \(\lambda\) 를 라그랑주 승수라고 한다.

이 정리는 제한 \(g(\mathbf{x})=c\) 아래에서 \(f\) 의 극값을 찾는 다음과 같은 방식을 제안해준다.
1. 벡터 방정식 \(\nabla f(\mathbf{x})=\lambda \nabla g(\mathbf{x})\) 을 잡는다.
2. 다음 연립방정식을 \(\mathbf{x}\) 와 \(\lambda\) 에 대하여 푼다.
  
  \[ \begin{cases} \nabla f(\mathbf{x}) & = \lambda \nabla g(\mathbf{x})\\ g(\mathbf{x}) & = c\\ \end{cases} \]
  
  이 연립방정식은 미지수 \(x_1, \dots, x_n,\lambda\) 에 대한 다음과 같은 \(n+1\) 개의 연립방정식과 같다.
  
  \[ \begin{cases} f _{x_1}(x_1, \dots, x_n) & = \lambda g _{x_1}(x_1, \dots, x_n)\\ f _{x_2}(x_1, \dots, x_n) & = \lambda g _{x_2}(x_1, \dots, x_n)\\ & \vdots \\ f _{x_n}(x_1, \dots, x_n) & = \lambda g _{x_n}(x_1, \dots, x_n)\\ g(x_1, \dots, x_n) & = c\\ \end{cases} \]
  
  \(\nabla f\) 가 정의되지 않거나 \(\nabla g\) 가 사라지거나 정의되지 않고, 제한 \(g(\mathbf{x}) = c\) 를 만족하는 모든 \(\mathbf{x}\) 에 대한 해 \(\mathbf{x}=(x_1, \dots, x_n)\) 가 극값의 후보가 된다.
3. 찾은 극값 후보 중에서 최댓값, 최솟값, 안장점 등을 판정한다.
증명
예시

바로 위에서 살펴본 열린 상자 문제를 라그랑주 승수법으로 해결해보자. 제한 \(V(x, y, z) = xyz=4\) 를 만족하면서 다음 함수의 극솟값을 찾아야 한다.

\[ A(x, y, z) = 2xy + 2yz + xz \]

본 정리에 의하여 어떤 스칼라 \(\lambda\) 에 대한 다음과 같은 벡터 방정식을 잡을 수 있다.

\[ \nabla A(x, y, z) = \lambda \nabla V(x, y, z) \]

이제 \(\mathbf{x}=(x,y,z)\) 와 \(\lambda\) 에 대하여 다음 연립방정식을 풀어야 한다.

\[ \begin{cases} 2y+z & = \lambda yz\\ 2x+2z & = \lambda xz\\ 2y+x & = \lambda xy\\ xyz & = 4\\ \end{cases} \]

이 문제에서 \(\lambda\) 는 본질이 아니므로 \(\lambda\) 를 다음과 같이 제거할 수 있다.

\[ \begin{equation}\begin{split} & \lambda = \frac{2y+z}{yz} = \frac{2x+2z}{xz} = \frac{2y+x}{xy} \\ \leadsto \quad & \frac{2}{z}+\frac{1}{y} = \frac{2}{z} + \frac{2}{x} = \frac{2}{x} + \frac{1}{y}\\ \end{split}\end{equation} \tag*{} \]

첫번째 등식에서 \(x = 2y\) 를 얻고, 두번째 등식에서 \(z = 2y\) 를 얻는다. 이것을 \(xyz = 4\) 에 대입하면 \(y = 1\) 를 얻는다. 따라서 해는 \(\mathbf{x}=(x,y,z) = (2,1,2)\) 이다.

Colley Theorem 3.2 2개 이상의 제한에 대한 라그랑주 승수

\(\R^n\) 에서 열린 \(X\) 와 \(k<n\) 에 대한 \(C ^{1}\) 함수 \(f, g_1, \dots, g_k: X \subset \R^n \to \R\) 를 잡자. 집합 \(S := \{\mathbf{x}\in X : g_1(\mathbf{x}) = c_1, \dots , g_k(\mathbf{x}) = c_k\}\) 를 정의하자.

\(f|_S\) 가 \(\nabla g_1(\mathbf{x}_0), \dots , \nabla g_k(\mathbf{x}_0)\) 가 일차독립 벡터인 점 \(\mathbf{x}_0\) 에서 극값을 가지면 다음을 만족하는 스칼라 \(\lambda _1,\dots ,\lambda _k\) 가 존재한다.

\[ \nabla f(\mathbf{x}_0) = \lambda _1 \nabla g_1(\mathbf{x}_0) + \lambda _2 \nabla g_2(\mathbf{x}_0) + \dots + \lambda _k \nabla g_k(\mathbf{x}_0) \]

증명
예시

원뿔 \(z ^{2}=x ^{2}+y ^{2}\) 을 다음과 같이 평면 \(z = x + y + 2\) 로 잘라서 얻은 원뿔 곡선 \(C\) 에서 \(\R^3\) 의 원점 \((0,0,0)\) 과 가장 가까운 점과 가장 먼 점을 구하는 문제를 생각하자.

이 문제는 제한

\[ \begin{equation}\begin{split} g_1(x,y,z)&= x ^{2} + y ^{2} - z ^{2} = 0 \\ g_2(x,y,z)&= x + y - z = -2 \\ \end{split}\end{equation} \tag*{} \]

에 대하여 원점 \((0, 0, 0)\) 과 \(C\) 위의 점 \((x, y, z)\) 사이의 거리의 최솟값과 최댓값을 구하는 것과 같다. 이때 편의상 거리의 제곱을 취하면, 위 제한에 대하여 다음과 같은 함수의 극값을 구하기만 하면 된다. 이 함수 \(f\) 에 \(C\) 위의 점을 입력하면 원점과의 거리의 제곱을 출력해준다.

\[ f(x,y,z) = x ^{2}+y ^{2} + z ^{2} \]

이 함수의 기울기는 \(\nabla f(x,y,z) = (2x,2y,2z)\) 이다. 제한들의 기울기는 다음과 같다.

\[ \nabla g_1(x,y,z)=(2x,2y,-2z),\qquad \nabla g_2(x,y,z)=(1,1,-1) \]

이 기울기 벡터들은 오직 \(x=y=z\) 일 때 일차 종속인데, \((x,x,x)\) 인 점에서 \(g_1=0\) 와 \(g_2=-2\) 가 만족되지 않으므로 이 기울기 벡터들은 일차 독립이다. 그러면 본 정리에 의하여 임의의 제한된 임계점 \((x_0,y_0,z_0)\) 가 다음을 만족한다.

\[ \nabla f(x_0,y_0,z_0) = \lambda _1 \nabla g_1(x_0,y_0,z_0) + \lambda _2 \nabla g_2(x_0, y_0, z_0) \]

그러면 다음의 연립방정식을 얻는다.

\[ \begin{cases} 2x = 2 \lambda _1x + \lambda _2 & \\ 2y = 2 \lambda _1y + \lambda _2 & \\ 2z = -2 \lambda _1z - \lambda _2 & \\ x ^{2} + y ^{2} - z ^{2} = 0 & \\ x + y - z = -2 & \\ \end{cases} \]

처음 두 식으로 \(\lambda _2\) 를 제거하면 다음을 얻는다.

\[ \begin{equation}\begin{split} & 2(x-y)(1- \lambda _1) = 0 \\ \leadsto \quad & x = y \lor \lambda _1 = 1 \\ \end{split}\end{equation} \tag*{} \]

\(\lambda _1=1\) 이면 첫번째 식에 의하여 \(\lambda _2=0\) 를 얻고, 세번째 식에 의하여 \(z=0\) 이고, 네번째 식에 의하여 \(x=y=0\) 이 된다. 하지만 \((0,0,0)\) 은 평면 \(z=x+y+2\) 의 점이 아니므로 \(\lambda _1=1\) 에 따른 임계점은 없다.

\(x=y\) 인 경우 마지막 두 식으로 연립방정식을 풀면 \(x = -2 \pm \sqrt[]{2}\) 를 얻는다. 따라서 다음과 같은 두 제한된 임계점을 얻는다.

\[ \begin{equation}\begin{split} \mathbf{a}_1& = \left( -2 + \sqrt[]{2}, -2 + \sqrt[]{2}, -2 + 2 \sqrt[]{2} \right) \\ \mathbf{a}_2& = \left( -2 - \sqrt[]{2}, -2 - \sqrt[]{2}, -2 - 2 \sqrt[]{2} \right) \\ \end{split}\end{equation} \tag*{} \]

각 임계점에 따른 \(f\) 의 값은 다음과 같다.

\[ f(\mathbf{a}_1)= 24 - 16 \sqrt[]{2}, \qquad f(\mathbf{a}_2) = 24 + 16 \sqrt[]{2} \]

한편, 원뿔 곡선은 다음과 같이 포물선, 타원, 원, 쌍곡선, 점, 선, 교차선으로 분류된다.

이 문제의 경우 \(\mathbf{a}_1\) 와 \(\mathbf{a}_2\) 는 다음과 같은 원뿔 곡선의 극점이다.

원뿔 곡선에는 원점으로부터 가장 먼 점이 존재하지 않으므로 두 점 모두 극소점(local minimum)이다. 또한, \(\mathbf{a}_1\) 는 최소점(global minimum)이다.

Colley, S. J. (2012). Vector Calculus.