미분
Contents
Vector Geometry✔
Colley Proposition 2.1 벡터의 방정식
공간좌표 \(\R^3\) 에서 점 \(P_0(b_1, b_2, b_3)\) 를 지나고 벡터 \(\mathbf{a} = a_1i + a_2j + a_3k\) 와 평행한 벡터의 방정식은 다음과 같다.
-
이 정리는 다음과 같이 점 \(P_0\) 를 지나면서 어떤 벡터 \(\mathbf{a}\) 와 평행하는 벡터의 방정식이다.

-
증명
이 정리는 선형대수학 벡터로 표현하는 직선의 방정식을 다르게 표현한 것에 불과하다. ■
(Colley, Vector Calculus 에는 다른 증명이 수록되어 있다.)
평면의 방정식
공간좌표 \(\R^3\) 에서 점 \(P_0\) 를 포함하고 벡터 \(\mathbf{n}\) 과 직교하는 평면의 방정식은 평면의 점 \(P(x, y, z)\) 에 대하여 다음과 같다.
-
증명
유클리드 공간에서 직교 하는 벡터의 내적의 결과는 \(0\) 이다. \(\mathbf{n}\) 과 내적한 결과가 \(0\) 인 임의의 벡터는 \(\mathbf{n}\) 과 직교하는 평면을 이룬다. ■

Cross Product✔
벡터곱(외적, cross product)
\(\R^3\) 의 벡터 \(\mathbf{a}, \mathbf{b}\) 의 벡터곱 \(\mathbf{a} \times \mathbf{b}\) 은 다음을 만족하는 벡터이다.
-
\(\left\| \mathbf{a} \times \mathbf{b} \right\| = \left\| \mathbf{a} \right\|\left\| \mathbf{b} \right\|\sin \theta\) (\(\theta\) 는 \(\mathbf{a}\) 와 \(\mathbf{b}\) 가 이루는 각)
-
\((\mathbf{a} \times \mathbf{b}) \cdot \mathbf{a} = 0 \land (\mathbf{a} \times \mathbf{b}) \cdot \mathbf{b} = 0\)
-
즉, 벡터곱은 두 벡터 \(\mathbf{a}, \mathbf{b}\) 와 모두 직교하는 단위벡터 \(n\) 에 대하여 다음과 같이 정의된다.
\[ \mathbf{a} \times \mathbf{b} = n \left\| \mathbf{a} \right\|\left\| \mathbf{b} \right\|\sin \theta \]그런데 \(\R^3\) 에서 두 벡터와 직교하는 벡터는 2개이다. 이 문제는 공간좌표계가 오른손 좌표계인지 왼손 좌표계인지에 따라 해결된다.

오른손 좌표계라면 다음과 같이 벡터 \(\mathbf{a}, \mathbf{b}\) 를 오른손으로 쥐었을 때의 엄지손가락으로 \(\mathbf{a} \times \mathbf{b}\) 의 방향을 결정하고, 왼손 좌표계라면 \(\mathbf{a}, \mathbf{b}\) 를 왼손으로 쥐었을 때의 엄지손가락으로 \(\mathbf{a} \times \mathbf{b}\) 의 방향을 결정한다.

표준기저의 벡터곱
\(\R^3\) 의 표준기저 \(\mathbf{i} ,\mathbf{j} ,\mathbf{k}\) 에 대하여 다음이 성립한다.
-
증명
벡터곱의 성질와 표준기저의 정의에 의하여 자명하게 성립한다.

Properties of Cross Product
\(\R^3\) 의 벡터 \(\mathbf{a},\mathbf{b},\mathbf{c}\) 와 스칼라 \(k \in \R\) 에 대하여 다음이 성립한다.
-
\(\mathbf{a} \times \mathbf{b} = - \mathbf{b} \times \mathbf{a}\)
-
\(\mathbf{a} \times (\mathbf{b} + \mathbf{c}) = \mathbf{a} \times \mathbf{b} + \mathbf{a} \times \mathbf{c}\)
-
\((\mathbf{a} + \mathbf{b}) \times \mathbf{c} = \mathbf{a} \times \mathbf{c} + \mathbf{b} \times \mathbf{c}\)
-
\(k(\mathbf{a} \times \mathbf{b}) = (k \mathbf{a}) \times \mathbf{b} = \mathbf{a} \times (k \mathbf{b})\)
- 증명
벡터곱 계산
\(\R^3\) 의 벡터 \(\mathbf{a} = (a_1, a_2, a_3), \mathbf{b} = (b_1, b_2, b_3)\) 에 대하여 다음이 성립한다.
-
증명
(벡터곱의 성질과 표준기저의 벡터곱, 행렬식의 정의에 의하여 쉽게 증명 할 수 있다.)
Limit✔
다변수벡터함수의 극한(limit of multivariable vector-valued function)
함수 \(f: X \subset \R^n \to \R^m\) 와 정의역 \(A\) 의 극한점 \(\mathbf{a}\) 에 대하여
이면 다음과 같이 정의한다.
-
이 정의를 기하학적으로 이해해보자. 다변수벡터함수 \(f: X \subset \R^n \to \R^m\) 의 극한 \(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = L\) 이 존재한다는 것은 임의의 양수 \(\epsilon\) 에 대하여 다음을 만족하는 양수 \(\delta\) 가 항상 존재한다는 것이다.
점 \(\mathbf{x} \in X\) 를 포함하고 중심이 \(\mathbf{a}\) 이고 반지름이 \(\delta\) 인 열린 공(근방)이 존재하면, 점 \(f(\mathbf{x})\) 를 포함하고 중심이 \(L\) 이고 반지름이 \(\epsilon\) 인 열린 공이 존재한다. 이러한 기하학적인 이해를 가지고 다변수벡터함수의 극한을 다시 보면, \(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = L\) 가 \(\mathbf{x}\) 가 점 \(\mathbf{a}\) 로 움직일 때 \(f(\mathbf{x})\) 가 \(L\) 로 움직인다는 것을 표현한다는 것을 알 수 있다. 열린 공(근방)이 의미하는 아주 중요한 기하학적 의의는 열린 공 안에서 \(\mathbf{x}\) 가 완전히 임의적으로 움직인다는 것을 뜻하고, \(f(\mathbf{x})\) 도 열린 공 안에서 완전히 임의적으로 움직인다는 것을 뜻한다.
즉, 이것은 \(\mathbf{x}\) 가 완전히 임의적인 방향으로 \(\mathbf{a}\) 에 접근할 때, \(f(\mathbf{x})\) 가 완전히 임의적인 방향으로 \(L\) 로 접근한다 는 것이다. 왜 정의역의 점과 치역의 점이 임의적인 방향으로 움직인다는 것이 중요할까?

\(\R \to \R\) 에서 정의된 함수의 극한을 논할 때는 위 그림과 같이 정의역의 점과 치역의 점이 목적지로 향할 때 단지 2가지 방향을 생각할 수 있을 뿐이었다. 그래서 우리는 \(\R \to \R\) 에서의 극한을 좌극한과 우극한이 동일하다는 것으로 정의할 수도 있었다.

그러나 위 그림과 같이 \(\R^2 \to \R\) 에서 정의된 함수에서만 보더라도 목적지 점으로 향하는 방향이 왼쪽, 오른쪽으로부터가 아니라 무한히 많은 방향으로부터 접근할 수 있다. 이 극한의 기하학적 개념을 \(f(\mathbf{x})\) 를 포함하는 임의의 \(\epsilon\)-근방이 존재할 때 \(\mathbf{x}\) 를 포함하는 \(\delta\)-근방이 항상 존재한다는 것을 해석한 것이다. 근방의 개념을 사용하면 임의적인 움직임을 표현할 수 있기 때문이다.
-
예시
함수 \(f: \R^2 \to \R^2, \mathbf{x} \mapsto 5 \mathbf{x}\) 와 \(\R^2\) 의 표준기저 \(i, j\) 에 대하여 다음이 성립한다.
\[ \lim_{\mathbf{x} \to i+j} f(\mathbf{x}) = 5i + 5j \]함수 \(g:\R^3 \to \R, (x, y, z) \mapsto 3x - 5y + 2z\) 에 대하여 다음이 성립한다.
\[ \lim_{(x, y, z) \to (1, -1, 2)}g(x) = 12 \] -
예시
함수 \(f: \R^2 - \{(0, 0)\} \to \R\) 를 다음과 같이 정의하고, 점 \((x, y)\) 가 \((0, 0)\) 으로 접근할 때의 극한을 조사하자.
\[ f(x, y) = \dfrac{x ^{2} - y ^{2}}{x ^{2} + y ^{2}} \]이 함수의 \(0\) 에서의 극한을 \(x\)축 방향으로, 즉 \(y = 0\) 선을 따라서 접근하려 하면 \(\displaystyle f(x, 0) = \frac{x^2 - 0}{x^2 + 0} = 1\) 이므로
\[ \lim_{(x, y) \to (0, 0) \ (y=0)} f(x) = 1 \]을 얻는다. 다음 그래프의 그림에서 볼 수 있듯이 \(x\)축 방향으로 점 \((0, 0)\) 으로 접근하면 극한값 \(1\) 을 얻는다.

그렇다면 \(y\)축 방향으로, 즉 \(x = 0\) 선을 따라서 \((0, 0)\) 에 접근하려 하면 \(\displaystyle f(0, y) = \dfrac{0 - y ^{2}}{0 + y ^{2}} = -1\) 이므로
\[ \lim_{(x, y) \to (0, 0) \ (x = 0)} f(x) = -1 \]을 얻는다. 다음 그래프의 그림에서 볼 수 있듯이 \(y\)축 방향으로 점 \((0, 0)\) 으로 접근하면 극한값 \(-1\) 을 얻는다.

실제로 함수 \(f\) 에서 \(y = mx\) 선을 따라 \((0, 0)\) 으로 접근하면
\[ f(x, mx) = \dfrac{x ^{2} - m ^{2}x ^{2}}{x ^{2} + m ^{2}x ^{2}} = \dfrac{x ^{2}(1 - m ^{2})}{x ^{2}(1 + m ^{2})} = \dfrac{1 - m ^{2}}{1 + m ^{2}} \]이므로 극한값
\[ \lim_{(x, y) \to (0, 0) \ (y = mx)} f(x) = \frac{1 - m ^{2}}{1 + m ^{2}} \]을 얻는다. 이는 \(m\)값에 따라서, 즉 \((0, 0)\) 으로 접근하는 방향에 따라서 극한값이 달라진다는 것이다. 좌극한과 우극한이 서로 다르면 극한값이 존재하지 않는다고 말하듯이, 접근 방향에 따라 극한값이 서로 다르니 극한값이 존재하지 않는다는 결론을 내릴 수 있다.
Colley Theorem 2.4 Uniqueness of Limits
다변수벡터함수의 극한이 존재하면 극한은 유일하다.
- 증명
Colley Theorem 2.5 Algebraic Properties
\(F, G: X \subset \R^n \to \R^m\) 와 \(f, g : X \subset \R^n \to \R\) 와 \(k \in \R\) 에 대하여 다음이 성립한다.
-
\(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} F(\mathbf{x}) = L \land \lim_{\mathbf{x} \to \mathbf{a}} G(\mathbf{x}) = M \implies \lim_{\mathbf{x} \to \mathbf{a}} (F + G)(\mathbf{x}) = L + M\)
-
\(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} F(\mathbf{x}) = L \implies \lim_{\mathbf{x} \to \mathbf{a}} kF(\mathbf{x}) = kL\)
-
\(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = L \land \lim_{\mathbf{x} \to \mathbf{a}} g(\mathbf{x}) = M \implies \lim_{\mathbf{x} \to \mathbf{a}} (fg)(\mathbf{x}) = LM\)
-
\(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = L \land (\forall \mathbf{x} \in X : g(\mathbf{x}) \neq 0) \land \lim_{\mathbf{x} \to \mathbf{a}} g(\mathbf{x}) = M \neq 0 \implies \lim_{\mathbf{x} \to \mathbf{a}} (f/g)(\mathbf{x}) = L/M\)
-
이 정리를 덕분에 임의의 다항식의 극한을 쉽게 구할 수 있고, 기본 함수들을 조합하여 만들어진 여러가지 함수들의 극한을 쉽게 구할 수 있다.
-
증명
Component Function✔
성분함수(component function)
벡터함수 \(f: X \to \R^n\) 가
와 같이 정의되었을 때 \(f_i: X \to \R\) 들을 \(f\) 의 성분함수라 한다.
Colley Theorem 2.6
다변수벡터함수 \(f: X \subset \R^n \to \R^m\) 와 그 성분함수 \(f_i\) 에 대하여 다음은 동치이다.
-
\(\displaystyle \lim_{\mathbf{x} \to \mathbf{a}} f(\mathbf{x}) = L = (L_1, L_2, \dots, L_m)\)
-
\(\displaystyle i \in \{1, \dots ,m\} : \lim_{\mathbf{x} \to \mathbf{a}} f_i(\mathbf{x}) = L_i\)
- 증명
Continuous✔
다변수벡터함수의 연속성(continuity of multivariable vector-valued function)
함수 \(f: X \subset \R^n \to \R^m\) 에 대하여 다음이 성립하면 \(f\) 가 \(\mathbf{a} \in X\) 에서 연속이라 한다.
\(f\) 가 \(X\) 의 모든 점에서 연속이면 \(f\) 를 연속함수라 한다.
-
\(\R \to \R\) 위의 함수의 연속성의 정의를 일반화시킨 것이다. 즉, 다음이 성립하면 \(f\) 가 \(a\) 에서 연속이라 한다.
-
\(f(a)\) 가 정의된다.
-
\(\displaystyle \lim_{x \to a} f(x)\) 가 존재한다.
-
\(\displaystyle \lim_{x \to a} f(x) = f(a)\)
고차원 유클리드 공간 \(\R^n\) 을 한번 더 일반화시킨 거리공간에서의 연속성도 똑같은 형태로 정의된다.
-
-
\(\R^2\) 에서의 연속성은 펜을 떼지 않고 그래프를 그릴 수 있는 함수로 정의되었다. 그렇다면 고차원 공간에서의 연속성은 어떻게 이해해야 할까? 고차원 공간에서의 연속이란 \(\R^m\) 의 모든 \(f(\mathbf{a})\) 를 중심으로하는 열린공 \(B _{\epsilon}\) 마다 점 \(\mathbf{a}\) 를 중심으로하는 열린공 \(B _{\delta}\) 가 존재하여 \(\mathbf{x} \in B _{\delta} \implies f(\mathbf{x}) \in B _{\epsilon}\) 이 된다는 것이다. 따라서 이것은 직관적으로, \(X \subset \R^n\) 의 가까운 점들이 \(\R^m\) 의 가까운 점들로 사상된다는 것이다.
즉, 정의역의 근방을 \(f\) 가 공역의 근방으로 사상시키면 \(f\) 를 연속함수라 한다는 것이다. 이 개념은 그대로 위상공간에서의 연속성으로 확장된다. 위상공간에서는 거리의 개념이 존재하지 않기에, 순수하게 근방(서로 가까운 점들)을 사용하여 연속성을 정의한다.
-
예시
\(m \times n\) 행렬 \(A\) 에 대한 선형변환 \(f: \R^n \to \R^m, \mathbf{x} \to A \mathbf{x}\) 은 다음이 성립하므로 연속이다.
\[ \forall \mathbf{b} \in \R^n: \lim_{\mathbf{x} \to \mathbf{b}} f(\mathbf{x}) = A \mathbf{b} = f(\mathbf{b}) \]
연속성의 성질(Properties of Continuity)
함수 \(F, G: X \subset \R^n \to \R^m\) 와 \(f,g: X \subset \R^n \to \R\) 가 점 \(\mathbf{a} \in X\) 에서 연속이면 대하여 다음이 성립한다.
-
함수 \(F+G\) 는 \(\mathbf{a}\) 에서 연속이다.
-
\(k \in \R\) 에 대한 함수 \(kF\) 는 \(\mathbf{a}\) 에서 연속이다.
-
함수 \(fg\) 와 \(g \neq 0\) 일때의 함수 \(f/g\) 는 \(\mathbf{a}\) 에서 연속이다.
-
함수 \(F\) 가 \(\mathbf{a}\) 에서 연속인 것은 모든 성분함수 \(F_i: \R^n \to \R\) 가 \(\mathbf{a}\) 에서 연속인 것과 동치이다.
-
증명
Colley Theorem 2.5, 2.6 에 의하여 바로 증명된다. ■
Partial Derivative✔
편미분(partial derivative)
다변수 함수 \(f: X \subset \R^n \to \R\) 와 \(\mathbf{x} = (x_1, x_2, \dots, x_n) \in \R^n\) 에 대하여 \(f\) 의 변수 \(x_i\) 에 대한 편미분을 다음과 같이 정의한다.
또한, 편미분을 다음과 같이 표기할 수 있다.
-
\(\R \to \R\) 에서 정의된 함수의 미분은 방향을 생각할 필요가 없다. 왜냐하면 그래프의 어떠한 점을 잡더라도 접선(tangent line)이 1개이기 때문이다. 그러나 \(\R^2 \to \R\) 에서 정의된 함수에서 점을 잡으면 다음과 같이 접선이 1개가 아니라 무한히 존재하여 접평면(tangent plane)을 이루게 된다.

일반적으로 \(\R^n \to \R^m\) 에서 정의된 함수에서 어떤 점을 잡으면 접초평면(tangent hyperplane)이 이루어진다.
함수의 변화량을 구하고 싶다면, 이 접평면에서 특정한 방향으로의 변화량을 선택해야 한다. 편미분이란 정의역의 표준기저 방향으로의 접선의 기울기이다. 가령 \(\R^2 \to \R\) 에서 정의된 함수 \(f\) 의 점 \((a, b, f(a, b))\) 에서 다음과 같이 접평면이 이루어진다고 하자.

이때 편미분 \(\displaystyle \dfrac{\partial f}{\partial x}(a, b)\) 와 \(\dfrac{\partial f}{\partial y}(a, b)\) 은 다음과 같이 각각 점 \((a, b, f(a, b))\) 에서의 \(x = a\) 방향으로의 접선의 기울기와 \(y = b\) 방향으로의 접선의 기울기를 뜻한다.

그래서 편미분을 정의역의 표준기저 방향으로의 접선의 기울기라고 말한 것이다.
-
편미분을 계산하려면 단순히 해당 변수 이외의 변수들을 상수로 취급하여 미분을 하면 된다.
-
예시
함수 \(f: \R^2 \to \R, (x, y) \mapsto x ^{2}y + \cos (x + y)\) 의 정의역의 표준기저 \(i, j\) 방향으로의 편미분은 각각 다음과 같다.
\[ \dfrac{\partial f}{\partial x} = 2xy + \cos (x + y) \]\[ \dfrac{\partial f}{\partial y} = x ^{2} - \sin (x + y) \]
Tangent Plane✔
Colley Theorem 3.3 tangent plane
함수 \(f: \R^2 \to \R\) 의 그래프 \(z = f(x, y)\) 의 점 \((a, b, f(a, b))\) 에서의 접평면의 방정식은 다음과 같다.
-
함수 \(f: \R \to \R\) 의 그래프 \(y = f(x)\) 의 점 \((a, f(a))\) 에서의 다음과 같은 접선의 방정식과 매우 유사한 형태이다.
\[ y = f(a) + f'(a)(x - a) \] -
증명
함수 \(f: \R^2 \to \R\) 의 그래프 \(z = f(x, y)\) 를 생각하자. 점 \((a, b, f(a, b))\) 에서 \(f\) 의 \(x\) 편미분 \(f_x(a, b)\) 는 \(f\) 의 점 \((a, b, f(a, b))\) 에서 \(x\)축 방향으로의 접선이 \(x\) 가 \(1\) 만큼 변할 때 \(z\) 가 \(f_x(a, b)\) 만큼 변한다는 것을 뜻한다. 따라서 점 \((a, b, f(a, b))\) 에서 \(x\)축 방향의 접선의 방정식은 점 \((a, b, f(a, b))\) 를 지나고 벡터 \((1, 0, f_x(a, b))\) 과 평행하는 다음과 같은 직선이다.
\[ l_1(t) = (a, b, f(a, b)) + t(1, 0, f_x(a, b)) \]같은 논리로 점 \((a, b, f(a, b))\) 에서 벡터 \((0, 1, f_y(a, b))\) 와 평행하는 \(y\)축 방향 접선의 방정식을 다음과 같이 구할 수 있다.
\[ l_2(t) = (a, b, f(a, b)) + t(0, 1, f_y(a, b)) \]이 두 직선은 각각 벡터 \((1, 0, f_x(a, b)) = i + f_x(a, b)k = u\), 벡터 \((0, 1, f_y(a, b)) = j + f_y(a, b)k = v\) 와 평행한다. 벡터 \(u, v\) 의 벡터곱
\[ n = u \times v = -f_x(a, b)i - f_y(a, b)j + k \]은 \(u, v\) 와 직교한다. 그러면 평면의 방정식에 의하여 접평면은 다음과 같다.
\[ (-f_x(a, b), -f_y(a, b), 1) \cdot (x - a, y - b, z - f(a, b)) = 0 \]\[ \leadsto -f_x(a, b)(x - a) - f_y(a, b)(y - b) + z - f(a, b) = 0 \tag*{■} \]
편미분이 존재해도 접평면이 존재하지 않을 수 있다.
-
이 정리는 편미분이 미분의 적절한 일반화가 아니라는 것을 말해준다.
-
증명
다음과 같은 함수 \(f(x, y) = ||x| - |y|| - |x| - |y|\) 는 원점 \(O\) 에서 \(x\)축 방향, \(y\)축 방향으로의 편미분을 갖는다.

그러나 \(O\) 에서 접평면을 가지지 않는다. 접평면이란 무한한 접선이 모여서 이루는 것인데, \((0, 0, 0)\) 으로 다가가는 접선들이 평면을 이루도록 합의되지 않기 때문이다. ■
Directional Derivative✔
다변수함수의 방향도함수(directional derivative)
\(\R^n\) 에서 열린집합 \(X\) 에 대한 다변수함수 \(f:X \to \R\) 와 \(\mathbf{a} \in X\) 와 단위벡터 \(\mathbf{v} \in \R^n\) 에 대하여 다음을 \(f\) 의 점 \(\mathbf{a}\) 에서 \(\mathbf{v}\) 방향으로의 방향 도함수라고 한다.
또한 방향도함수를 다음과 같이 표기할 수도 있다.
-
편미분이란 정의역의 표준기저 방향으로의 도함수였다. 그러나 명백하게 표준기저 방향으로만 미분을 생각할 필요 없이, 임의의 방향으로의 미분을 생각할 수 있다. 함수 \(f: \R^n \to \R\) 의 \(e_i\) 방향으로의 편미분이
\[ \lim_{h \to 0} \dfrac{f(\mathbf{x} + he_i) - f(\mathbf{x})}{h}\]와 같이 정의된 것을 방향도함수에서는 임의의 벡터 \(\mathbf{v}\) 방향으로의 미분으로 다음과 같이 일반화하여 정의하는 것이다.
\[ \lim_{h \to 0} \dfrac{f(\mathbf{x} + h \mathbf{v}) - f(\mathbf{x})}{h}\] -
그러나 방향도함수도 편미분에서와 같이 미분의 적절한 확장이 아니다.

위 그래프는 표준기저에서 편미분가능한 그래프가 접평면을 가지지 않음을 보여줌으로써 편미분이 미분의 적절한 일반화가 아니라는 것을 증명했다. 유한히 많은 벡터 방향으로 미분가능한 방향도함수라고 할지라도 위와 비슷한 반례를 들어서 접평면이 존재하지 않음을 보일 수 있다.
아래에서 살펴보겠지만, 접평면이 존재하지 않는다는 것은 연속이 아니라는 것을 뜻한다. 그러나 우리는 분명히 미분가능하면 연속이라는 사실을 알고 있다. 그러나 방향도함수가 존재해도 연속이 아닐 수도 있다. 방향도함수도 본질적으로 편미분과 다를바가 없기에 미분의 적절한 확장이 될 수 없다.
Derivative✔
Differentiability of R → R✔
일변수 함수의 미분가능성과 미분계수
구간 \(A \subset \R\) 에서 정의된 함수 \(f: A \to \R\) 와 주어진 \(a \in A\) 에 대하여 다음을 만족시키는 수 \(f'(a)\) 가 존재하면 \(f\) 가 \(a\) 에서 미분가능하다고 하고, \(f'(a)\) 를 \(a\) 에서의 미분계수라고 한다.
-
이 정리는 미분계수와 미분가능성의 정의를 다르게 표현한 것이다.
-
\(a\) 에서 미분가능한 함수 \(f\) 의 미분계수는 다음과 같다.
\[ f'(a) = \lim_{x \to a} \frac{f(x) - f(a)}{x - a} \]\[ \leadsto \lim_{x \to a} \dfrac{f(x) - [f(a) + f'(a)(x - a)]}{x - a} = 0 \]이때 \(f(a) + f'(a)(x - a) = h(x)\) 는 \(f\) 의 \(a\) 에서의 접선이다. 즉, \(f\) 가 \(a\) 에서 미분가능하다는 것은
\[ \boxed{ \lim_{x \to a} \dfrac{f(x) - h(x)}{x - a} = 0 }\]을 뜻한다. 극한값이 \(0\) 이므로 분자의 값이 \(0\) 가 되는 것은 분명한데, 분모의 값도 \(0\) 으로 수렴하므로 반드시 분자의 값이 분모의 값보다 더 빠르게 \(0\) 으로 수렴해야 한다.
이것이 성립하면 \(h(x)\) 가 \(f(x)\) 를 \(a\) 에서 선형근사(linear approximation)한다고 한다.
Differentiability of R²→ R✔
이변수 함수의 미분가능성
\(\R^2\) 에서 열린집합 \(X\) 에 대한 함수 \(f: X \to \R\) 를 잡자. 편미분 \(f_x(a, b)\) 와 \(f_y(a, b)\) 가 존재하여 함수
가 \((a, b)\) 에서 \(f\) 의 선형근사일 때, 즉,
이 성립할 때 \(f\) 가 점 \((a, b) \in X\) 에서 미분가능하다고 하고, 이때 \(z = h(x, y)\) 를 \(f\) 의 점 \((a, b, f(a, b))\) 에서의 접평면이라 한다.
\(f\) 가 \(X\) 의 모든 점에서 미분가능하면 \(f\) 를 미분가능한 함수라고 한다.
-
다변수 함수에서 편미분이나 유한개의 벡터로의 방향도함수가 존재하더라도, 접평면이 존재하지 않으면 미분가능하다고 할 수 없음을 살펴보았다. 그렇다면 다변수 함수의 어떤 점에서 접평면이 존재하면 모든 방향으로의 접선의 기울기를 구할 수 있고, 따라서 미분가능하다고 할 수 있다.
Colley Theorem 3.3 은 위 정의의 \(h(x)\) 가 점 \((a, b, f(a, b))\) 를 지나는 평면임을 말해준다. 하지만 이 평면이 \(f(x)\) 의 접평면임은 아직 확신할 수 없다. 그러나 조건
\[ \lim_{(x, y) \to (a, b)} \dfrac{f(x, y) - h(x, y)}{\left\| (x, y) - (a, b) \right\|} = 0 \]이 \(h(x)\) 가 \(f(x)\) 의 접평면임을 보증해준다. 다변수벡터함수의 극한에서 살펴보았듯이 이 조건은 \((x, y)\) 가 완전히 임의적인 방향으로 \((a, b)\) 에 접근할 때 \(\dfrac{f(x, y) - h(x, y)}{\left\| (x, y) - (a, b) \right\|}\) 가 완전히 임의적인 방향으로 \(0\) 에 접근한다는 뜻이기 때문이다.
-
예시
이러한 이해를 바탕으로 다음과 같은 함수 \(f(x, y) = ||x| - |y|| - |x| - |y|\) 를 다시 조사해보면 \((0, 0)\) 에서 미분가능하지 않다는 것을 알 수 있다.

먼저 이 함수의 편미분은 \(f_x(0, 0) = 0, f_y(0, 0) = 0\) 이므로 미분판별식은 다음과 같다.
\[ \begin{align}\begin{split} \lim_{(x, y) \to (a, b)} \dfrac{f(x, y) - h(x, y)}{\left\| (x, y) - (a, b) \right\|} &= \lim_{(x, y) \to (0, 0)} \dfrac{f(x, y)}{\left\| (x, y) \right\|} \\ &= \lim_{(x, y) \to (0, 0)}\dfrac{||x| - |y|| - |x| - |y|}{\sqrt[]{x ^{2} + y ^{2}}} \\ \end{split}\end{align} \tag*{} \]따라서 만약 선 \(y = 0\) 을 따라서 극한값을 구해보면
\[ \dfrac{f(x, y)}{\left\| (x, y) \right\|} = \dfrac{||x| - 0| - |x| - |0|}{\sqrt[]{x ^{2}}} = 0 \]이므로 \(\displaystyle \lim_{(x, y) \to (a, b) \ (y = 0)} \dfrac{f(x, y)}{\left\| (x, y) \right\|} = 0\) 을 얻고, 선 \(y = x\) 을 따라서 극한값을 구해보면
\[ \dfrac{f(x, y)}{\left\| (x, y) \right\|} = \dfrac{||x| - |x|| - |x| - |x|}{\sqrt[]{x ^{2} + x ^{2}}} = \dfrac{-2|x|}{\sqrt[]{2}|x|} = - \sqrt[]{2} \]이므로 \(\displaystyle \lim_{(x, y) \to (a, b) \ (y = x)} \dfrac{f(x, y)}{\left\| (x, y) \right\|} =- \sqrt[]{2}\) 를 얻는다.
극한값이 \(0\) 으로 합의되지 않으므로 극한값이 존재하지 않는다. 따라서 미분 불가능하고, 접평면도 존재하지 않는다.
Colley Theorem 3.5
\(\R^2\) 에서 열린 집합 \(X\) 에 대한 함수 \(f: X \to \R\) 가 \((a, b)\) 의 근방에서 연속 편미분을 가지면 \(f\) 는 \((a, b)\) 에서 미분가능하다.
-
위에서 정의한 미분가능성의 정의는 실제로 계산하기가 조금 복잡해서 현실 세계에서 자주 사용되지 않는다. 그 대신 이 정리가 미분가능성을 판별할 때 자주 사용된다.
-
증명
-
예시
\(\R^2 \to \R\) 위의 함수 \(f(x, y) = x ^{2} + 2y ^{2}\) 의 편미분은 \(\partial f/\partial x = 2x\) 와 \(\partial f/\partial y = 4y\) 인데 모두 \(\R^2\) 에서 연속이므로 \(f\) 는 \(\R^2\) 전체에서 미분가능하다.
즉, \(f\) 는 모든 점에서 접평면을 가진다.
Colley Theorem 3.6
\(f:X \subset \R^2 \to \R\) 가 \((a, b)\) 에서 미분가능하면 \((a, b)\) 에서 연속이다.
- 증명
Differentiability of Rⁿ→ R✔
Tangent Hyperplane✔
다변수 함수의 미분가능성, 접초평면(tangent hyperplane)
\(\R^n\) 에서 열린집합 \(X\) 에 대한 함수 \(f: X \to \R\) 와 점 \(\mathbf{a} = (a_1, a_2, \dots, a_n) \in X\) 를 잡자. \(f\) 의 \(\mathbf{a}\) 에서의 \(i = 1, \dots , n\) 에 대한 모든 편미분 \(\dfrac{\partial f}{\partial x_i}(\mathbf{a})\) 이 존재하여 함수
가 \(\mathbf{a}\) 에서 \(f\) 의 선형근사일 때, 즉,
이 성립할 때 \(f\) 가 \(\mathbf{a}\) 에서 미분가능하다고 하고, 이때 \(z = h(\mathbf{x})\) 를 \(\mathbf{a}\) 에서 \(f\) 의 접초평면이라 한다.
\(f\) 가 \(X\) 의 모든 점에서 미분가능하면 \(f\) 를 미분가능한 함수라고 한다.
- 이변수 함수의 미분가능성에서 자연스럽게 다변수 함수로 일반화된 정의이다.
Gradient Vector✔
다변수함수의 기울기(기울기 벡터, gradient)
함수 \(f:X \subset \R^n \to \R\) 의 기울기는 다음과 같이 정의된 벡터이다.
또한, 기울기 벡터를 다음과 같이 표기하기도 한다.
-
기울기를 열벡터로 다루는 저서도 있고 행벡터로 다루는 저서도 있으므로 주의해야 한다.
-
이에 따라 다음이 성립한다.
\[ \nabla f(\mathbf{a}) = (f _{x_1}(\mathbf{a}),f _{x_2}(\mathbf{a}), \dots , f _{x_n}(\mathbf{a})) \]
다변수함수의 미분(derivative)
함수 \(f: X \subset \R^n \to \R\) 의 점 \(\mathbf{a}\) 에서의 미분을 다음과 같은 \(1 \times n\) 행렬로 정의한다.
- \(D\) 는 함수공간과 함수공간 사이에 정의된 미분연산자이다.
기울기 벡터로 정의한 다변수 함수의 미분가능성
\(\R^n\) 에서 열린집합 \(X\) 에 대한 함수 \(f: X \to \R\) 와 점 \(\mathbf{a} = (a_1, a_2, \dots, a_n) \in X\) 를 잡자. \(f\) 의 \(\mathbf{a}\) 에서의 \(i = 1, \dots , n\) 에 대한 모든 편미분 \(f _{x_i}(\mathbf{a})\) 이 존재하여 함수
가 \(\mathbf{a}\) 에서 \(f\) 의 선형근사일 때, 즉,
이 성립할 때 \(f\) 가 \(\mathbf{a}\) 에서 미분가능하다고 한다.
-
\(\mathbf{x} - \mathbf{a}\) 는 \(n \times 1\) 행렬이므로 다음이 성립한다.
\[ \begin{align}\begin{split} \nabla f(\mathbf{a}) \cdot (\mathbf{x} - \mathbf{a})&= Df(\mathbf{a})(\mathbf{x} - \mathbf{a}) \\ &= \begin{bmatrix} f _{x_1}(\mathbf{a})&f _{x_2}(\mathbf{a})& \dots & f _{x_n}(\mathbf{a}) \end{bmatrix} \begin{bmatrix} x_1 - a_{1}\\ x_2 - a_{2}\\ \vdots\\ x_n - a_{n}\\ \end{bmatrix} \\ &= \sum_{i=1}^{n}f _{x_i}(\mathbf{a})(x_i - a_i)\\ \end{split}\end{align} \tag*{} \]이것을 사용하여 기존의 미분가능성 판별식을 고치면 본 정의를 바로 얻는다.
Jacobian Matrix(derivative)✔
야코비 행렬(다변수벡터함수의 미분, Jacobian matrix, matrix of partial derivatives)
\(\R^n\) 에서 열린집합 \(X\) 에 대한 함수 \(f: X \subset \R^n \to \R^m\) 의 \(i\)번째 성분함수 \(f_i: X \to \R\) 에 대하여 \(f\) 의 \(m \times n\) 야코비 행렬은 다음과 같은 편미분 행렬이다.
또한 야코비 행렬을 다음과 같이 표기할 수 있다.
-
야코비 행렬은 다변수벡터함수의 미분을 뜻한다. \(df(x)/dx\) 에 대하여 \(x \in \R^n\) 이고 \(f(x) \in \R^m\) 이다.
-
\(\dfrac{\partial (f_1, f_2, \dots, f_m)}{\partial (x_1, x_2, \dots, x_n)}\) 라는 표기는 관습적인 표기이다. 특히 이 표기가 야코비 행렬이 아니라 야코비 행렬식을 표기하기 위하여 사용될 때도 있기 때문에 주의해야 한다.
-
예시
\(f: \R^3 \to \R^2, (x, y, z) \mapsto (x \cos y + z, xy)\) 의 야코비 행렬은 다음과 같다.
\[ Df(x,y,z) = \begin{bmatrix} \cos y & -x \sin y & 1\\ y & x & 0 \end{bmatrix} \]
Differentiability of Rⁿ→ Rⁿ✔
다변수 벡터함수의 미분가능성
\(\R^n\) 에서 열린집합 \(X\) 에 대한 함수 \(f: X \to \R ^{m}\) 와 점 \(\mathbf{a} \in X\) 를 잡자.
\(Df(\mathbf{a})\) 가 존재하여 함수 \(h: \R^n \to \R^m\) 이
와 같이 정의되고, \(h\) 가 \(\mathbf{a}\) 에서 \(f\) 의 선형근사일 때, 즉,
이 성립할 때 \(f\) 가 \(\mathbf{a}\) 에서 미분가능하다고 한다.
-
다변수함수의 미분가능성에서 분모에서만 내적을 취했지만, 다변수 벡터함수의 미분가능성에서는 분자에서도 내적을 취한다. 이는 분자와 분모를 모두 \(\R\) 의 원소로 통일해주어 연산할 수 있도록 하는 것이다.
\(Df(\mathbf{a}) ( \mathbf{x} - \mathbf{a})\) 에서 \(Df(\mathbf{a})\) 는 \(m \times n\) 야코비 행렬이고 \(\mathbf{x} - \mathbf{a}\) 는 \(n \times 1\) 행렬로써 행렬곱 결과로 \(m \times 1\) 행렬이 나온다.
Colley Theorem 3.9
\(f: X \subset \R^n \to \R^m\) 이 \(\mathbf{a}\) 에서 미분가능하면 \(\mathbf{a}\) 에서 연속이다.
- 증명
Colley Theorem 3.10
\(f: X \subset \R^n \to \R^m\) 의 야코비 행렬 \(Df\) 가 존재하고 각 원소 \(\partial f_i/\partial x_j\) 가 \(\mathbf{a} \in X\) 의 근방에서 연속이면 \(f\) 는 \(\mathbf{a}\) 에서 미분가능하다.
- 증명
Colley Theorem 3.11
\(f: X \subset \R^n \to \R^m\) 가 \(\mathbf{a} \in X\) 에서 미분가능한 것은 \(i = 1, \dots , m\) 에 대한 각 성분함수 \(f_i : X \subset \R^n \to \R\) 들이 \(\mathbf{a}\) 에서 미분가능한 것과 동치이다.
- 증명
Properties of Derivative✔
Linearity of Differentiation✔
Colley Proposition 4.1 Linearity of Differentiation
\(f, g:X \subset \R^n \to \R^m\) 이 \(\mathbf{a} \in X\) 에서 미분가능할 때 \(c \in \R\) 에 대하여 다음이 성립한다.
-
\(h = f+g\) 가 \(\mathbf{a}\) 에서 미분가능하고 다음이 성립한다.
\[ Dh(\mathbf{a}) = D(f + g)(\mathbf{a}) = Df(\mathbf{a}) + Dg(\mathbf{a}) \] -
\(k = cf\) 가 \(\mathbf{a}\) 에서 미분가능하고 다음이 성립한다.
\[ Dk(\mathbf{a}) = D(cf)(\mathbf{a}) = cDf(\mathbf{a}) \]
- 증명
Product Rule, Quotient rule✔
Colley Proposition 4.2
\(f, g: X \subset \R^n \to \R\) 이 \(\mathbf{a} \in X\) 에서 미분가능하면 다음이 성립한다.
-
\(fg\) 가 \(\mathbf{a}\) 에서 미분가능하고 다음이 성립한다.
\[ D(fg)(\mathbf{a}) = g(\mathbf{a})Df(\mathbf{a}) + f(\mathbf{a})Dg(\mathbf{a}) \] -
\(g(\mathbf{a}) \neq 0\) 이면 \(f/g\) 가 \(\mathbf{a}\) 에서 미분가능하고 다음이 성립한다.
\[ D(f/g)(\mathbf{a}) = \dfrac{g(\mathbf{a})Df(\mathbf{a}) - f(\mathbf{a})Dg(\mathbf{a})}{g(\mathbf{a}) ^{2}} \]
\(f: X \subset \R^n \to \R\) 과 \(g: X \subset \R^n \to \R^m\) 이 \(\mathbf{a} \in X\) 에서 미분가능하면 \(fg\) 가 \(\mathbf{a}\) 에서 미분가능하고 다음이 성립한다.
-
\(fg\) 는 합성이 아니라 곱의 의미이다.
-
증명
Higher Order Partial Derivative✔
고계 편미분(higher order partial derivative)
함수 \(f:X \subset \R^n \to \R\) 의 \(i_1, \dots, i_k \in \{1, \dots , n\}\) 에 대한 변수 \(x _{i_1}, \dots , x _{i_k}\) 에 대하여 \(k\)계 편미분은 다음과 같다.
-
이 고계편미분을 다음과 같이 표기할 수도 있다.
\[ f _{x _{i_1}\dots x _{i_k}}(x_1, x_2, \dots, x_n) \] -
고계 편미분을 취할 때 다른 변수에 의하여 편미분을 취하면 혼합 편미분(mixed partial derivative)라 한다.
-
예시
\(f(x,y,z) = x ^{2}y+y ^{2}z\) 일 때 1차 편미분은 다음과 같다.
\[ \dfrac{\partial f}{\partial x }=2xy, \quad \dfrac{\partial f}{\partial y } = x ^{2} + 2yz, \quad \dfrac{\partial f}{\partial z } = y ^{2} \]\(x\) 에 대한 이계도 편미분은 다음과 같다.
\[ \dfrac{\partial ^{2}f}{\partial x ^{2} } = \dfrac{\partial }{\partial x }\left( \dfrac{\partial f}{\partial x } \right) = \dfrac{\partial }{\partial x }(2xy) = 2y \]\(x\) 와 \(y\) 에 대한 혼합 편미분은 다음과 같다.
\[ \dfrac{\partial ^{2} f}{\partial y \partial x } = \dfrac{\partial }{\partial y }\left( \dfrac{\partial f}{\partial x } \right) = \dfrac{\partial }{\partial y }(2xy) = 2x \]
Colley Theorem 4.3 - 1
\(\R^n\) 에서 열린집합 \(X\) 에 대한 함수 \(f:X \subset \R^n \to \R\) 가 연속 편미분들을 갖고 연속 이계도 편미분들을 가질 때 \(i_1, i_2 \in \{1,\dots ,n\}\) 에 대하여 다음이 성립한다.
-
이 정리는 혼합 이계 편미분의 편미분 순서가 바뀌어도 결과가 똑같다는 것을 말해준다.
-
증명
Differentiability classes✔
미분가능성 계층(Differentiability classes), 매끄러운 함수(smooth function)
\(\R^n\) 에서 열린 집하바 \(X\) 에 대한 다변수함수 \(f:X \subset \R^n \to \R\) 에 대하여 최소 \(k\)계까지의 편미분들이 존재하고 이 \(k\)계까지의 편미분들이 연속이면 \(f\) 가 미분가능 계층 \(C ^{k}\) 의 함수라 한다.
특히, 다음과 같이 정의한다.
-
\(f\) 가 연속이면 \(f \in C ^{0}\) 이다.
-
\(f\) 가 \(X\) 위에서 임의의 \(k\) 에 대한 \(k\)계 편미분들이 모두 연속이면 \(C ^{\infty }\) 함수라 하고, 매끄럽다(smooth)고 한다.
-
이 정의에 의하여 다음은 동치이다.
- 함수 \(f:X \subset \R^n \to \R^{m}\) 가 \(C ^{k}[C ^{\infty}]\) 계층이다.
- \(f\) 의 각 성분함수 \(f_i: \R^n \to \R\) 들이 \(C ^{k}\)[\(C ^{\infty}\)] 의 함수이다.
Colley Theorem 4.5
다변수함수 \(f:X \subset \R^n \to \R\) 가 \(C ^{k}\) 함수이면 \((i_1, \dots , i_k) \in \{1, \dots, n\}^{k}\) 와 이것을 임의로 셔플한 \((j_1, \dots , j_k)\) 에 대하여 다음이 성립한다.
-
이 정리는 \(C ^{k}\) 함수라면 \(k\)계 혼합 편미분의 편미분 순서가 바뀌어도 상관없다는 것을 말해준다.
-
증명
Chain Rule✔
Chain Rule on R → R → R✔
일변수 함수 연쇄법칙(합성함수 \(\R \to \R \to \R\) 의 연쇄법칙)
\(\R\) 에서 열린집합 \(X, T\) 에 대한 함수 \(f: X \to \R\), \(g : T \to \R\) 에 대하여
- \(g(T) \subset X\)
- \(g\) 가 \(t_0 \in T\) 에서 미분가능하다.
- \(f\) 가 \(g(t_0) \in X\) 에서 미분가능다.
이면 합성함수 \(f \circ g : T \to \R\) 가 \(t_0\) 에서 미분가능하고, 다음이 성립한다.
\(g\) 가 각 점 \(t_0 \in T\) 에서 미분가능하고 그에 대응하는 점 \(g(t_0)\) 에서 \(f\) 도 미분가능하면 다음이 성립한다.
-
(1) 은 \(g\) 의 출력이 \(f\) 의 정의역에 포함된다는 것을 보장해준다. (2) 는 \(g\) 의 \(t_0\) 에서의 미분가능성을 보장하고 (3) 은 그 미분가능한 점 \(g(t_0)\) 에서의 \(f\) 의 미분가능성을 보장한다.
-
일변수 함수의 연쇄법칙에서도 이미 살펴보았다. 다만, 위의 정의에서 \(f\) 가 \(x\) 에 대한 함수와 \(g\) 에 대한 함수를 표현하기 위하여 동시에 사용되어서 읽는 사람이 혼란스러울 수 있다. 그러나 위 정의는 다음의 식과 똑같다.
\[ [f(g(x))]' = f'(g(x))g'(x) \]그러나 이런 혼동을 피하기 위하여 보통은 \(h = f \circ g\) 를 정의하여 다음과 같이 표기한다.
\[ \frac{dh}{dx} = \frac{df}{dg} \cdot \frac{dg}{dx} \] -
증명
Chain Rule on R → R²→ R✔
Colley Proposition 5.2 이변수 함수 연쇄법칙(합성함수 \(\R \to \R ^{2} \to \R\) 의 연쇄법칙)
각각 \(\R, \R^2\) 에서 열린 집합 \(T, X\) 에 대하여 함수 \(g(t): T \subset \R \to \R^2\) 와 함수 \(f(x, y): X \subset \R^2 \to \R\) 를 잡자.
- \(g(T) \subset X\)
- \(g(t)\) 가 \(t_0 \in T\) 에서 미분가능하다.
- \(f(x, y)\) 가 \(g(t_0) \in X\) 에서 미분가능하다.
- \(f\) 가 \(C ^{1}\) 의 함수이다.
이면 \(f \circ g : T \to \R\) 가 \(t_0\) 에서 미분가능하고 \(\frac{dg}{dt} = \left( \frac{dx}{dt}, \frac{dy}{dt} \right)\) 에 대하여 다음이 성립한다.
\(g\) 가 각 점 \(t \in T\) 에서 미분가능하고 \(f\) 가 각 점 \(g(t) \in X\) 에서 미분가능하면 다음이 성립한다.
-
증명
-
예시
\(f(x,y) = \dfrac{x + y ^{2}}{2x ^{2} + 1}\) 와 \(g(t) = (2t, t+1)\) 에 대한 합성함수 \(f(g(t))\) 의 미분을 조사하자. 먼저 다음이 성립한다.
\[ \dfrac{\partial f}{\partial x} = \dfrac{1 - 2x ^{2} - 4xy ^{2}}{(2x ^{2} + 1 ) ^{2}} \]\[ \dfrac{\partial f}{\partial y}= \dfrac{2y}{2x ^{2} + 1} \]\[ \frac{dg}{dt} = \left( \frac{dx}{dt}, \frac{dy}{dt} \right) = (2, 1) \]따라서 다음이 성립한다.
\[ \begin{align}\begin{split} \frac{df}{dt} &= \dfrac{\partial f}{\partial x}\frac{dx}{dt} + \dfrac{\partial f}{\partial y}\frac{dy}{dt}= \dfrac{1 - 2x ^{2} - 4xy ^{2}}{(2x ^{2} + 1 ) ^{2}} \cdot 2 + \dfrac{2y}{2x ^{2} + 1} \cdot 1 \\ &= \dfrac{2(2 - 7t - 16t ^{2})}{(8t ^{2} + 1) ^{2}} \\ \end{split}\end{align} \tag*{} \]\(t\) 가 변했을 때 \(f\) 의 변화량을 구하고 싶은 것이니 \(x\) 를 \(2t\) 로, \(y\) 를 \(t + 1\) 로 치환해야 한다는 것을 잊지말자.
Chain Rule on R → Rⁿ→ R✔
다변수 함수 연쇄법칙(합성함수 \(\R \to \R ^{n} \to \R\) 의 연쇄법칙)
각각 \(\R, \R^n\) 에서 열린 집합 \(T, X\) 에 대하여 함수 \(g(t): T \subset \R \to \R^n\) 와 함수 \(f(x_1, x_2, \dots, x_n): X \subset \R^n \to \R\) 를 잡자.
- \(g(T) \subset X\)
- \(g(t)\) 가 \(t_0 \in T\) 에서 미분가능하다.
- \(f(x_1, x_2, \dots , x_n)\) 가 \(g(t_0) \in X\) 에서 미분가능하다.
- \(f\) 가 \(C ^{1}\) 의 함수이다.
이면 \(f \circ g : T \to \R\) 가 \(t_0\) 에서 미분가능하고 \(\frac{dg}{dt} = \left( \frac{dx_1}{dt}, \dots , \frac{dx_n}{dt} \right)\) 에 대하여 다음이 성립한다.
\(g\) 가 각 점 \(t \in T\) 에서 미분가능하고 \(f\) 가 각 점 \(g(t) \in X\) 에서 미분가능하면 다음이 성립한다.
-
즉, 다음과 같이 표현할 수 있다.
\[ \begin{align}\begin{split} \frac{df}{dt} &= \begin{bmatrix} \dfrac{\partial f}{\partial x_1} & \dfrac{\partial f}{\partial x_2} & \dots & \dfrac{\partial f}{\partial x_n}\\ \end{bmatrix} \begin{bmatrix} \dfrac{dx_1}{dt}\\ \dfrac{dx_2}{dt}\\ \vdots \\ \dfrac{dx_n}{dt}\\ \end{bmatrix} \\ &= \boxed{ Df(g(t))Dg(t) = \nabla f(g(t)) \cdot g'(t) }\\ \end{split}\end{align} \tag*{} \] -
증명
Chain Rule on Rⁿ→ Rⁿ→ Rⁿ✔
Colley Theorem 5.3 연쇄법칙(Chain Rule, 합성함수 \(\R ^{n} \to \R ^{m} \to \R ^{p}\) 의 연쇄법칙)
열린집합 \(X \subset \R^m, T \subset \R^n\) 에 대한 함수 \(f: X \subset \R^m \to \R^{p}\) 와 \(g: T \subset \R^n \to \R^m\) 을 잡자.
- \(g(T) \subset X\)
- \(g\) 가 \(t_0 \in T\) 에서 미분가능하다.
- \(f\) 가 \(g(t_0) \in X\) 에서 미분가능하다.
이면 \(f \circ g: \R^n \to \R^{p}\) 은 \(t_0\) 에서 미분가능하고, 다음이 성립한다.
-
이전의 모든 연쇄법칙을 포괄하는 이 정리는 이전 정리들과 다르게 \(f\) 가 특정 점에서 미분가능하다는 조건만 요구하고 \(C ^{1}\) 계층에 속할 것을 요구하지 않는다.
-
\(g(t_1, t_2, \dots, t_n)\) 와 \(f(x_1, x_2, \dots, x_m)\) 에 대한 합성함수 \(h = f \circ g: \R^n \to \R^{p}\) 로 두면 \(h\) 의 성분함수 \(h_i: \R^n \to \R\) 와 \(i = 1,2,\dots ,p\) 와 \(j = 1,2,\dots ,n\) 에 대하여 다음이 성립한다.
\[ \dfrac{\partial h_i}{\partial t_j} = \sum_{k=1}^{m}\dfrac{\partial f_i}{\partial x_k}\dfrac{\partial x_k}{\partial t_j} \]\(\mathbf{t} \in T \subset \R^n\) 에 대한 \(h\) 의 야코비행렬 \(Dh(\mathbf{t})\) 의 \(i\)행 \(j\)열 원소는 \(i\)번째 성분함수 \(h_i\) 를 \(j\)번째 변수 \(t_j\) 로 미분한 \(\dfrac{\partial h_i}{\partial t_j}\) 이다. 따라서 다음이 성립한다.
\[ \begin{align}\begin{split} Dh(\mathbf{t}) &= Dh(t_1, t_2, \dots, t_n) = \begin{bmatrix} \dfrac{\partial h_1}{\partial t_1}&\dfrac{\partial h_1}{\partial t_2}&\dots&\dfrac{\partial h_1}{\partial t_n}\\ \dfrac{\partial h_2}{\partial t_1}&\dfrac{\partial h_2}{\partial t_2}&\dots&\dfrac{\partial h_2}{\partial t_n}\\ \vdots& \vdots& \ddots& \vdots \\ \dfrac{\partial h_p}{\partial t_1}&\dfrac{\partial h_p}{\partial t_2}&\dots&\dfrac{\partial h_p}{\partial t_n}\\ \end{bmatrix} \\ &= \begin{bmatrix} \dfrac{\partial f_1}{\partial x_1}&\dfrac{\partial f_1}{\partial x_2}&\dots&\dfrac{\partial f_1}{\partial x_m}\\ \dfrac{\partial f_2}{\partial x_1}&\dfrac{\partial f_2}{\partial x_2}&\dots&\dfrac{\partial f_2}{\partial x_m}\\ \vdots& \vdots& \ddots& \vdots \\ \dfrac{\partial f_p}{\partial x_1}&\dfrac{\partial f_p}{\partial x_2}&\dots&\dfrac{\partial f_p}{\partial x_m}\\ \end{bmatrix} \begin{bmatrix} \dfrac{\partial g_1}{\partial t_1}&\dfrac{\partial g_1}{\partial t_2}&\dots&\dfrac{\partial g_1}{\partial t_n}\\ \dfrac{\partial g_2}{\partial t_1}&\dfrac{\partial g_2}{\partial t_2}&\dots&\dfrac{\partial g_2}{\partial t_n}\\ \vdots& \vdots& \ddots& \vdots \\ \dfrac{\partial g_m}{\partial t_1}&\dfrac{\partial g_m}{\partial t_2}&\dots&\dfrac{\partial g_m}{\partial t_n}\\ \end{bmatrix} \\ & = \boxed{ Df(g(\mathbf{t})) Dg(\mathbf{t}) = \dfrac{\partial f}{\partial g}\dfrac{\partial g}{\partial \mathbf{t}}} \end{split}\end{align} \tag*{} \]결국 일반화된 연쇄법칙에서도 일변수 함수의 연쇄법칙 \(\dfrac{df}{dg}\dfrac{dg}{dx}\) 와 비슷하게 \(\dfrac{\partial f}{\partial g}\dfrac{\partial g}{\partial \mathbf{t}}\) 라는 결과가 나왔다.
주의할 점은 \(g\) 의 성분함수 \(g_k\) 가 \(f\) 의 변수 \(x_k\) 로 취급된다는 것이다. 또한 이 행렬곱은 \((p \times n) = (p \times m) \times (m \times n)\) 의 결과이다.
-
증명
-
예시
다음과 같이 정의된 함수 \(f: \R^3 \to \R^2\) 와 \(g: \R^2 \to \R^3\) 에 대하여 \(f \circ g: \R^2 \to \R^2\) 의 미분을 조사하자.
\[ f(x_1, x_2, x_3) = (x_1 - x_2, x_1x_2x_3) \]\[ g(t_1, t_2) = (t_1t_2, t_1 ^{2}, t_2 ^{2}) \]먼저, 다음이 성립한다.
\[ Df(x) = \begin{bmatrix} 1&-1&0\\ x_2x_3&x_1x_3&x_1x_2 \end{bmatrix} \]\[ Dg(t) = \begin{bmatrix} t_2&t_1\\ 2t_1&0\\ 0&2t_2\\ \end{bmatrix} \]따라서 다음이 성립한다.
\[ \begin{align}\begin{split} D(f \circ g)&= Df(x)Dg(t) = \begin{bmatrix} t_2-2t_1&t_1\\ x_2x_3t_2 + 2x_1x_3t_1&x_2x_3t_1+2x_1x_2t_2 \end{bmatrix} \\ &= \begin{bmatrix} t_2-2t_1 & t_1\\ t_1 ^{2}t_2 ^{3} + 2t_1 ^{2}t_2 ^{3} & t_1 ^{3}t_2 ^{2} + 2 t_1 ^{3} t_2 ^{2} \end{bmatrix}\\ \end{split}\end{align} \tag*{} \] -
예시
다음과 같이 정의된 \(f:\R^2 \to \R^2\) 를 잡자.
\[ f(x,y) = (x-2y +7, 3xy ^{2}) \]\(g:\R^3 \to \R^2\) 가 \((0,0,0)\) 에서 미분가능하고 \(g(0,0,0) = (-2,1)\) 이고 다음이 성립한다고 하자.
\[ Dg(0,0,0) = \begin{pmatrix} 2&4&5\\ -1&0&1\\ \end{pmatrix} \]이 정보를 통해 \(D(f \circ g)(0,0,0)\) 을 구해보자.
먼저, 본 정리에 의하여 \(f \circ g\) 는 \((0,0,0)\) 에서 미분가능하고, 다음이 성립한다.
\[ \begin{aligned} D(f \circ g)(0,0,0) &= Df(g(0,0,0))Dg(0,0,0) \\ & = Df(-2,1)Dg(0,0,0) \\ \end{aligned} \]\(Df\) 를 계산하면 다음을 얻는다.
\[ Df(x,y) = \begin{pmatrix} 1&-2\\ 3y ^{2}&6xy\\ \end{pmatrix} \implies Df(-2,1) = \begin{pmatrix} 1&-2\\ 3&-12\\ \end{pmatrix} \]따라서 다음이 성립한다.
\[ \begin{aligned} D(f \circ g)(0,0,0) &= \begin{pmatrix} 1&-2\\ 3&-12\\ \end{pmatrix}\begin{pmatrix} 2&4&5\\ -1&0&1\\ \end{pmatrix}\\ &=\begin{pmatrix} 4&4&3\\ 18&12&3\\ \end{pmatrix} \\ \end{aligned} \]