Machine Learning
Contents
머신러닝의 공리(Axiom)✔
- 법칙의 존재성 공리: 훈련 데이터셋과 미래에 입력될 일반적인 데이터를 생성한 균등 분포가 아닌 확률분포가 존재한다.(세계가 무작위적이지 않고 법칙\(\cdot\)패턴\(\cdot\)규칙에 의해 통제된다)
- 법칙의 불변성 공리(i.i.d 가정): 훈련 데이터셋을 생성한 분포가 미래에 입력될 데이터를 만들어낼 분포가 동일하다.(현재 관찰한 세계를 통제하는 법칙이 미래에도 보존된다)
머신러닝의 본질은 위와 같이 세상의 설명서와 같은 분포의 존재성과 불변성을 가정하고, 모델이 그 분포가 되게 하여, 모델이 처음 본 데이터에도 잘 작동하게 하는 것이다. 이는 철학에서 귀납적 추론에 해당하는데, 논리적으로 귀납적 추론은 정당화되지 않는다. 그러나 실용적으로 이 가정은 많은 상황에서 잘 작동하고, 이에 따라 머신러닝도 효용을 갖는다. 왜냐하면 자연 데이터의 대부분이 안정적 패턴을 갖고, 분포(법칙)가 바뀌는 현상은 드물기 때문이다.
세상을 완전히 균등하게 모든 가능한 함수(모델이 근사해야 할 타겟, 즉, 문제)가 같은 확률로 나타나는 곳이라고 가정하면 머신러닝을 연구하는 의미가 없다. NFL(No Free Lunch) 정리가 모든 가능한 문제들이 똑같은 확률로 나타난다는 가정 하에 평균을 냈을 때 모든 알고리즘의 성능은 동일하다는 것을 보장하기 때문이다. 가령, 매끄러운 함수에 대해 빠르게 최적해를 찾는 알고리즘은 매끄러움이라는 가정이 깨지는 함수들에 대해서 브루트포싱보다 성능이 안좋다. 이런 식으로 이득과 손실이 모든 문제들에 대해 상쇄된다.
모든 함수 집합에는 매끄러운 함수 뿐만 아니라 기괴한 함수들이 무한히 많다. 하지만 현실은 모든 가능한 함수 중 극히 특수한 부분집합이다. 자연 현상들은 무작위적이지 않고 패턴과 규칙을 갖는다. 이미지와 언어에는 특정한 구조가 존재한다. 이 법칙의 존재성 가정이 머신러닝을 시작시키는 제1의 전제이다.
따라서 IB(Inductive Bias)가 중요하다. IB는 모델이 가진 편견, 가정, 편향이다. 가령, CNN은 이미지 데이터가 국소적 패턴으로 구성된다는 편향을 갖고 설계된 알고리즘이다. 그러므로 AI 과학자의 역할은 세상이 어떤 구조로 되어 있는지 파악하고, 세상에 가장 적합한 IB를 갖는 모델을 만드는 것이다. Attention 기반 Transformer 가 세상이라는 데이터에 일반화되기에 가장 최적인 모델 구조라는 보장은 없다. 그러므로 야심있는 과학자들은 세상에 대하여 더욱 철학적으로 고찰하여 세상에 더 최적인 IB를 갖는 모델 구조를 혁신하고 있다.
머신러닝 엔지니어의 역할은 회사에서 주어진 데이터에 존재하는 편향이 무엇인지 파악하고, 그것을 어느정도 수준으로 알고리즘에 내재시킬지 결정하는 것이다. 가령, 데이터가 덧셈 문제(모델이 근사해야 할 함수)라면 SOTA LLM보다 덧셈 함수가 더 빠르고 성능이 좋다.
모델 크기도 중요한 IB 중 하나이다. 모델 용량을 크게 정의하는 것은 입력될 데이터(문제, 근사해야 할 함수)의 복잡도가 높다는 IB이다. 따라서 모델 구조의 혁신의 역사를 스케일의 관점에서 설명할 수 있다. 모델 복잡도를 높였을 때 학습이 어려워졌고, AI의 침체기가 찾아왔지만, 학습 방법을 찾았을 때 AI는 부활했다. 이 관점에서, 모델 혁신의 관건은 복잡한 모델의 학습 방법의 존재성 증명이다.
- 1세대 침체: 퍼셉트론 → XOR 문제 해결 불가 → 다층 퍼셉트론 → 학습 파라미터 조정법 필요 → 해결책: 역전파 알고리즘
- 2세대 침체: 깊은 네트워크 → 학습 불가능 → 해결책: ReLU + Dropout + Batch Normalization + GPU
- 현재 Transformer 시대: 극도로 복잡한 모델 → 해결책: Residual Connection + Layer Normalization + Attention 메커니즘(장거리 의존성 빠르게 학습)
현재도 이 패턴은 진행중이며, 거대 언어 모델들은 수천억 개의 파라미터를 안정적으로 학습시키는 새로운 기법들(Mixture of Experts, Flash Attention 등)을 개발하며 한계를 돌파하고 있다. MoE의 기본 원리는 하나의 거대 모델 대신 여러 개의 전문가 모델을 사용하여 각 입력에 대해 가장 적합한 전문가만 선택적으로 활성화한다는 것이다. 이것이 스케일링을 확장하게 해주는 이유는 입력마다 일부 전문가만 활성화되어 실제 계산량이 작아서 전문가를 추가하여 모델 용량을 키워도 추론 비용은 그에 따라 비례하지 않기 때문이다.
머신러닝의 근본 원리✔
선형변환은 한 벡터공간의 벡터를 선형성을 보존한채 다른 벡터공간으로 보내는 변환이다. 선형변환과 행렬곱은 본질적으로 같다. 선형변환은 공간 전체의 격자를 평행하게 유지한채로 공간을 비튼다.
DNN(Deep Neural Network)은 (선형 변환 → 비선형 함수)의 반복이다. 선형 변환은 평행을 유지한채 공간을 회전/확대/축소/확장하는 것이지만, 비선형 함수는 공간을 구부리고 접는다. 이로써 처음 공간에서 선형으로 분리 불가능한 패턴이 변환된 이후에는 선형으로 분리 가능하게 된다.
UAT(Universal Approximation Theorem)는 충분히 넓은 단일 은닉층으로 어떤 연속 함수든 근사할 수 있다는 것을 보장해준다. 그러나 넓은 단일 은닉층보다 깊고 좁은 은닉층이 훨씬 적은 파라미터로 동일한 표현력을 가질 수 있다. 자연의 데이터들이 계층적 구조를 갖고 있기 때문에 이 IB가 성립한다. 가령, 얼굴 인식 문제에서 픽셀 → 선 → 눈/코 → 얼굴로 추상화되는 표현 변환이 이루어진다.
표현 변환은 번역과도 같다. 같은 의미를 다른 언어로 표현하듯이, 같은 데이터를 다른 형태로 표현하는 것이다. 가령, 마음 속 생각을 영어로, 수식으로, 그림으로 표현할 수 있다. 본질적 의미를 보존한채로 형태를 변환하는 것이다. 머신러닝에서의 표현도 마찬가지이다. 원시 데이터의 중요한 정보는 보존하면서 더 유용한 다른 형태로 변환하는 것이다.
그러므로 표현 변환의 본질은, 추상화와 압축이다. 원시 데이터에서 불필요한 세부사항을 제거하고, 중요한 본질만 남기는 것이다. 가령, 우리는 영화를 설명할 때 모든 프레임을 묘사하지 않고, 줄거리를 간략하게 설명하거나, 혹은 단 한 마디로 "재밌어/재미없어" 라는 단일 표현을 말한다.
이것을 수학적으로 표현할 수 있다. 원시 픽셀 공간에서 재밌는 영화와 재미없는 영화를 나누는 경계는 복잡하고 뒤틀려 있어서 선형 분류기로는 나눌 수 없다. 하지만 좋은 표현 공간에서는 그 경계가 단순해져서, 직선으로도 나눌 수 있다. 그래서 "재밌다/재미없다" 같은 단일 표현으로 구분할 수도 있다. 이것이 딥러닝의 원리이다.
좋은 표현의 본질이란 벡터공간의 벡터 간의 위상, 거리, 내적, 각도 같은 공간 성질이 현실의 인간에게 통용되는 의미와 가까워진 공간이다. 반면, 벡터공간이 현실의 의미와 상관 관계가 없으면 나쁜 표현 공간이다.
좋은 표현 공간에서는 벡터 공간의 기하학적 연산이 의미적 연산과 일치한다. 두 벡터 사이의 유클리드 거리가 실제로 두 개념 사이의 의미적 유사성을 반영한다. 벡터의 방향이 의미를 담고, 벡터의 덧셈과 뺄셈이 의미의 조합을 나타낸다. 원시 픽셀 공간에서는 이런 일이 전혀 일어나지 않다. 두 고양이 사진의 픽셀 벡터 사이의 거리와 고양이 사진과 개 사진의 픽셀 벡터 사이의 거리가 아무 관계가 없다. 좋은 표현 공간에서는 고양이 이미지들이 벡터 공간의 한 영역에 모이고, 모든 개 이미지들이 다른 영역에 모인다.이것은 인간의 마음 공간과 비슷하다.
모델이란 세상의 자연 데이터를 이 좋은 표현 공간으로 보내는 변환 함수이다. 딥러닝은 이 맵핑을 데이터로부터 자동으로 학습할 수 있게 해준다. 이 표현 학습이 현대 인공지능의 본질적 토대이다.
인공지능 발전 방향성의 본질은 자연 데이터를 인간의 마음 공간을 투영한 좋은 표현 벡터 공간으로 보내는 것이다. 왜냐하면 인간 AI 과학자들이 자기 마음의 의미 구조와 같아지도록 모델을 혁신하기 때문이다. 인간은 누구나 세상의 Raw 데이터를 입력받고 그 표현을 마음 공간으로 변환해온다. 이 공간 안에서 누구는 싫거나 좋고, 누구는 위에 있거나 아래에 있고, 누구에겐 좋은 냄새가 나거나 나쁜 냄새가 나고, 누구는 자신과 멀리 있거나 가까이에 있고, 자신과 하나되어 있을 수도 있다. 머신러닝은 이 인간의 마음 공간이 어느정도 공통된 구조를 갖고 있다고 가정한다. 그렇지 않으면 인간은 서로 의미를 공유할 수 없고, 머신러닝으로 발명한 모델도 아무 의미가 없다. 가령, 아무리 문화와 역사가 달라도 공통적으로 문학 작품에서 상당히 비슷한 의미로 나타나는 주제는 부모자식 관계다.
머신러닝의 최종 목표는 인류에게 공통적으로 공유되는 세상을 변환하는 마음 공간의 구조가 존재한다고 가정하고, 세상의 자연 데이터를 그곳으로 사영시키는 모델을 만드는 것이다. 문명의 발전 관점에서의 인류의 역할은 세상의 법칙을 파악하고 그것을 기계화하여 자동화하는 것이다. 이 인공 마음 공간을 기반으로 하는 AI는 더 이상 인간이 의미를 부여해줄 필요도 없고 인간이 통제해야 할 필요도 없다. 왜냐하면 세상의 Raw 데이터를 입력받아서 인간의 마음 공간으로 보내는 행위 자체를 기계가 대신 이루었기 때문이다. 이제 이 AI 는 단지 "세상의 법칙을 파악하고 그것을 기계화하는 것을 발전시켜" 라는 명령을 수행하며 인간의 역할을 대신해나갈 수 있다. 이 시점이 오면 인간의 역할은 끝난다. 능동성을 지닌 AI가 탄생할 수 있고, 초지능이 나타날 수 있다. 그리고 이 일은 이미 초보적으로 일어나고 있다.