본문 바로가기
수학

경사하강법을 통한 최적화의 수식 | 미적분학 세특

by 여행과 수학 2024. 11. 2.
반응형

미적분은 인공지능에서 경사하강법(Gradient Descent)과 같은 최적화 알고리즘에 중요한 역할을 합니다. 경사하강법은 손실 함수(Loss Function)의 값을 최소화하기 위해, 함수의 기울기(미분 값)를 계산하여 가중치를 업데이트하는 방식입니다. 이 글에서는 미적분을 사용한 경사하강법의 수식을 구체적으로 살펴보고, 이를 인공지능에서 어떻게 활용하는지 설명하겠습니다.

경사하강법(Gradient Descent)의 수식

경사하강법은 손실 함수의 기울기를 계산하여, 그 기울기에 따라 가중치가 최소화되는 방향으로 이동시키는 알고리즘입니다. 손실 함수 \(J(\theta)\)의 값을 최소화하기 위해, 가중치 \( \theta \)를 반복적으로 업데이트합니다. 경사하강법의 기본적인 업데이트 수식은 다음과 같습니다:

\[ \theta := \theta - \alpha \frac{\partial J(\theta)}{\partial \theta} \]

여기서:

  • \(\theta\): 가중치 벡터(최적화 대상 변수)
  • \(J(\theta)\): 손실 함수
  • \(\frac{\partial J(\theta)}{\partial \theta}\): 손실 함수 \(J(\theta)\)에 대한 가중치 \(\theta\)의 기울기(Gradient)
  • \(\alpha\): 학습률(Learning Rate), 업데이트 속도를 조절하는 상수

이 수식은 가중치 \( \theta \)를 손실 함수의 기울기 방향으로 조금씩 이동시키는 과정을 나타냅니다. 학습률 \(\alpha\)는 업데이트되는 크기를 결정하며, 너무 크면 최소값을 지나치고, 너무 작으면 학습 속도가 매우 느려집니다.

1. 경사하강법의 작동 원리

경사하강법은 손실 함수 \(J(\theta)\)의 기울기(미분 값)가 0이 되는 지점, 즉 함수의 최소값을 찾는 방식입니다. 손실 함수가 볼록(convex) 함수인 경우, 기울기가 양수일 때는 가중치 값을 감소시키고, 음수일 때는 증가시키며, 기울기가 0에 가까워질수록 최소값에 도달하게 됩니다.

예를 들어, 1차원 함수의 경우, 기울기가 양수이면 함수의 값이 증가하는 방향이므로 가중치 \(\theta\)를 감소시켜야 합니다. 반대로 기울기가 음수이면 함수의 값이 감소하는 방향으로 가중치 \(\theta\)를 증가시켜야 합니다. 경사하강법은 이를 반복하여 손실 함수가 최소가 되는 지점을 찾습니다.

2. 손실 함수의 예: 평균 제곱 오차(MSE)

경사하강법에서 사용되는 대표적인 손실 함수 중 하나는 평균 제곱 오차(Mean Squared Error, MSE)입니다. MSE는 실제 값 \(y\)와 모델의 예측 값 \(\hat{y}\) 간의 차이를 제곱한 후 평균을 구하는 방식으로 정의됩니다. MSE 손실 함수는 다음과 같이 정의됩니다:

\[ J(\theta) = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 \]

여기서:

  • \(m\): 데이터 샘플의 개수
  • \(h_\theta(x^{(i)})\): 가중치 \(\theta\)에 따른 예측 값
  • \(y^{(i)}\): 실제 값

MSE는 모델의 예측 값과 실제 값 간의 차이를 제곱하여 그 평균을 구하는 방식으로, 값이 작을수록 예측의 정확도가 높다는 것을 의미합니다. 경사하강법은 이 손실 함수 \(J(\theta)\)의 기울기를 계산하여 가중치를 조정함으로써 손실을 최소화합니다.

경사하강법의 구체적인 계산 과정

경사하강법을 통해 가중치 \(\theta\)를 업데이트하는 과정을 구체적으로 살펴보겠습니다. 예를 들어, 단순 선형 회귀 모델의 경우, 예측 값은 다음과 같이 나타낼 수 있습니다:

\[ h_\theta(x) = \theta_0 + \theta_1 x \]

여기서 \(\theta_0\)는 절편(intercept), \(\theta_1\)는 기울기(slope)를 의미합니다. 평균 제곱 오차(MSE)를 손실 함수로 사용하면, 각 가중치에 대한 미분은 다음과 같이 계산됩니다:

\[ \frac{\partial J(\theta)}{\partial \theta_0} = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \]

\[ \frac{\partial J(\theta)}{\partial \theta_1} = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x^{(i)} \]

이 미분 값을 경사하강법의 기본 업데이트 수식에 대입하면, 각 가중치 \(\theta_0\)와 \(\theta_1\)의 업데이트 식은 다음과 같이 됩니다:

\[ \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \]

\[ \theta_1 := \theta_1 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x^{(i)} \]

이 과정은 기울기(미분 값)를 계산하여 가중치를 업데이트하는 것을 반복하며, 손실 함수가 최소화되는 최적의 가중치 값에 수렴하게 됩니다.

결론

미적분은 경사하강법을 통해 인공지능 모델의 최적화를 지원하는 핵심 도구입니다. 경사하강법은 손실 함수의 기울기를 계산하여, 그 기울기에 따라 가중치를 업데이트하는 방식으로 작동하며, 손실 값을 점차 최소화합니다. 이를 통해 모델이 학습하면서 점점 더 정확한 예측을 할 수 있게 됩니다.

미적분을 통해 손실 함수의 미분 값을 구하고, 이를 경사하강법 수식에 적용하여 모델이 학습하는 과정은 인공지능의 핵심적인 학습 알고리즘 중 하나로, 다양한 인공지능 문제 해결에 적용되고 있습니다.

 

수학의 실생활 적용 분야 알아보기 | 공학 건축 컴퓨터 금융

수학은 교실에서 가르치는 과목 그 이상입니다. 일상 생활의 모든 측면에 스며드는 근본적인 도구입니다. 간단한 계산에서 복잡한 모델링에 이르기까지 수학은 실제 문제를 해결하고 과학, 기

mathtravel.tistory.com

 

728x90

댓글