본문 바로가기
수학

선형회귀 활용 데이터 예측 기법 방법 알아보기

by 여행과 수학 2025. 3. 9.
반응형

데이터 분석과 머신러닝에서 가장 기본적이면서도 강력한 도구 중 하나가 바로 "선형회귀(Linear Regression)"입니다. 선형회귀는 데이터 간의 직선적 관계를 모델링하여 미래 값을 예측하거나 변수 간의 관계를 파악하는 데 유용하게 쓰입니다. 특히 금융, 경제, 마케팅, 공학 등 다양한 분야에서 널리 활용되며, 복잡한 모델을 이해하기 위한 기초 단계로도 필수적인 개념입니다. 이번 글에서는 선형회귀의 원리, 수학적 표현, 학습 과정, 평가 방법, 그리고 실제 데이터 예측 사례까지 체계적으로 정리해보겠습니다.

선형회귀란?

선형회귀는 입력 변수(독립변수, \(x\))와 출력 변수(종속변수, \(y\)) 사이의 관계를 "직선"의 수식으로 나타내는 회귀 기법입니다. 가장 단순한 형태는 다음과 같은 1차 방정식입니다.

$$ y = \beta_0 + \beta_1 x $$

여기서 \(y\)는 예측값, \(x\)는 독립변수, \(\beta_0\)는 절편(intercept), \(\beta_1\)은 기울기(slope)입니다.

데이터가 여러 개의 독립변수를 갖는 경우에는 다중선형회귀(Multiple Linear Regression)로 확장할 수 있습니다.

$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n $$

이처럼 선형회귀는 관계를 선형식으로 설명할 수 있는 매우 직관적이고 해석이 쉬운 모델입니다.

선형회귀의 학습 과정

선형회귀 모델을 학습한다는 것은, 주어진 데이터에 가장 잘 맞는 직선의 기울기와 절편을 찾는 과정입니다. 이를 위해 다음과 같은 단계로 진행됩니다.

1. 데이터 준비 및 전처리

- 독립변수 \(x\)와 종속변수 \(y\)로 데이터 구성

- 결측치 처리 및 이상치 제거

- 필요 시 정규화 또는 표준화 수행

2. 모델 수식 설정

- 선형 방정식 구성

- $$ y = \beta_0 + \beta_1 x $$ 형태 정의

3. 손실 함수 정의

- 실제값과 예측값의 차이를 최소화하는 손실 함수 설정

- 일반적으로 평균제곱오차(Mean Squared Error, MSE)를 사용

$$ \text{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 $$

4. 계수 추정 (최적화)

- 경사하강법(Gradient Descent) 또는 정규방정식(Normal Equation)으로 기울기와 절편 계산

- 경사하강법 과정:

$$ \beta_j = \beta_j - \alpha \frac{\partial J}{\partial \beta_j} $$

- 정규방정식:

$$ \beta = (X^T X)^{-1} X^T y $$

선형회귀 모델 평가 방법

학습한 선형회귀 모델이 얼마나 정확하게 데이터를 설명하는지를 평가하기 위해 다음과 같은 지표를 사용합니다.

1. 결정계수 (R²)

설명 가능한 분산의 비율로, 0에서 1 사이의 값을 가집니다. 1에 가까울수록 좋은 모델입니다.

$$ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} $$

2. MSE 및 RMSE

- 평균제곱오차(MSE): $$ \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 $$

- 평균제곱근오차(RMSE): $$ \sqrt{MSE} $$

3. MAE (Mean Absolute Error)

- $$ \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i| $$

선형회귀의 실제 활용 사례

1. 주택 가격 예측

- 독립변수: 면적, 방 수, 층수, 위치 등

- 종속변수: 집값

2. 마케팅 캠페인 효과 분석

- 독립변수: 광고비, SNS 게시물 수, 고객 문의 수

- 종속변수: 매출액

3. 기업 매출 예측

- 독립변수: 계절성, 경쟁사 마케팅 활동, 시장 성장률

- 종속변수: 기업 월 매출

4. 금융 데이터 분석

- 독립변수: 금리, 환율, 유가 등

- 종속변수: 주가 변동률

결론

선형회귀는 데이터 사이의 관계를 수학적으로 설명하고, 예측까지 가능하게 해주는 가장 기초적이면서도 강력한 분석 도구입니다. 특히 직선적 관계가 강한 데이터에서는 매우 효과적이며, 결과 해석도 쉽습니다.

실제 활용에서는 데이터 전처리, 다중공선성 문제 해결, 과적합 방지 등 다양한 실무적 고려사항도 필요합니다. 최근에는 머신러닝, 딥러닝 등 복잡한 모델이 각광받고 있지만, 여전히 선형회귀는 데이터 분석과 모델링의 기본 중의 기본으로 자리 잡고 있습니다.

728x90

댓글