확률변수의 기댓값과 분산은 확률분포를 요약하는 핵심적인 지표입니다. 기댓값은 확률변수의 평균적인 값(중심)을 나타내고, 분산은 값들의 퍼짐 정도(산포)를 나타냅니다. 이 글에서는 확률변수의 기댓값과 분산을 구하는 공식과 구체적인 계산 방법, 그리고 데이터 분석에서 이 값들을 어떻게 활용할 수 있는지 살펴보겠습니다.
확률변수란?
확률변수(Random Variable)는 실험의 결과를 수치로 나타낸 변수입니다. 확률변수는 이산확률변수와 연속확률변수로 나뉩니다.
- 이산확률변수: 가능한 값이 유한하거나 셀 수 있는 경우 (예: 주사위 눈금)
- 연속확률변수: 가능한 값이 연속적인 구간을 이루는 경우 (예: 키, 몸무게 등)
확률변수의 기댓값 정의와 계산
기댓값(Expectation)은 확률변수가 가질 수 있는 값들의 가중평균입니다. 기댓값은 확률분포의 중심을 나타내며, 다음과 같이 정의됩니다.
이산확률변수의 기댓값
확률변수 \(X\)가 이산형이고, 가능한 값이 \(x_1, x_2, \dots, x_n\)이고, 각각의 확률이 \(p_1, p_2, \dots, p_n\)일 때, 기댓값은 다음과 같습니다.
$$E(X) = \sum_{i=1}^n x_i p_i$$
각 값에 해당 값이 나올 확률을 곱한 후 모두 더하는 방식입니다.
예시) 주사위의 기댓값은 다음과 같이 계산합니다.
$$E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5$$
연속확률변수의 기댓값
확률변수 \(X\)가 연속형일 경우, 기댓값은 다음과 같이 적분으로 구합니다.
$$E(X) = \int_{-\infty}^{\infty} x f(x) \,dx$$
여기서 \(f(x)\)는 확률밀도함수입니다.
예시) X가 0~1 구간에서 균등분포를 따를 때, 기댓값은 다음과 같습니다.
$$E(X) = \int_0^1 x \,dx = \frac{1}{2}$$
확률변수의 분산 정의와 계산
분산(Variance)은 확률변수의 값들이 기댓값으로부터 얼마나 떨어져 있는지를 나타내는 지표입니다. 즉, 확률변수의 변동성(흩어진 정도)을 나타냅니다.
분산은 다음과 같이 정의됩니다.
$$Var(X) = E[(X - E(X))^2]$$
이는 기댓값과의 차이를 제곱한 값의 기댓값을 의미합니다.
계산 편의를 위해 다음과 같은 공식으로 자주 변형해서 사용합니다.
$$Var(X) = E(X^2) - (E(X))^2$$
이산확률변수의 분산
이산확률변수의 경우, 다음과 같이 계산합니다.
$$Var(X) = \sum_{i=1}^n (x_i - E(X))^2 p_i$$
또는
$$Var(X) = E(X^2) - (E(X))^2$$
여기서
$$E(X^2) = \sum_{i=1}^n x_i^2 p_i$$
예시) 주사위의 분산
기댓값 \(E(X) = 3.5\)
$$E(X^2) = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{91}{6}$$
따라서
$$Var(X) = \frac{91}{6} - (3.5)^2 = \frac{91}{6} - \frac{49}{4} = \frac{364 - 294}{24} = \frac{70}{24} \approx 2.9167$$
연속확률변수의 분산
연속확률변수의 경우, 분산은 다음과 같이 적분으로 계산합니다.
$$Var(X) = \int_{-\infty}^{\infty}(x - E(X))^2 f(x)\,dx$$
또는
$$Var(X) = E(X^2) - (E(X))^2$$
이 때,
$$E(X^2) = \int_{-\infty}^{\infty}x^2 f(x)\,dx$$
기댓값과 분산의 데이터 분석 활용
기댓값과 분산은 데이터 분석에서 다음과 같은 의미를 가집니다.
- 기댓값: 데이터의 대표값(중심위치)을 나타냅니다. 평균과 동일한 개념입니다.
- 분산: 데이터의 변동성(흩어진 정도)을 나타냅니다. 분산이 클수록 데이터가 기댓값 주변에 모이지 않고 퍼져 있음을 의미합니다.
특히, 기댓값과 분산은 확률모형의 특성을 파악하고, 데이터의 특성을 요약하는 핵심 지표로서 통계분석, 머신러닝, 시계열 분석 등 다양한 분야에서 폭넓게 활용됩니다.
결론
확률변수의 기댓값은 평균적인 결과를 의미하며, 분산은 결과의 변동성을 나타냅니다.
이산형과 연속형에 따라 계산 방식은 달라지지만, 기댓값과 분산은 모든 확률분포에서 중요한 특성값입니다.
데이터 분석에서는 평균과 분산을 통해 데이터의 중심과 퍼짐을 파악하고, 이를 바탕으로 신뢰구간, 가설검정, 모델링 등에 적극 활용합니다.
'수학' 카테고리의 다른 글
카르마이클 수(Carmichael number)란 무엇인가? (0) | 2025.03.07 |
---|---|
함수의 극한을 직관적으로 이해할 수 있는 예제문제 (0) | 2025.03.07 |
신뢰구간과 표본 크기의 관계 및 데이터 분석 적용 (0) | 2025.03.06 |
파푸스의 중선정리 알아보기 (0) | 2025.03.06 |
지수분포와 포아송분포의 관계 알아보기 (0) | 2025.03.06 |
댓글