평균, 편차, 분산, 표준편차는 데이터들을 나타낼 때 많이 쓰이는 통계적 개념이다. 데이터의 특성과 분포도를 파악하는데 중요한 기초적인 개념이므로 알아둘 필요가 있다.
평균(Average)
평균은 데이터 값들을 모두 더한 후 데이터 개수로 나누어 계산한다. 수식으로 나타내면 아래와 같이 나타낼 수 있다.
평균값 = 모든 데이터의 합 / 데이터의 개수
편차(deviation)
편차는 데이터 값이 평균으로부터 얼마나 떨어져 있는지를 나타낸다. 개별 데이터 값에서 평균을 뺀 값으로 계산한다. 어떤 데이터와 평균 간의 차이라고 볼 수 있다.
편차 = 데이터값 - 평균값
분산(Variance)
분산은 데이터가 평균으로부터 얼마나 퍼져 있는지 나타내는 산포도를 계산하는 방법이다. 분산 값이 작을수록 데이터가 평균에 모여있고, 값이 클수록 데이터가 평균에서 멀리 퍼져있다는 것을 의미한다. 분산은 데이터의 변동성을 나타내고 이상치를 탐지하는 데에 사용될 수 있다.
구하는 방법은 각 데이터 값에서 평균을 뺀 후 얻어지는 편차값에서 제곱한 값을 모두 더하여 데이터 개수로 나눠 계산한다. 간단히 말하면 편차를 제곱해서 평균을 취한 것이 분산이다. 아래 식에서 A는 평균 값이다.
편차는 평균과의 차이이므로 음수가 나오는 경우도 있다. 편차를 모두 더하면 0이 되기 때문에 단순히 더하지 않고 제곱해서 더한다.
표준편차(Standard Deviation)
표준 편차는 분산의 양의 제곱근으로, 데이터의 산포도를 나타낸다. 데이터들이 평균을 중심으로 얼마나 잘 밀집되어 있는지 들쑥날쑥한 정도가 얼마나 심한지를 나타낸다. 구하는 방법은 분산 값에 제곱근(루트)을 씌워 계산한다. 분산은 편차의 제곱을 사용하기 때문에 값이 커지는 경향이 있다. 그렇기 때문에 제곱해서 커졌던 분산의 값을 다시 원래의 크기로 표준화 한다고 볼 수 있다.
예를 들어 10명의 학생들의 수학 점수가 아래와 같다면 평균, 편차, 분산, 표준편차는 다음과 같다.
80 | 85 | 70 | 90 | 100 | 100 | 95 | 60 | 75 | 80 |
평균은 모든 값을 더해서 10을 나눈 값으로 83.5가 된다.
편차는 점수에서 평균을 뺀 값으로 각각 -3.5, 1.5, -13.5, 6.5, 16.5, 16.5, 11.5, -23.5, -8.5, -3.5이다.
분산을 구하면 155.25 표준 편차는 12.459가 된다.
활용 방안
분산과 표준 편차는 자료 분석, 품질 관리, 금융 분석, 데이터 비교, 이상치 탐지 등 다양한 곳에 활용될 수 있는데 몇가지 사례를 들자면 다음과 같다.
1. 데이터 비교 : 분산과 표준편차는 여러 데이터 집합의 변동성을 비교하는 데에 사용될 수 있다. 예를 들어 두 개의 그룹이 있는 경우 각 그룹의 분산과 표준편차를 계산하여 그룹 간의 데이터 분포 차이를 확인할 수 있어서 이를 통해 두 그룹의 차이를 검증하거나 실험 결과를 분석할 수 있다.
2. 이상치 탐지 : 분산과 표준편차는 이상치 탐지에도 사용된다. 데이터의 흩어짐 정도를 나타내는 표준편차를 기준으로, 정상 범위에서 벗어난 데이터를 이상치로 간주할 수 있다. 이를 통해 불량율 감소, 프로세스 개선이 가능하다.
3. 데이터 전처리 : AI 모델을 학습시키거나 예측을 수행하기 전에 데이터를 전처리해야 할 때, 분산과 표준편차는 일반적으로 사용되는 통계 기법 중 하나이다. 데이터의 특성을 파악하고 정규화하는 데 사용될 수 있다. 예를 들어, 입력 데이터의 특성마다 스케일이 다른 경우, 각 특성의 분산과 표준편차를 계산하여 특성 간 스케일을 조정하는 데 활용될 수 있다.
4. 모델 평가 지표 : AI 모델의 성능 평가에도 분산과 표준편차가 활용될 수 있는데 모델의 예측값과 실제값 사이의 오차를 계산할 때, 평균 제곱 오차(Mean Squared Error)나 평균 절대 오차(Mean Absolute Error)를 계산한 후에 이를 분산이나 표준편차와 함께 사용하여 모델의 예측 정확도를 평가할 수 있다.
5. 확률 분포 모델링 : 확률 분포 모델을 구축하는 데에도 분산과 표준편차가 활용된다. 예를 들어, 가우시안 혼합 모델(Gaussian Mixture Model)을 사용하여 데이터를 클러스터링하거나, 확률적인 예측을 수행하는 등 다양한 알고리즘에서 분산과 표준편차를 활용할 수 있다.
'수학' 카테고리의 다른 글
선형대수 기초 : 선형 변환과 고유값, 고유벡터 (0) | 2023.06.29 |
---|---|
선형대수 기초 : 벡터와 행렬 (0) | 2023.06.28 |
수학 기본 개념 : 미분 (0) | 2023.06.25 |
수학 기본 개념 : 지수함수와 로그함수 (0) | 2023.06.24 |
공분산과 상관계수 (0) | 2023.06.18 |