우리는 늘 분산이 작으면 안정적이야 이렇게 말한다...
대체 왜 그럴까? 이런 의문을 가지고 검색을 해봤다.
늘상 쓰이는 거지만, 왜일까?란 의문을 계속 제시해야 한다.. 명심하자...
먼저 평균은 그 데이터가 가리키는 값이라 할 수 있다. 내가 90점을 받았는데, 평균이 얼마지? 라고 생각해본적이 다들 있다. 그 데이터의 평균이 50점이라고 하면 시험을 본 대부분이 50점 근처라고 생각할 것이다. 이처럼 평균은 그 데이터를 대표하는 값으로 표현이 가능하다.
평균을 알았고 아 내가 남들보다 엄청 잘봤네~ 이런 생각이 들면서 이제 다음으로 생각할 것이다. 그럼 내가 몇 등급이지?? 1등급? 2등급?
이 때 나오는 것이 표준편차, 분산이다.
분산의 사전적 의미는 '그 확률변수가 기댓값(평균)으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.'
편차의 제곱의 평균 = 분산
여기서 편차는 값-평균인데, 이 편차를 살펴보자면 값과 평균이 거의 근접해야지 편차가 작다. 평균과 값의 차이가 크면 편차는 커진다.
이렇게 나온 편차들의 평균이 분산이므로 편차들의 크기가 작으면 분산이 작아진단 소리이다.
즉 나처럼 90점을 받은 애들이 많으면 = 분산이 높다는 소리이다! 왜? 편차들의 평균을 구하는 거니깐! (난 편차가 크잖아, 근데 다른애들도 편차가 커!...그러면 분산이 높지...이러면 90점 받은 애들이 많으니깐 당연히 1등급을 받을 확률도 낮아지겠지...)
이러면 당연히 평균의 의미는 옅여지게 된다. 한마디로 분산이 높으면 데이터를 대표하는 값의 의미가 옅여진다는 소리이다.
그러데 여기서 또 의문이 생긴다. 왜 제곱을 해주느냐? 편차의 평균을 구하면 되지 않냐?
여기서 제곱을 하지 않고 편차(값-평균)를 구하면 +,-값들이 나온다. 그럼 이들이 다 더해지면서 상쇄되어 분산이란 의미가 사라지게 된다.
예를 들자.
값 10, 80, 60이 있다.
평균은 50이다.(10+80+60/3)
편차는 -40, 30, 10이다. (10-50, 80-50, 60-50)
여기서 제곱을 안하고 분산을 구하면 0이다. 분산이 0이라니... 이러면 모든 값들이 평균과 같은 값, 즉 50,50,50 이란 소리인데... 이처럼 말이 안되는 값이 나온다.
그렇게 사람들이 말이 안되는 값이 나오는 것을 방지하기 위해, 제곱을 씌여줬다.
그런데 또 문제점이 발생했다.
제곱을 취해줬더니... 1보다 낮은 편차는 더 작게 나오고 1보다 큰 편차는 증폭된다.
0.5인 편차는 0.25가 되고 1.5는 2.25가 된다. 이러면 전체적인 편차를 나타내기에는 실제 편차들보다 값이 더 왜곡되었다. 가까운 값은 더 가까이로, 멀리있는 값은 더 멀리보이게 하는 왜곡이 있기 때문에 제곱의 반대인 루트를 씌여준다.
이러면 왜곡을 최소화시켜주는 것이 되고 이것은 편차들의 대표값. 즉 표준편차가 되는 것이다.
이렇게 일상적으로 쓰이는 것들의 왜?를 이해해봤다ㅎㅎ
https://gridamath.tistory.com/39
이분의 포스트를 보고 복습하는 형식으로 글을 써봤다.
이분의 수학적 깊이가 남다르다.
'ML > ML-수학, 확률과 통계' 카테고리의 다른 글
회귀와 분류 (0) | 2022.01.14 |
---|---|
정규화(Normalization)와 표준화(Standardization)를 하는 이유 (0) | 2022.01.05 |
확률분포(Probability Disstributions)- 이산확률분표(이항분포만) (0) | 2021.06.07 |
선형대수(Linear algebra)-행렬, 행렬의 곱, 성질(2) (0) | 2021.06.03 |
선형대수(Linear algebra)-행렬, 행렬의 곱, 성질(1) (0) | 2021.06.03 |
댓글