티스토리 뷰
1. 데이터의 중심위치 측정
데이터의 중심위치를 측정하는 척도를 대표하는 값들로 평균, 중앙값, 최빈값이 있습니다. 평균(mean)은 중심위치를 측정하는 여러가지 방법 중에서 우리가 흔히 사용되는 값으로 모든 데이터의 총 합을 표본의 크기로 나누어 구합니다. 평균은기하학적으로는 무게중심을 나타냅니다. 평균그래프를 그렸을 때 가운데를 중심으로 좌우대칭의 모양이 나타나는 경우 평균은 분포의 중심점입니다. 만일 이보다 오른쪽에 위치한 데이터가 큰 값으로 나타난다면 평균점도 오른쪽으로 이동할 것입니다. 평균은 이렇게 특이점에 대해 민감하게 반응한다는 특징이 있습니다. 또, 평균은 오로지 하나의 값으로 나타나는 유일성을 가집니다. 중앙값(median)은 데이터를 크기순으로 작은 것부터 큰 것 순서로 나열할 때 가장 가운데 오는 값을 말합니다. 데이터의 총 수가 홀수이면 가운데 데이터값을, 데이터의 수가 짝수이면 중앙에 위치하는 2개의 데이터의 평균값이 중앙값이 됩니다. 중앙값은 크기 순으로 나열한 것이기때문에 평균과 다르게 특이점의 영향을 덜 받습니다. 그렇기때문에, 유독 특이점이 많이 포함되어있는 데이터의 경우 중심위치를 나타내고자 할 때 평균대신 중앙값을 사용하는 것이 보다 적합할 것입니다. 최빈값(mode)은 데이터의 값 중 가장 빈도가 많은 관찰값을 말합니다. 앞서 살펴본 평균이나 중앙값은 양적데이터에서 자주 사용합니다. 반면에 최빈값은 범주로 구분되는 질적데이터에서 대표값을 찾고자 할 때 유용하게 사용됩니다. 추가로, 빅데이터분석기사 필기시험 등 통계관련 시험에서 평균과 중앙값 최빈값의 위치를 그래프에서 찾는 문제가 자주 출제되고 있으니 아래 그림을 참고하면 도움이 되겠습니다. 좌우대칭형인 경우 평균과 중앙값, 최빈값은 모두 같습니다. 오른쪽으로 긴 꼬리 모양을 갖는 그래프의 경우 그래프의 가장 높은 부분이 최빈값이며, 가운데에 중앙값, 그리고 그 오른쪽에 평균이 위치합니다.
2. 데이터의 퍼짐 정도 측정
데이터의 중심위치만으로는 데이터 분포의 특징을 표현할 수 없다. 두 데이터군이 중심위치가 같더라도 개별 데이터가 이루는 분포의 모양은 아주 다양하게 나타날 수 있습니다. 그러므로 데이터의 중심위치와 더불어 범위나 사분위수범위, 표준편차 등으로 데이터가 얼마나 조밀하게 혹은 넓게 위치해있는지 데이터의 퍼짐 정도를 알아본다면 보다 정확하게 데이터의 특징을 나타내었다고 할 수 있습니다. 범위(range)란 데이터의 최댓값에서 최솟값을 뺀 것으로 가장 간단하게 데이터의 퍼짐 정도를 측정할 수 있는 방법이다. 그러나 만일 양 극단의 값이 특이점이라면 범위가 지나치게 넓어져 데이터의 특성을 제대로 표현하지 못하는 단점이 있습니다. 사분위수범위(interquartile range)는 전체 데이터를 순서대로 정리하여 4등분하여 1사분위수, 2사분위수, 3사분위수, 4사분위수를 구하는데, 이 때 3사분위수에서 1사분위수를 뺀 값이 사분위수범위가 됩니다. 범위와 다르게 사분위수범위는 양극단의 값의 영향을 덜 받게 됩니다. 다섯수치요약(five-number summary)이란 제1사분위수, 2사분위수(중앙값), 3사분위수와 최대값, 최솟값을 말합니다. 중앙값은 중심위치에 대한 측도이고 나머지 네 가지는 데이터의 퍼짐 정도를 나타냅니다. 이 다섯수치요약을 바탕으로 아래와 같이 상자그림(boxplot)을 그릴 수 있습니다.
분산(variance)과 표준편차(standard deviation)는 데이터가 평균을 중심으로 얼마나 퍼져있는지를 나타내는 통계량입니다. 표준편차를 구하려면 먼저 분산을 구해야합니다. 분산은 관찰값과 평균의 차이를 제곱한 값을 합한 후 총 데이터의 개수로 나누어 구합니다. 표준편차는 분산의 양의제곱근을 구하면 됩니다. 만일 두 개 이상의 데이터의 퍼짐 정도를 비교하기 위해 두 데이터의 표준편차만을 이용하여 비교한다면 측정단위가 서로 다를 경우 비교에 의미가 없어집니다. 이 때 사용하는 것이 변이계수(coefficient of variation)로 표준편차를 평균으로 나누어 구합니다. 변이계수가 작을 수록 평균에 더 밀집하여 분포하고 있음을, 변이계수가 클 수록 편차가 크다는 것을 뜻합니다.
'인공지능, 컴퓨터' 카테고리의 다른 글
Chat GPT와 GPT-4의 출시 그리고 튜링테스트를 알아봅시다 (0) | 2023.07.12 |
---|---|
빅데이터 분석기사 실기시험 응시 유의사항 (0) | 2023.07.12 |
통계 데이터의 변수와 종류를 알아봅시다 (0) | 2023.07.11 |
chat GPT의 거짓말, Hallucination 현상은 무엇일까요 (0) | 2023.07.11 |
통계학개론 기초 용어를 알아봅시다 (0) | 2023.07.11 |