티스토리 뷰

반응형

통계학적 지식은 빅데이터 분석기사 시험에서 생각보다 많은 비중을 차지하고 있습니다. 빅데이터의 역사 속에 통계학이 있으며, 도메인지식, 통계학적 분석능력, 수학과 컴퓨터공학능력이 아우러져 빅데이터를 이루기 때문이기도 합니다. 

어떤 과목이든 용어의 정의에 대하여 확실히 점령하고 공부를 시작한다면 학습의 효율이 훨씬 좋을 것이라고 생각합니다.  

통계학은 알고자 하는 대상에 관한 데이터를 수집하고, 요약하며, 이 데이터를 활용하여 어떠한 결과 혹은 규칙을 보여주는 학문입니다. 통개학개론 기초 용어부터 하나씩 공부해 봅시다! 

 

 

1.  모집단(population)

모집단은 연구대상이 되는 관심 대상 전체를 말합니다. 대통령이 당선된 지 일 년이 지났거나, 새 해가 밝는 등 특정 시점이 되면 여론조사기관에서 대통령 지지율을 조사하여 발표하는 것을 볼 수 있습니다. 이때 조사 대상이 되는 '전국 만 18세 이상 남녀'가 모집단입니다. 만일 우리나라 대통령에 대한 지지율을 조사하는데 모집단을 '전 세계 만 18세 이상 남녀'로 설정한다면 우리나라 사람들이 생각하는 우리나라의 대통령의 지지율이 어떻게 되는지 정확한 측정이 어려울 것입니다. 그러므로 관심 대상인 모집단의 범위를 명확히 설정하여야 합니다. 

 

2. 표본(sample)

모집단이 관심 대상 전체를 말한다면, 표본은 실제로 조사되는 모집단의 일부를 말합니다. 실제로 '전국 만 18세 이상 남녀'에게 찾아가 각각의 의견을 묻는 것은 매우 어려우며 비효율적입니다. 그렇기때문에 모집단 중에서 모집단을 가장 잘 나타낼 수 있는 대표들을 뽑아 조사하는데, 이들을 표본이라고 합니다.

모집단 전체를 조사하는 것을 전수조사, 표본을 뽑아 조사하는 것을 표본조사라고 합니다. 보통, 전수조사를 수행할 시간이 부족한 경우, 경제적인 여건으로 불가능한 경우, 전수조사를 하는 경우 오히려 오차가 더 커져 정확도가 떨어질 것으로 예상되는 경우 등에 표본조사를 진행합니다. 

표본조사는 모집단의 일부를 가지고 조사를 하기 때문에 표본을 잘 뽑는 것이 매우 중요한 작업입니다. 다양한 추출법이 있는데 대표적인 것이 임의추출법(random sampling)입니다. 임의추출법은 모집단에 속한 모든 요소가 각각 표본으로 뽑힐 확률이 모두 같은 상황에서 표본을 추출하는 방법입니다. 100명의 직원들의 명함을 상자 속에 넣고 골고루 섞은 후 무작위로 5명을 뽑는 경우와 같은 방법입니다. 

 

3. 모수(parameter)

모수란 모집단의 특성을 나타내는 수치값을 말합니다. 예를 들어, 우리나라 고등학교 3학년의 평균 몸무게, 가구당 평균 가족구성원 수 등이 모수입니다. 모수는 고정된 값으로, 정해진 상수입니다. 모집단이 바뀌지 않는 한 변화하지 않는 값입니다. '전국의 만 18세 이상 남녀'의 의견의 평균값처럼 말입니다. 그러나 현실적으로 전수조사하기 매우 어렵기 때문에 대부분 모수를 직접 구할 수 없습니다. 그래서 표본 관찰하여 얻은 값으로 모수를 추정합니다. 만일, 표본을 새로 뽑는 다면 표본으로부터 얻는 값은 새로 뽑을 때마다 변하기 때문에 이에 유념해야 합니다. 

 

4. 통계량(statistic)

통계량은 표본을 관찰하여 얻은 수치 특성값입니다. 우리가 평균이 어느정도 된다는 식의 이야기를 할 때의 평균이 바로 통계량 중 하나입니다. 데이터의 중심 위치에 대한 정보를 주는 평균, 중간값, 최빈값과 데이터가 얼마나 퍼져있는지 산포 정도를 알려주는 분산, 데이터 분포의 비대칭정도를 나타내는 왜도와 분포의 봉우리가 얼마나 뾰족한지 나타내는 첨도 모두 통계량입니다. 자료를 작은 값부터 큰 값 순서대로 정렬하여 100개 분위로 나누어 백분위수로 나타내기도 하며, 25% 지점을 1 사분위수, 50% 지점을 2 사분위수 혹은 중앙값, 75% 지점을 3 사분위수라고 사분위수로 표현하기도 합니다. 다음 글에서는 변수의 종류와 변수를 표현하는 그래프에 대하여 알아보고자 합니다.

 

반응형