티스토리 뷰

반응형

통계데이터의 변수의 종류는 아래의 사진처럼 크게 질적변수와 양적변수로 나뉩니다. 이론을 위한 이론이 아니며 변수의 종류에 따라 사용하는 그래프, 분석 방법 등이 크게 달라지므로 반드시 정확하게 구분하도록 개념을 잘 숙지하고 있어야 합니다.  

 

통계데이터의 변수와 종류

1. 질적 변수(qualitative variable)

질적변수는 연구대상을 특징에 따라 범주로 구분하여 측정한 변수로 범주형 변수라고도 합니다. 명목형(nominal) 변수는 이름이 의미가 있는 변수입니다. 변수의 크기나 순서에 대하여는 아무런 의미를 갖지 않습니다. 성별이나 거주지, 종교가 명목형 변수입니다. 순서형(ordinal) 변수는 변수에 어떤 기준에 따라 순서상의 의미를 부여할 수 있는 변수입니다. 수능이나 내신의 등급을 1등급, 2등급,..., 9등급으로 나누는 것이 순서형 변수입니다. 여기서 1등급과 2등급은 순서상의 의미만 가질 뿐, 숫자 사이의 덧셈, 뺄셈 등의 연산은 어떠한 의미도 갖지 않습니다. 

 

2. 양적 변수(quantitative variable)

양적변수는 키, 몸무게, 길이, 넓이와 같이 양적인 수치로 측정되는 변수로 질적 변수와 다르게 덧셈, 뺄셈 등의 연산이 가능한 변수입니다. 이산형(discrete) 변수는 변수가 가지는 값을 각각 하나씩 셀 수 있는 경우이며 연속형(continuous) 변수는 변수가 구간 안의 모든 값을 가질 수 있는 경우를 말합니다. 자녀가 몇 명인지는 셀 수 있으므로 이산형 변수입니다. 키나 몸무게는 160cm, 160.01111cm 등 구간 내에 무수히 많은 값을 가질 수 있으므로 연속형 변수입니다.  

 

3. 질적 데이터 그래프 표현

원그래프와 막대그래프
원그래프와 막대그래프

질적 데이터를 표현하는 대표적인 방법으로는 원그래프와 막대그래프를 사용하는 것이 있습니다. 원그래프(pie chart)는 전체를 구성하는 요소들의 구성비를 나타낼 때 유용합니다. 대체적으로 어느 정도의 비중을 차지하고 있는지 구성의 분포를 한 눈에 볼 수 있습니다. 그러나 만일 3D로 표현하는 경우 원근법에 의해 같은 비중이라도 달리 보일 수 있으므로 정확한 통계 표현에 유의해야 합니다. 막대그래프(bold bar grahps)는 각 범주에 속한 비율을 막대로 나타낸 것입니다. 비율이 높으면 막대의 길이가 길어집니다. 이 때 막대의 넓이는 어떠한 의미도 나타내지 않습니다.

 

4. 양적 데이터 그래프 표현

히스토그램, 줄기잎그림, 점도표, 시계열그래프
히스토그램, 줄기-잎그림, 점도표, 시계열그래프

양적데이터를 표현하는 그래프로는 히스토그램, 줄기-잎그림, 점도표, 시계열그래프 등이 있습니다. 

히스토그램(histogram)은 값이 존재하는 구간을 나누고 구간에 속하는 값의 출현 도수에 비례하는 면적을 가진 직사각형을 나열하여 작성하는 그래프입니다. 양적 데이터의 분포를 알아보기 위해 일반적으로 많이 사용하는 방법입니다. 질적데이터를 표현할 때 사용하는 막대그래프와는 다음과 같은 차이가 있습니다. 히스토그램은 연속으로 나타나는 데이터를 표현하므로 직사각형이 이어져있는 모양을 하고 있습니다. 또, 히스토그램은 숫자로 나타나므로 직사각형이 나타내는 이름을 확인하여 구성요소라면 막대그래프, 숫자형 구간이라면 히스토그램으로 구분할 수 있습니다.  

줄기-잎그림(stem-and-leaf plot)은 데이터 수가 많지 않을 때 데이터의 분포를 쉽게 나타낼 수 있는 방법입니다. 줄기별로 잎의 수가 몇 개가 나오는지 한 눈에 비교해볼 수 있으며, 동시에 원래의 데이터를 그대로 보여준다는 장점이 있습니다. 예를 들어, 특정 집단 구성원 연령 분포를 알고자 하는 경우 유용하게 사용할 수 있을 것입니다. 

점도표(dot plot)는 데이터 값 하나하나를 점으로 표현한 그래프입니다. 요소별로 점도표를 그려 변수 사이에 어떠한 관련이나 흐름이 있는지 살펴볼 수 있는 장점이 있습니다. 시계열그래프(time series plot)는 가로축에 시간이나 데이터를 수집한 순서를 요소로 두어 시간의 변화에 따른 경향을 파악하기에 용이하도록 만든 그래프입니다. 예를 들어, 오랜 기간 조사한 데이터에 대해 시계열 그래프를 그려보는 경우, 계절에 따라 일정하게 반복되는 패턴을 찾는 경우에 활용할 수 있습니다. 

그래프로 자료를 표현하면 자료의 전체적인 모양을 확인할 수 있습니다. 자료가 어떠한 분포를 하고 있는지, 변수 간 어떠한 관계가 있는 것으로 예상되는지, 시간의 흐름에 따라 어떠한 경향을 보이고 있는지, 특이하게 동떨어져있거나 뭉쳐있는 지점이 있지는 않은지 등, 원자료 자체로만으로는 한눈에 들어오지 않던 것이 그래프로 그려봄으로써 직관적으로 보이기도 합니다. 그래서 자료의 종류를 정확하게 이해하고 그에 따른 효과적인 시각화 방법을 선택하는 것은 데이터 분석과 표현의 기초라고 생각합니다.  

반응형