아카이브/통계학

[통계학 개요] 통계학이란..

될성부른떡잎 2015. 10. 31. 21:09


[통계학 개요] 통계학이란..


통계학(Statistics)

정의

- 많은 양의 수치 자료를 수집하고, 정리, 요약 및 해석하는 방법을 다루는 과학의 한 분야

- 관심의 대상에 대한 자료를 수집하여, 정리, 요약하고, 이들 자료에 포함된 정보를 토대로 불확실한 사실에 대해 과학적 판단을 내릴 수 있도록 그 방법을 제시해 주는 학문

-  관측 자료를 바탕으로 추론(inference)을 하는 과학의 한 분야로서 불확실성(uncertainty)하에서 보다 합리적인 의사 결정을 하는 방법을 제시해 주는 학문

정의에 공통적으로 자료의 수집, 정리, 해석이 들어가는데, 이 세가지가 통계학의 핵심이라고 볼 수 있다.

통계학은 우리 일상에서도 쉽게 접할 수 있는데, 정당 지지율, 경제성장률, 주가지수, 연간 강수량, 제품의 불량률 등이 모두 통계 수치이다. 이러한 통계 수치는 관찰, 실험, 조사에서 얻어진 자료를 통계적 기법으로 나타낸 값이다. 통계학을 통해 많은 데이터들을 객관적이고 간단하게 판단할 수 있는 것이다.

(통계적 방법은 매우 큰 자료 집단에서 일부를 뽑아 분석하고 전체 집단의 특성에 대해 추론하는 것이다.)

 

대량의 데이터(빅데이터)를 다루는 사람은 반드시 잘 알고 있어야 하는 학문이다.


분류

통계학은 크게 기술통계학(descriptive statistics)추측통계학(inferential statistics)로 나뉜다.

- 기술통계학 : 수집된 자료를 정리 및 요약하는 방법을 다루는 통계학. 자료를 표(도수분표표...)와 그래프(히스토그램, 줄기/잎 그림...)로 나타내고, 대표값(평균, 중간값, 최빈값)과 산포도(분산, 표준편차)로 자료의 전반적인 특성을 표현한다. 세금, 운동 선수의 기록, 성적 등 우리가 보통 접하는 통계는 기술통계학에 속한다.

- 추측통계학 : 주어진 자료의 정보를 분석해서 미래에 일어날 상황을 예측하는 통계학. 통계적 추론을 통해 얻어진 추측이나 결론은 항상 옳은 것이 아니고, 어느 정도의 불확실성을 가지고 있는데 이 불확실성의 정도를 확률로 표현해 사용한다. 따라서 추측통계학은 확률론을 바탕으로 발전되고 있다. 선거 후 출구 조사나 공기 오염도 측정 등에 사용된다.


모집단과 표본

모집단(population) : 관심 있는 특성을 수치로 나타낸 연구 대상. 연구 대상이 같더라도 관심을 가진 특성이 다르면 모집단도 달라질 수 있다.

표본(sample) : 모집단으로 부터 뽑은 부분 집합. 조사 대상을 의미한다.

모수(parameter) : 모집단의 특성을 나타내는 양적인 값으로 고유한 상수로 나타낸다.

통계량(statistics)표본의 특성을 나타내는 양적인 측도.

 image1

통계적 추론(statistical inference)

모집단에서 뽑은 표본을 조사하여 모집단의 특성(미지의 모수형태)을 추측하는 것.

예를 들면, 특정 후보의 지지율은 국민 전체가 아닌 무작위로 선택된 집단에 대해서 조사가 이루어지고, 그 결과를 전체 국민이 생각하는 지지율로 추측하고 사용한다.

 

모수에 대한 추론

추정(estimation) : 미지의 모수의 값이 얼마인지, 또는 어떤 범위내에 있는지 표본결과로 부터 추측하는 것

가설의 검정(test of hypotheses) : 모수의 값의 범위를 규정하는 두개의 가설을 세우고, 이들 중 어느 것이 참인지를 표본의 결과로 부터 판단하는 것

1. 자연, 사회 현상을 관찰하여 이론을 세운다.(가설)

2. 실험, 조사를 통해 실제 현상을 관찰한다. (표본 추출)

3. 실제 관찰 결과가 이론에서 예측되는 것과 부합하는지 판단한다.(가설 검정)

4. 부합되면 1번의 이론을 사실로 판단하고, 아니면 탐구를 반복한다.

 

확률론 vs 통계학

확률적 관점 : 이미 알고 있는 모집단에서 어떤 사건이 일어날 확률에 관심이 있다.

통계적 관점 : 표본에서 얻은 정보를 이용하여 미지의 모집단을 미루어 짐작하는 추론에 관심이 있다.

 

확률적 : 항아리에 검은 구슬(B) 5개, 흰 구슬(W) 5개가 있다. 3개를 뽑을 때 모두 B일 확률은?

통계적 : 항아리에 B와 W를 합쳐서 10개의 구슬이 있다. 3개를 뽑았더니 모두 B였다. 항아리에 B와 W가 반반씩 있었다고 할 수 있는가?

항아리에 실제로 B와 W가 반반씩 있다면 이러한 결과(B만 3개)가 흔히 일어날 수 있는 것인가?

 

를 위해서는 을, 을 위해서는 을 알아야 한다.

추론을 하기 위해서는 먼저 확률을 구해야 한다.

 

정리

주관적이기는 하지만 IT에서 사용되는 통계는 사용자의 성향을 예측하기 위함이라고 생각한다. 사용자들의 데이터를 가지고 현재 상황을 판단하고, 과거와 현재의 상황을 통해 미래를 예측하는게 핵심이라고 생각한다. 쇼핑몰의 물품 추천 서비스, 웹과 SNS 분석을 통한 주식 예측 시스템, 예측을 통한 신제품 출시 등 다양한 분야에서 활발하게 사용되고 있다. 

하지만, 한가지 주의해야 할 점이 있다. 통계는 목적에 따라 다르게 이용될 수 있다. 그릇된 목적을 가지고 통계를 사용한다면, 사실이 왜곡되고 잘못 해석되게 된다. 불특정 다수 집단이 아닌 특정 성질을 가진 집단에서 통계를 적용하거나, 통계의 일정 부분만 가지고 잘못된 해석을 하는 등 많은 위험이 있다. 특히 광고에서 잘못 적용된 통계의 예가 많이 발생한다. 통계를 다루는 사람은 잘 정립된 연구 문제에 올바른 통계 기법을 적용하고 있는지 항상 확인해야 한다.