기획   20세기가 21세기에게 20. 통계학

통계학은 다른 학문에서 독자적으로 이뤄지고 있는 데이터 분석과 융합해  광범위한 문제를 유연하게 해결할 수 있는 방법으로 더욱 진화할 것이다. 1903년『타임머신 의 작가 웰스가 말했듯이 앞으로 통계적 사고는 기본교양으로 될 것 같다.통계학은 세상(모집단)은 불확실하고, 우리는 세상 전부를 측정할 수 없다는 두 가지 가정에서 시작된다. 통계학은 불확실한 세상을 확률분포로 표현하고, 세상에서 일부(표본)를 임의로 추출·측정해서 가장 그럴듯하게 세상을 추측·판단하는 학문이다. 이 방법으로 여론조사, 신약개발과 품질혁신 등으로 세상을 변화시켜 왔다. 따라서 캐나다 과학철학자 해킹(I. Hacking)은 “통계학자는 기술을 발견해 세상을 바꾼 것이 아니라, 생각하는 방법, 자기견해를 내세우는 방법을 변화시켜서 세상을 바꾸었다”고 말하고 있다.현대 통계학의 형성과 발전통계학은 20세기 전반기에 학문으로 자리잡은 비교적 젊은 학문이다. 19세기 산업혁명과 정치혁명의 영향으로 대규모 센서스 조사가 실시됐고, 이를 통계로 집계·요약하는 것이 확산됐다. 20세기 초 칼 피어슨(K. Pearson), 피셔(R. A. Fisher)와 네이만(J. Neyman) 등 통계학자들이 19세기에 진행됐던 데이터의 측정·요약과 17세기 이후 연구했던 확률론을 융합하면서 현대적 의미의 통계학이 형성됐다.칼 피어슨은 1901년 최초 이론통계학 학술지 <바이오메트리카(Biometrika)>를 공동 창간했고, 1911년 런던대학에 세계 최초로 통계학과를 만들었다. 그는 평균, 분산, 왜도, 첨도 등 적률로 관측치의 확률분포를 파악했다. 또한 그는 범주의 관측값 수와 이론분포 기대관측수 간의 차이를 바탕으로 한 카이제곱검정을 제안했다. 이 검정은 현대 통계학의 출발점으로 평가받고 있다.그 당시 통계분석에 필요한 데이터 수가 충분하지 않았던 작은 데이터 시대여서 칼 피어슨의 이 방법은 활용성이 낮았다. 1920년대 영국 통계학자 피셔는 이를 극복하는 한 방법으로 확률분포로 불확실한 세상을 모형화하고, 여기서 데이터를 수집한 것을 가정해 통계량을 만들고, 이로부터 가장 그럴듯한 결론을 도출하는 최대가능도추정법을 제안했다. 또한 통계량의 특성으로 충분성, 효율성 등을 도입했다. 아울러 랜덤화 개념과 분산분석을 이용한 실험계획법을 제안했다. 그의 실험계획법은 모든 과학에서 객관적 비교실험을 가능하게 하여 신약개발, A/B 테스트 등이 가능토록 했다. 피셔는 이론통계학과 비교실험방법 등을 정립해서 통계학이 독립적 학문으로 되도록 했다.1930년대 폴란드 통계학자 네이만은 신뢰구간의 개념을 도입하는 한편 현대적 의미의 가설검정을 정립했다. 왈드(A. Wald)는 1950년대 결정이론과 순차분석 방법을 개발했는데 이 시기가 통계학의 수리적 발전의 최전성기였다.1950년대 이후 컴퓨터가 발전하면서 계산의 어려움으로 등장하지 못했던 방법들이 나타났다. 예로는 경험적 베이즈 추론, 리지 회귀, 일반화 선형모형, 회귀트리와 생존모형 등의 방법 등이다. 또한 1979년 붓스트랩, MCMC(Markov Chain Monte Carlo)와 같은 컴퓨터 기반 방법도 등장했다. 한편 1990년대에는 SAS, SPSS, MINITAB, R 등 통계패키지가 확산되면서 일반 사람들도 통계학을 이용해 본격적으로 데이터를 분석하기 시작했다. 통계학은 모집단의 가정과 좋은(임의의) 데이터에 적합한 공정한 통계 방법론을 적용해 가장 그럴듯한 결과를 도출하는 것이다. 이 원리 아래 품질관리(6시그마), 조사방법론 등이 정립됐고 이를 통해 20세기 산업과 사회가 발전했다.2000년대 마이크로어레이 데이터와 같이 변수 수가 관측치보다 많은 와이드(wide) 데이터가 등장하면서 이를 처리할 수 있는 거짓발견율(FDR), 라소(lasso) 등의 방법이 제안됐다. 아울러 인터넷 확산에 따라 거래 데이터와 같은 대규모 데이터가 축적되면서 기업에서 데이터 기반 마케팅이 확산됐고 여러 데이터마이닝 방법이 만들어졌다.새롭게 뜬 베이즈 통계학  20세기 통계학은 추론방식으로 구분해보면 이제까지 설명했던 빈도주의 통계학과 베이즈(Bayes) 통계학으로 구분된다. 빈도주의 통계학에서는 고정된 모수를 무한히 반복되는 표본에 대한 통계량의 분포를 바탕으로 추정한다. 반면 베이즈 통계학에서는 모수는 확률분포(사전확률)를 가진다고 가정하고 데이터와 모수의 사전확률을 결합한 사후확률에 기반해서 추정한다. 베이즈 추론은 베이즈 정리만 적용해 순차적 추론이 가능하며, 인간의 생각·판단과정과 유사하다고 평가받고 있다. 베이즈 추론은 1763년 베이즈(R.T. Bayes)의 논문에서부터 시작된다. 20세기 초에는 피어슨, 피셔, 네이만 등 빈도론자들이 베이즈 통계학을 객관적이지 못하다고 비판했는데, 이에 따라 그 활용성도 낮을 수밖에 없었다. 하지만 1990년 MCMC 등 사후분포를 계산할 수 있는 방법이 발견되면서 베이즈

0좋아요 URL복사 공유
현재 댓글 0
댓글쓰기
0/300

사람과 삶

영상으로 보는 KNOU

  • banner01
  • banner01
  • banner01
  • banner01