1장. 빅데이터, 통계학에서부터 시작하라.
1) 통계학적 리터러시
1903년 H. G. 웰스는 읽기, 쓰기 능력과 마찬가지로 통계학적 사고 역시 장차 사회인이 갖춰야 할 기본교양이 될 것이라고 예언했다.
즉, 통계학적 리터러시가 필요할 것이라는 이야기다.
(1) 답을 알려주는 실용적인 학문, 통계학 - 통계학은 어떤 분야에서든 데이터를 모아 분석해 가장 올바르고 빠른 답을 제시해주기 때문
(2) 통계학은 모든 과학적 분석방법의 기본
그럼 그렇게 최강의 학문이면서 더 오래 전부터 사회 곳곳에서 활용되지 못했지만 최근에 각광을 받는 이유는 통계학을 둘러싼 환경 변화에서 찾을 수 있다. 데이터를 관리하고 집계하는 시스템이 열악했지만 IT 산업의 발달로 더 이상 데이터의 가짓수나 계산의 복잡함은 문제가 되지 않으므로 그런 연구는 자취를 감추게 되었다.
2) Microsoft JobsBlog (2010.08.23 기사) 는 앞으로 주목받게 될 전문성으로 다음 세 가지를 들었다.
(1) 데이터 마이닝, 기계학습, 인공지능, 자연언어처리
(2) 비즈니스 인텔리전스, 경쟁분석
(3) 분석, 통계 - 특히 웹 분석, A/B 테스트, 통계해석
- A/B 테스팅은 두 종류의 웹페이지를 놓고 어떤 버전의 웹페이지가 판매 연결률이 더 높은지를 실험해보는 것이다.
구글의 수석 경제학자 할 배리언 Hal Varian 박사는 2009년 1월 매킨지사가 발행한 논문집에서 이렇게 밝혔다.
I keep saying the sexy job in the next ten years will be statisticians.
* 역학의 아버지, 존 스노 John Snow 의 등장 (p.26)
2. 정보이용을 대폭 줄여주는 통계
* (도표) 빅데이터 관련 전문용어 (p.55)
1) 전수조사 Complete enumeration 와 표본조사 Sampling Survey (p.60)
2) 의미있는 오차범위와 비용
정확하게 알기 위해서 반드시 전수조사를 해야 한다는 생각을 가지고 있는 사람이 아직도 많다. 만약 무작위로 뽑힌 전 인구의 0.5%를 조사한 결과 그 100%가 실업자였다고 해도 나머지 99.5%가 실업자가 아니라면 전체 실업률은 0.5% 밖에 되지 않는다.그런데도 왜 표본조사 결과만 놓고 전체가 실업자라는 결론을 내려야 하는가, 하는 점이 '흔히 하는 반론'이다.
전체 실업률이 0.5%이고 전 인구 1억 2천만명의 0.5%인 60만명을 조사한 결과, 전체 인원이 우연히 실업자일 확률은 물론 0이 아니다.
그 확률은 1이라는 수를 64조(200×200×200×200×200×200=64,000,000,000,000) 라는 수로 10만번 이상 나눈 수로 이를 수학에서는 0 으로 수렴한다고 하지 0 이라고 말하지는 않기 때문이다.
그러므로 표본 조사에 관해 '조사가 올바르지 않을 확률'을 걱정할 필요는 지나친 기우이다.
3) 표본을 1만명으로 늘려도 표준오차는 0.1% 밖에 변하지 않는다.
(1) 여기서 말하는 표준오차란 표본에서 얻어진 비율(예를 들어 실업률)에 대해 표준오차의 두 배를 뺀 값에서 표준오차의 두배를 더한 값까지의 범위에 참값이 포함될 신뢰성이 약 95%라는 값을 말한다.즉 표본조사의 실업률이 25%라는 조사 결과가 얻어지고 표준오차가 0.5%라면 전수조사를 통해 얻어지는 참 실업률도 24~26% 사이에 있다고 생각하면 거의 틀림없다는 것이다.
(2) 예시
아래의 수식을 참고하여 엑셀을 통해 시뮬레이션 해봤습니다.
참고로 엑셀에서 루트 함수는 SQRT 를 사용하면 됩니다.
전체인원수 = 10만명
표본인원수 = 여기서 변수 x
참비율 = 70%
표준오차 = 결과값 y
전체인원수 | 100,000 | |||
참비율 | 0.7 | |||
표본인원 | 표준오차 | 범위 | 범위 | |
x | y | 최소값 | 최대값 | |
100 | 0.0458031 | 60.84% | 79.16% | |
1,000 | 0.0144188 | 67.12% | 72.88% | |
2,000 | 0.010144 | 67.97% | 72.03% | |
3,000 | 0.0082402 | 68.35% | 71.65% | |
4,000 | 0.0070993 | 68.58% | 71.42% | |
5,000 | 0.0063167 | 68.74% | 71.26% | |
6,000 | 0.0057359 | 68.85% | 71.15% | |
7,000 | 0.0052821 | 68.94% | 71.06% | |
8,000 | 0.0049143 | 69.02% | 70.98% | |
9,000 | 0.004608 | 69.08% | 70.92% | |
10,000 | 0.0043474 | 69.13% | 70.87% | |
20,000 | 0.0028983 | 69.42% | 70.58% | |
30,000 | 0.0022136 | 69.56% | 70.44% | |
40,000 | 0.0017748 | 69.65% | 70.35% | |
50,000 | 0.0014491 | 69.71% | 70.29% | |
60,000 | 0.0011832 | 69.76% | 70.24% | |
70,000 | 0.0009487 | 69.81% | 70.19% | |
80,000 | 0.0007246 | 69.86% | 70.14% | |
90,000 | 0.000483 | 69.90% | 70.10% |
위 도표에서 보듯이 표본인원을 계속 늘려도 오차는 그다지 작아지지 않는다.
이 결과와 고가의 데이터 서버 처리에 투자하여 얻은 '여성비율은 정확히 70% 입니다'하는 결과와 비교할 때 과연 어디에 돈을 쓰는 것이 올바른 판단일까?
불과 1% 정도의 정확성을 위해 천문학적 비용을 투자할 필요가 있을까?
빅데이터가 무의미하다는 것은 아니다.
'우선은 올바른 판단에 필요한 최소한의 데이터를 다룰 것'을 추천하는 것이다.
|
'반서재 Antilibrary' 카테고리의 다른 글
마크 쉔, 크리스틴 로버그, 「편안함의 배신」- 실현될 때까지 연기하기 (0) | 2014.04.24 |
---|---|
마크 쉔, 크리스틴 로버그, 「편안함의 배신」- 이중성(duality)의 달성 (0) | 2014.04.24 |
니시우치 히로무, 「확률을 높이는 확률」- 지극히 정확한 '대략적 추측' (페르미 추정) (0) | 2014.04.20 |
니시우치 히로무, 「확률을 높이는 확률」- 확률적 사고는 불안과 후회를 줄인다 (0) | 2014.04.20 |
최효찬, 「한국의 메모 달인들」- 감각을 되살리기 위해 쏟는 시간이나 노력은 즉시 기록하는 노력보다 몇 갑절 더 크다. (0) | 2014.04.18 |