[독후감] 데이터 분석의 힘

2018. 11. 11. 14:03BOOK/자기계발

Chapter 1. 정말 광고가 아이스크림 매출을 올렸을까?: 데이터의 상관관계는 인과관계가 아니다


광고를 했더니 아이스크림 매출이 올랐다?

전기 요금이 올라서 절전이 늘었다?

해외 유학을 다녀오면 취직하기 쉬워진다?


인과관계를 입증하기 어려운 이유 1:

다른 요인이 영향을 미쳤을 가능성이 있다.


인과관계를 입증하기 어려운 이유 2:

인과관계가 반대일 가능성이 있다


- 인과관계는 상관관계와 다르다

 > X와 Y의 상관관계가 밝혀져도 그것만으로는 인과관계가 있다고 말할 수 없다는 점이다.


- 엉터리 데이터 분석이 넘쳐난다.


- 왜 인과관계를 오인하면 문제가 될까?

 > 비즈니스 현장이든 정책 결정 과정이든 의사 결정의 열쇠가 되는 것은 인과관계이지 상관관계가 아니다.


- 불을 켜놓은 채 아이를 재우면 근시가 된다?


- 잠복변수(lurking variable) V를 모두 찾을 수 있을까?


- 문제는 데이터 수가 아니라 '편향'이다

 > 데이터 관측수가 아무리 늘어나도 편향 문제는 해결되지 않는다는 사실이 수학적으로 증명되었다.

 

Chapter 2. 오바마 캠프는 어떻게 후원금을 '더' 모았을까?: 최선의 데이터 분석법, RCT(무작위비교시행)


- 인과관계는 어떻게 정의할까?

> 인과관계에 의한 효과를 지칭하는 '개입효과'


- '만약' 이라는 데이터는 존재하지 않는다


- 해결책은 개입집단과 비교집단이라는 사고방식


- 집단 나누기의 나쁜 예: 희망에 따라 개입하다


- 가장 좋은 해결법은 무작위비교시행(RCT)

 > 핵심은 소비자를 집단으로 나눌 떄는 반드시 무작위로 해야 한다는 것이다.


- 왜 무작위로 집단을 나누는 것이 중요할까?

> 무작위로 집단을 나누면 개입집단과 비교집단이 동질적인 집단이 되고 에어컨 대수나 소득 등의 요인이 동등해진다'는 점도 실제 데이터로 보여줄 것이다.


사례 1 | 기타큐슈시에서 실시한 전력 가격 현장 실험

실험결과 | 전력 가격을 올리면 절전으로 이어질까?


- RCT의 이점은 분석과 결과의 투명성


사례 2 | 오바마 전 대통령의 대선 마케팅 전략


원칙 1 | 적절하게 집단을 나눈다

원칙 2 | 집단은 반드시 무작위로 나눈다

원칙 3 | 집단별로 충분한 표본수를 채운다


- 오바마 선거 캠프의 실험 결과


사례 3 | 전력 소비를 줄일 수 있는 가장 효과적인 정책은?


- 문제는 정책 효과의 지속성


- 어떻게 집단을 무작위로 나눌 수 있을까?


- RCT의 강점과 약점


Summary

- 인과관계를 밝히는 가장 좋은 방법은 RCT(무작위비교시행)다.

- 개입집단과 비교집단을 나누는 것이 중요하다.

- RCT의 원친: 

 1. 인과관계를 밝히기 위해 적절하게 집단을 만든다. 반드시 비교집단을 만들어야 한다.

 2. 집단은 반드시 무작위로 나눈다.

 3. 각 집단에 충분한 표본수를 배정한다.

- RCT의 강점:

 1. 인관관계를 과학적으로 보여준다.

 2. 분석 기법과 결과가 투명하다.

- RCT의 약점: 비용, 시간, 노력이 많이 들고 각 기관의 협력도 필요하다. 그밖에 RCT의 한계와 그에 따르는 주의점 등은 7장에서 설명


Chapter 3. 70세가 되자 병원을 많이 가기 시작했다: 급격한 변화의 '경계선'을 찾는 RD디자인


- RCT를 실시할 수 없을 때, 자연실험


- 일본의 의료비 사례를 통해 알아보는 RD디자인


- 의료비의 본인 부담금이 바뀌는 '경계선'에 착안하다


- RD디자인에 필요한 가정

- 의료비 본인부담금 분석에서 가정은 성립할까?

- RD디자인의 가정이 무너지는 때

- 경계선 부근에서 RCT와 비슷해진다

- RD디자인의 강점과 약점

- 지리적 경계선을 이용한 RD디자인


Summary

 - RCT(무작위비교시행)를 실시할 수 없을 떄는 자연실험을 호라용할 수 있다.

 - 자연실험이란 실제 실험과 유사한 상황을 이용해 인과관계를 분석하는 기법이다.

 - RD디자인은 온갖 경계선을 활용하여 인과관계에 다가서는 자연실험 기법이다.

 - RD디자인의 원칙:

 1. 경계선을 기준으로 한 가지 요인(x)만 비연속적으로 변화하는 상황을 찾아낸다.

 2. 경계선 부근에서 x이외의 요인이 비연속적으로 변화하지 않는지 검증한다.

 - RD디자인의 강점:

 1. 가정이 성립하면 경계선 부근에서 RCT와 유사한 상황을 이용할 수 있다.

 2. 주요 결과를 그래프로 나타냄으로써 이해하기 쉬운 투명한 분석이 가능하다.

 3. 다양한 상황과 장소에 걸쳐 경계선이 존재하므로 RCT를 대체하는 효과적인 분석 기법이다.

 - RD디자인의 약점:

 1. RD디자인의 가정이 성립할 것이라는 근거를 제시할 수는 있지만 실제로 성립한다는 것을 입증할 수는 없다. 이는 RCT와 비교했을 때 큰 약점이다.

 2. RCT는 실험 참가자 전체에 대한 인과관계를 보여주는 반면 RD디자인은 경계선 부근의 데이터에 대한 인과관계만 보여준다.


Chapter 4. 규제 때문에 자동차가 무거워졌다고? : 계산식 변화가 있는 곳엔 집군분석

- 자동차에 대한 연비 규제는 차가 클수록 완화된다.

 > 집합군 사이의 관계를 통해 인과관계를 밝혀내는 것이 바로 '집군 분석'이다. 

- 계단식 인센티브를 부여하는 연비 정책

- 집군분석과 RD디자인의 차이

- 집군분석에 필요한 가정

- 분석결과 | 연비 규제가 자동차 무게를 늘렸다!

- 집군분석의 강점과 약점

- 소득세의 세율이 노동 방식에 영향을 미칠까?


Summary 

- 집군분석은 계단식 변화를 이용하여 인과관계를 밝혀낸다.

- 집군분석의 원칙 : 

 1. 계단식 인센티브를 분석에 이용할 수 있는지 확인한다.

 2. 분석하고 싶은 변수(x)만 계단식으로 변한다. 다른 변수는 계단의 경계점 부근에서 비연속적으로 변화하지 않는다.

 3. 인센티브가 크게 바뀌는 경계선에서의 데이터 집적을 분석함으로써 개인이나 기업이 인센티브의 변화에 어떻게 반응했는지 인과관계를 검증한다.

- 집군분석의 강점:

 1. 분석에 필요한 가정이 성립하면 경계선 부근에서 마치 RCT가 실시된 듯한 상황을 이용할 수 있다.

 2. 결과를 그래프로 보여줌으로써 투명한 분석이 가능하다.

 3. 계단식으로 인센티브가 변화하는 상황은 다양한다. RCT가 불가능할 경유 유용한 분석 기법이다.

- 집군분석의 약점:

1. 분석에 필요한 가정이 설립할 것이라는 근거를 제시할 수는 있지만 입증할 수는 없다. RCT에 비해 큰 약점이다.

2. 계단식 인센티브에 반응한 대상(집적한 대상)에 대해서만 인과관계를 분석할 수 있다. 그 때문에 실험 참가자 전체에 대한 인과관계를 분석할 수 있는 RCT에 비해 유용성이 떨어질 떄도 있다.


Chapter 5. 세금을 내리면 이민자가 늘어날까 : 시간의 흐름에 따른 패널 데이터 분석

- 소득세의 차이가 이민에 영향을 미칠까?

- 덴마크의 개인 납세 데이터를 이용한 연구

- 패널 데이터 분석의 사고방식

- 패널 데이터 분석에 필요한 평행 트렌드 가정

- 데이터 분석자가 제공할 수 있는 정보

- 평행 트렌드 가정은 어떤 때 무너질까?

- 패널 데이터 분석의 강점과 약점

- 보조금 지급을 통한 경기 부양책은 효과가 있었을까?


Summary 

- 패널 데이터 분석을 이용하려면 복수의 집단에 대해 복수의 기간에 걸쳐 데이터를 수집할 수 있어야 한다.

- 패널 데이터 분석의 원칙 : 

1. 개입을 전후해서 비교집단 양쪽의 데이터를 입수 할 수 있는지 확인한다.

2. 평행 트렌드 가정이 성립하는지 검증한다.

3. 평행 트렌드 가정이 성립할 가능성이 높다면 두 집단의 평균값 추이를 그래프로 그림으로써 개입 효과의 평균값을 측정한다.

- 패널 데이터 분석의 강점 : 

1. 필요한 데이터만 확보된다면 RD디자인이나 집군분석 이상으로 광범위하게 이용할 수 있다.

2. 결과를 그래프로 보여줄 수 있어 쉽고 투명한 분석이 가능한다.

3. 개입집단 전체에 대한 개입 효과를 분석할 수 있다. 분석 대상이 제한된 RD디자인이나 집군분석에 비해 강점이다.

- 패널 데이터 분석의 약점 : 

1. 분석에 필요한 가정이 성립할 것이라는 근거를 제시 할 수는 있지만 입증 할 수 는 없다. 이는 RCT와 비교했을 떄 큰 약점이다.

2. RD디자인이나 집군분석에 필요한 가정에 비해 평행 트렌드 가정은 매우 까다로운 가정이며 실제로는 성립하지 않은 경우도 많다.


Chapter 6. 구글은 41가지의 파란색을 고민했다 : 데이터는 어떻게 전략이 되는가

- 구글이 고른 최고의 파란색은?

- 미국 연방정부가 추진한 '근거 기반 정책 수립'

- 데이터 분석의 성공 요건 1: 데이터 분석 전문가와 협력 관계를 구축한다

- 데이터 분석의 성공요건 2: 데이터에 접근할 수 잇ㅋ는 길을 연다

- 기업과의 협력 사례 1 : 캘리포니아대학, 스탠퍼드대학과 대형 슈퍼마켓의 협력

- 기업과의 협력 사례 2 : 캘리포니아대학과 전력회사의 협력

- 기업과의 협력 사례 3 : 시카고대학과 우버의 협력

- 정부와의 협력 사례 1 : 시카고대학과 시카고시의 협력

- 정부와의 협력 사례 2 : 일본 자원에너지청이 주도한 사회 시스템 실증 실험


Summary

- 미국을 비롯한 서구에서는 RCT 등을 이용한 인과관계 분석이 기업이나 정부의 의사 결정에 널리 활용되고 있다.

- 성공의 첫 번재 조건은 기업/정부와 데이터 분석 전문가의 협력 관계다.

- 성공의 두 번째 조건은 데이터 분석자가 데이터에 접근할 길을 넓히는 것이다.

- 이 장에서는 미국의 사례를 중심으로 데이터 분석 전문가와 기업의 협력 관계, 데이터 분석 전문가와 정부기관의 협력 관계를 보여주는 구체적인 사례들을 소개했다.


Chapter 7. 그럼에도 데이터 분석은 불완전하다 : 불량 분석을 피하기 위한 방법

- 데이터 자체에 문제가 있다면 모든 게 무용지물

- 분석 결과의 외적 타당성이라는 문제

- 출판 편향과 협력 관계 편향이라는 문제

- 개입에 파급효과가 존재할 떄의 주의점

- 일반 균형적 효과가 존재할 떄의 주의점


Summary

- 어떤 데이터 분석 방법이든 불완전성과 한계가 있음을 인식해야 한다.

- 데이터 분석 결과가 분석 대상 외에도 적용 가능한가라는 외적 타당성 문제는 ㅐㅁ우 중요하다. 상황에 따라 외적 타당성과 내적 타당성 모두 고려하여 어떤 분석 방법을 쓸지 결정해야 한다.

- 데이터 분석 결과에는 출판 평향이나 협력 관계 편향이라는 문제가 있기 때문에 데이터 분석자나 관련자의 뜻에 맞는 않는 결과는 세상에 나오기 어렵다.

- 개입지단에 대한 개입이 비교집단에도 파급효과를 미칠 떄는 주의가 필요하다

- 개입이 일반 균형적인 효과를 가져올 경우 소규모 실험의 결과와 대규모 정책의 결과가 다를 수 있으므로 RCT나 자연실험의 성과를 대규모 개입에 활용할 때는 주의해야 한다




























'BOOK > 자기계발' 카테고리의 다른 글

[독후감] 데이터 분석의 힘  (0) 2018.11.11
[요약] 타이탄의 도구들  (0) 2018.09.19
[독후감] 왜 일하는가  (0) 2018.05.09
[서평] 멈추지마 다시 꿈부터 써봐  (0) 2014.04.02
1 2 3 4