[Data science/데이터과학] 문제 정의와 데이터 수집 및 준비

2018. 12. 17. 16:32Data Science/Machine&Deep Learning


해당 내용은 CHAPTER 3 - 문제 정의와 데이터 수집 및 준비의 내용을 요약 정리한 것 입니다.

헬로 데이터 과학 / 김진영

CHAPTER 3 - 문제 정의와 데이터 수집 및 준비

이 장에서는 데이터 분석 전까지의 과정을 다룬다.

데이터 문제 정의하기

만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다." _알버트 아인슈타인

데이터 문제 해결 단계

문제 정의 -> 해결책을 유도하는 과정

  1. 주어진 문제를 명확히 정의한다.
  2. 문제 해결에 필요한 데이터를 구한다.
  3. 데이터를 분석에 적합한 형태로 가공한다.
  4. 가공된 데이터를 분석하여 해결책을 유도한다.

  1. 해결책을 여러 가지 방식으로 구현한다.
  2. 관계자에게 결과를 적절한 형태로 소통한다.

데이터 분석 단계

  1. 주어진 데이터를 탐색하여 다양한 패턴을 발견하고 가설을 세우는 단계(탐색적 데이터 분석)
  2. 현상에 대한 가설을 다양한 실험으로 검정해보는 단계(통계적 추론)
  3. 우리가 관심을 갖는 현상을 예측하는 단계(기계학습)
현상에서 패턴 발견 : 탐색적 데이터 분석
  • 주어진 현상을 이해나는 데 초점
  • 데이터 과학의 가장 기본적인 목표: 데이터를 활영하여 주어진 현상에 대한 다양한 패턴을 발견 하는 것. => 탐색적 분석(Exploratory Data Analysis)
  • 데이터를 잘 이해하고 검정하며, 주어진 현상에서 더 탐구할 만한 가치가 있는 가설을 세우는 것.
  • 사례: 인구조사 데이터를 바탕으로 국민들의 삶의 양상 변화
현상에서 인과적인 결론 도출 : 통계적 추론
  • 주어진 현상을 넘어선 인과적인 결론이나 지식을 이끌어낼려고 한다.
  • 주어진 데이터뿐만 아니라 그 이면의 현상까지 설명할 수 있는 결론을 이끌어내려는 것이다.
  • 통제된 환경에서 데이터를 수집해야 한다.
  • 전통적 과학에서는 통제된 실험을 설계하고 수행한다.
  • 예: 온라인 서비스의 품질 개선을 위해 많이 사용 되는 A/B 테스트
현상의 예측 : 기계학습
  • 관찰할 수 있는 현상의 속성(예: 현재 날씨)을 바탕으로 관찰하기 힘든 속성(예: 미래날씨)을 예측 할 수 있다면 더 나은 의사결정을 내릴수 있을 것이다.
  • 예: 스팸메일 필터, 제춤/서비스 추천 기법

사례) 직원 만족도 개선을 위한 데이터 분석

  • 현상황: IT 기업이 높은 이직률로 고민

  • 데이터 수집 > 설문 실시 > 설문결과: 이직률이 높은 부서일수록 직원들의 평균만족도가 낮음. 만족도가 낮은 개발자 대부분은 회사의 오래된 개발 환경 및 프로세스 때문에 생산성이 떨어지고 최신 기술을 습득할 수 없다는 이유를 들었음.
    -> 이렇게 수집된 데이터에서 다양한 패턴을 찾아내는 것이 탐색적 분석

  • 최신 개발 도구 및 방법론을 도입하는 실험 > 실험 대상 팀의 만족도 상승 > 해당 팀과 다른 팀 간의 차이는 통계적으로 유의미한 수준 > 전사 도입 후 관찰 > 문제에 대한 가설(최신 개발 도구 및 방법론을 도입하면 개발팀의 만족도가 올라갈 것이다)을 세우고 검정하기 위한 실험(특정 개발팀을 상대로 방법론을 도입한 후에 다른 팀들과 만족도를 비교)을 설계
    -> 실험 설계를 통해 가설의 진위 여부를 판별하는 것이 통계적 추론의 주된 방법

  • 속성(직원의 이직 여부)을 다른 속성(다양한 직원별 정보)을 사용해 예측하는 모델을 만듬
    -> 예측 분석을 통해 현상을 개선할 수있게 해주는 기법 기계학습