일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 머신러닝
- JavaScript
- 도커
- 오라클
- node.js
- 유럽여행
- Python
- 영어
- Java
- SAP ABAP
- SAP
- 딥러닝
- nodejs
- Oracle DB
- 비지니스영어
- Programming
- db
- docker
- Spring Framework
- oracle
- 자바
- ABAP
- 자바스크립트
- sap mm
- IT
- 파이썬
- 노드
- SAP ERP
- Mac
- 오라클 디비
Archives
- Today
- Total
JIHYUN JEONG
[Data science/데이터과학] 문제 정의와 데이터 수집 및 준비 본문
Data Science/Machine&Deep Learning
[Data science/데이터과학] 문제 정의와 데이터 수집 및 준비
StopHyun 2018. 12. 17. 16:32해당 내용은 CHAPTER 3 - 문제 정의와 데이터 수집 및 준비의 내용을 요약 정리한 것 입니다.
헬로 데이터 과학 / 김진영
CHAPTER 3 - 문제 정의와 데이터 수집 및 준비
이 장에서는 데이터 분석 전까지의 과정을 다룬다.
데이터 문제 정의하기
만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다." _알버트 아인슈타인
데이터 문제 해결 단계
문제 정의 -> 해결책을 유도하는 과정
- 주어진 문제를 명확히 정의한다.
- 문제 해결에 필요한 데이터를 구한다.
- 데이터를 분석에 적합한 형태로 가공한다.
- 가공된 데이터를 분석하여 해결책을 유도한다.
- 해결책을 여러 가지 방식으로 구현한다.
- 관계자에게 결과를 적절한 형태로 소통한다.
데이터 분석 단계
- 주어진 데이터를 탐색하여 다양한 패턴을 발견하고 가설을 세우는 단계(탐색적 데이터 분석)
- 현상에 대한 가설을 다양한 실험으로 검정해보는 단계(통계적 추론)
- 우리가 관심을 갖는 현상을 예측하는 단계(기계학습)
현상에서 패턴 발견 : 탐색적 데이터 분석
- 주어진 현상을 이해나는 데 초점
- 데이터 과학의 가장 기본적인 목표: 데이터를 활영하여 주어진 현상에 대한 다양한 패턴을 발견 하는 것. => 탐색적 분석(Exploratory Data Analysis)
- 데이터를 잘 이해하고 검정하며, 주어진 현상에서 더 탐구할 만한 가치가 있는 가설을 세우는 것.
- 사례: 인구조사 데이터를 바탕으로 국민들의 삶의 양상 변화
현상에서 인과적인 결론 도출 : 통계적 추론
- 주어진 현상을 넘어선 인과적인 결론이나 지식을 이끌어낼려고 한다.
- 주어진 데이터뿐만 아니라 그 이면의 현상까지 설명할 수 있는 결론을 이끌어내려는 것이다.
- 통제된 환경에서 데이터를 수집해야 한다.
- 전통적 과학에서는 통제된 실험을 설계하고 수행한다.
- 예: 온라인 서비스의 품질 개선을 위해 많이 사용 되는 A/B 테스트
현상의 예측 : 기계학습
- 관찰할 수 있는 현상의 속성(예: 현재 날씨)을 바탕으로 관찰하기 힘든 속성(예: 미래날씨)을 예측 할 수 있다면 더 나은 의사결정을 내릴수 있을 것이다.
- 예: 스팸메일 필터, 제춤/서비스 추천 기법
사례) 직원 만족도 개선을 위한 데이터 분석
현상황: IT 기업이 높은 이직률로 고민
데이터 수집 > 설문 실시 > 설문결과: 이직률이 높은 부서일수록 직원들의 평균만족도가 낮음. 만족도가 낮은 개발자 대부분은 회사의 오래된 개발 환경 및 프로세스 때문에 생산성이 떨어지고 최신 기술을 습득할 수 없다는 이유를 들었음.
-> 이렇게 수집된 데이터에서 다양한 패턴을 찾아내는 것이탐색적 분석
최신 개발 도구 및 방법론을 도입하는 실험 > 실험 대상 팀의 만족도 상승 > 해당 팀과 다른 팀 간의 차이는 통계적으로 유의미한 수준 > 전사 도입 후 관찰 > 문제에 대한 가설(최신 개발 도구 및 방법론을 도입하면 개발팀의 만족도가 올라갈 것이다)을 세우고 검정하기 위한 실험(특정 개발팀을 상대로 방법론을 도입한 후에 다른 팀들과 만족도를 비교)을 설계
-> 실험 설계를 통해 가설의 진위 여부를 판별하는 것이통계적 추론
의 주된 방법속성(직원의 이직 여부)을 다른 속성(다양한 직원별 정보)을 사용해 예측하는 모델을 만듬
-> 예측 분석을 통해 현상을 개선할 수있게 해주는 기법기계학습
'Data Science > Machine&Deep Learning' 카테고리의 다른 글
[1장-소개] 파이썬 라이브러를 활용한 머신러닝 - 붓꽃예제 (0) | 2019.09.16 |
---|---|
파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문 스터디 (0) | 2017.12.23 |
[01] 머신러닝, 크롤링, 스크레이핑 정의 (0) | 2017.08.28 |
Comments