[01] 머신러닝, 크롤링, 스크레이핑 정의

2017. 8. 28. 00:38Data Science/Machine&Deep Learning

머신러닝을 위한 데이터 처리에 기본인 크롤링, 스크레이핑에 대해서 알아보기로 한다.


데이터 스크레이핑으로 데이터를 수집하고 머신러닝을 수행하는 기법에 대해 간단히 알아보기 합니다.


1. 웹에서 데이터 다운로드 하기

2. 데이터를 가공해서 저장하기

3. 저장된 데이터를 활용해 머신러닝 수행하기















[정의] 


1. 스크레이핑 

  - 웹 사이트에 있는 특정 정보를 추출하는 기술

  - 대부분 HTTML 형식

 - 웹에서 데이터 추출 하는 것 뿐만 아니라 구조도 분석

 - 로그인해서 필요한 웹 페이지에 접근 하는 기술 필요


 

2. 크롤링 

 - 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술

 - 크롤링하는 프로그램을 크롤러 or 스파이더 라고 함


[머신러닝에 활용되는 대표적인 형식]


1. 쉼표로 구분하는 CSV 형식의 데이터

2. 계층을 통해 구조화 할 수 있는 JSON, XML, YAML 형식의 데이터



머신러닝을 위한 데이터 처리에 기본인 크롤링, 스크레이핑에 대해서 알아보았습니다.