일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- IT
- Python
- Oracle DB
- JavaScript
- 자바스크립트
- SAP
- 파이썬
- Programming
- 유럽여행
- oracle
- 비지니스영어
- 오라클
- db
- 오라클 디비
- Spring Framework
- 영어
- SAP ABAP
- docker
- sap mm
- 머신러닝
- nodejs
- Java
- Mac
- 자바
- 노드
- node.js
- SAP ERP
- 도커
- ABAP
- 딥러닝
Archives
- Today
- Total
JIHYUN JEONG
[Spotify Data Analysis/스포티파이 데이터 분석] AWS Athena 테이블 만들기(5) 본문
Data Science/Data Analysis
[Spotify Data Analysis/스포티파이 데이터 분석] AWS Athena 테이블 만들기(5)
StopHyun 2020. 3. 18. 11:39AWS Athena는 Presto 기반으로 한 빅데이터 분석 도구입니다.
AWS S3에 쌓여 있는 log에 바로 query를 실행 할 수 있다는게 가장 큰 장점중에 하나이다.
1. 서비스 > 분석 > Athena를 선택합니다.
2. Get started
3. 위에 set up a query result location in Amazon S3 클릭
4. S3 에서 만든 버킷의 query result location 지정을 합니다.
- 예) s3://spotify-data-artist/
5. 그리고 database를 하나 만들어 줍니다.
6. 이제 테이블을 하나 만듭니다. (예시)
create external table if not exists top_tracks(
id string,
artist_id string,
name string,
popularity int,
external_url string
) partitioned by (dt string)
stored as parquet location 's3://spotify-data-artist/top-tracks/' tblproperties ("parquet.compress"="SNAPPY")
아래 명령어를 꼭 써줍니다.
- MSCK REPAIR TABLE top_tracks (파티션즈가 추가 될 때 )
7. 쿼리는 통해서 select를 해보았습니다.
[참고 - 사용한 쿼리]
create external table if not exists top_tracks(
id string,
artist_id string,
name string,
popularity int,
external_url string
) partitioned by (dt string)
stored as parquet location 's3://spotify-data-artist/top-tracks/' tblproperties ("parquet.compress"="SNAPPY")
MSCK REPAIR TABLE top_tracks
select * from top_tracks
where cast(dt as date) >= current_date - INTERVAL '7 'DAY
limit 10
create external table if not exists audio_features(
id string,
danceability double,
energy double,
key int,
loudness double,
mode int,
speechiness double,
acousticness double,
instrumentalness double
) partitioned by (dt string)
stored as parquet location 's3://spotify-data-artist/audio-features/' tblproperties ("parquet.compress"="SNAPPY")
MSCK REPAIR TABLE audio_features
select * from audio_features limit 10
select avg(danceability), avg(loudness)
from audio_features
where cast(dt as date) = current_date
'Data Science > Data Analysis' 카테고리의 다른 글
Comments