일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 파이썬
- Python
- node.js
- 딥러닝
- 자바스크립트
- 비지니스영어
- nodejs
- ABAP
- oracle
- SAP
- 자바
- 오라클
- SAP ABAP
- SAP ERP
- 오라클 디비
- 영어
- 노드
- sap mm
- docker
- 도커
- Oracle DB
- Spring Framework
- db
- IT
- Java
- JavaScript
- Programming
- Mac
- 유럽여행
- 머신러닝
Archives
- Today
- Total
JIHYUN JEONG
[Spotify Data Analysis/스포티파이 데이터 분석] 파이썬 AWS S3 연결 boto3 (4) 본문
Data Science/Data Analysis
[Spotify Data Analysis/스포티파이 데이터 분석] 파이썬 AWS S3 연결 boto3 (4)
StopHyun 2020. 3. 18. 00:30
AWS 로그인 후 S3 서비스를 생성합니다.
버킷을 만듭니다.
s3 가 생성이 완료가 됫으면 파이썬 코드를 작성하는데
1) 우선, boto3를 pip install을 통해 인스톨 한다
2) 인스톨 후 아래와 같이 DataFrame 형식을 변경 후 to_parquet을 통해서 해당 parquet 형식으로 전달해서 s3에 아래와 같이 저장한다.
import boto3
# 중략...
# top_tracks = [{'id': ['ssa'], 'artist_id': 'axs'},....{'id':['sdfz'], 'artist_id':'sf}]
# 위와 같은 리스트 안에 딕셔너리가 존재하는 형식으로 DataFrame을 생성
df_top_tracks = pd.DataFrame(top_tracks)
df_top_tracks.to_parquet('top-tracks.parquet', engine='pyarrow', compression='snappy')
# dt: date
dt = datetime.utcnow().strftime("%Y-%m-%d")
s3 = boto3.resource('s3')
object = s3.Object('spotify-data-artist', 'top-tracks/dt={}/top-tracks.json'.format(dt))
data = open('top-tracks.parquet', 'rb')
object.put(Body=data)
3) 정상적으로 저장 되면 아래와 같이 폴더에 파일이 들어오게 된다.
'Data Science > Data Analysis' 카테고리의 다른 글
[Spotify Data Analysis/스포티파이 데이터 분석] AWS EMR, Zeppelin, FoxyProxy, EC2 설정 (6) (0) | 2020.03.18 |
---|---|
[Spotify Data Analysis/스포티파이 데이터 분석] AWS Athena 테이블 만들기(5) (0) | 2020.03.18 |
[판다스/Pandas] 람다(lambda) 함수를 사용하여 여러 컬럼 합(sum) 계산하기 (0) | 2020.03.18 |
[판다스/Pandas] 리스트(list) 내에 있는 딕셔너리(dictionary) 중복 제거 (0) | 2020.03.17 |
[Spotify Data Analysis/스포티파이 데이터 분석] 파이썬 AWS Dynamo DB 연결 + boto3 (3) (0) | 2020.03.17 |
Comments