'분류 전체보기' 카테고리의 글 목록 (4 Page)

Notice

다시 블로그 시작

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (224)

JIHYUN JEONG

[Spotify Data Analysis/스포티파이 데이터 분석] AWS EMR, Zeppelin, FoxyProxy, EC2 설정 (6)

1. 클러스터를 생성합니다. 2. 임의의 클러스터 이름을 입력하고, 애플리케이션을 Spark로 지정합니다. 하드웨어 구성 > 인스턴스 유형은 c4.large로 설정 하겠습니다. 3. EC2 키 페어가 필요합니다. 'EC2 키 페어를 생성하는 방법을 알아보십시오' 선택 4. Amazon EC2 콘솔로 이동 클릭. 5. 네트워크 및 보안 > 키 페어 > 6. 키페어 생성 > 이름은 임의로 입력 > 키 페어 생성 > pem 파일을 다운로드 합니다. 7. 다음 아래 명령어를 입력합니다. pem 파일을 다운 받은 경로로 이동합니다. 8. 정상적으로 적용되면아래와 같이 EC2 키 페어에서 확인 할 수 있습니다. 그 다음 클러스터 생성을 합니다. 9. 프로비저닝 하는데 시간이 조금 걸립니다. 기다리겠습니다. 10. ..

Data Science/Data Analysis 2020. 3. 18. 14:18

[Spotify Data Analysis/스포티파이 데이터 분석] AWS Athena 테이블 만들기(5)

AWS Athena는 Presto 기반으로 한 빅데이터 분석 도구입니다. AWS S3에 쌓여 있는 log에 바로 query를 실행 할 수 있다는게 가장 큰 장점중에 하나이다. https://ko.wikipedia.org/wiki/%ED%94%84%EB%A0%88%EC%8A%A4%ED%86%A0_(SQL_%EC%A7%88%EC%9D%98_%EC%97%94%EC%A7%84) 프레스토 (SQL 질의 엔진) - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 프레스토(Presto)는 페이스북이 개발한 빅 데이터 분석도구로, 분산된 SQL 쿼리 엔진이다. 기존 분석도구인 하이브/맵리듀스에 비해 CPU 효율성과 대기 시간이 10배 빠르다고 발표했다. '최소 비용으로 효율적인 컴퓨팅 인프라를 구축'..

Data Science/Data Analysis 2020. 3. 18. 11:39

[Spotify Data Analysis/스포티파이 데이터 분석] 파이썬 AWS S3 연결 boto3 (4)

AWS 로그인 후 S3 서비스를 생성합니다. 버킷을 만듭니다. s3 가 생성이 완료가 됫으면 파이썬 코드를 작성하는데 1) 우선, boto3를 pip install을 통해 인스톨 한다 2) 인스톨 후 아래와 같이 DataFrame 형식을 변경 후 to_parquet을 통해서 해당 parquet 형식으로 전달해서 s3에 아래와 같이 저장한다. import boto3 # 중략... # top_tracks = [{'id': ['ssa'], 'artist_id': 'axs'},....{'id':['sdfz'], 'artist_id':'sf}] # 위와 같은 리스트 안에 딕셔너리가 존재하는 형식으로 DataFrame을 생성 df_top_tracks = pd.DataFrame(top_tracks) df_top_tr..

Data Science/Data Analysis 2020. 3. 18. 00:30

[판다스/Pandas] 람다(lambda) 함수를 사용하여 여러 컬럼 합(sum) 계산하기

여러 컬럼 합(sum)을 계산하여 하나의 새로운 컬럼에 넣어보는 것을 람다 함수를 사용하여 쉽게 해보겠습니다. 코드는 아래와 같습니다. import pandas as pd data = {'contestants': ('Alex', 'John', 'Sam', 'Alex', 'John', 'Sam', 'Alex', 'John', 'Sam'), 'round': (1, 1, 1, 2, 2, 2, 3, 3, 3), 'score1': (84.5, 91.4, 92.2, 85.2, 88.1, 83.1, 80.2, 93.5, 82.1), 'score2': (88.2, 89.8, 88.7, 86.3, 89.0, 83.1, 79.9, 92.8, 80.9), 'score3': (84.1, 90.2, 93.2, 89.0, 90...

Data Science/Data Analysis 2020. 3. 18. 00:16

[판다스/Pandas] 리스트(list) 내에 있는 딕셔너리(dictionary) 중복 제거

파이썬으로 리스트 내에 있는 딕셔너리(dictionary)의 특정 부분 값의 중복을 제거 해 보겠다. Spotyfi 데이터를 불러 오던 중 top_tracks의 중복이 발생하는 것을 발견 했다. 아래 보면 특정 id가 여러번 반복 되는 것을 볼 수 있다. 그래서 해결 한 방법은 아래와 같다. import json without_dup_tracks = {json.dumps(d, sort_keys=True) for d in top_tracks} without_dup_tracks = [json.loads(t) for t in set_of_jsons] 중복된게 해결 되었다.

Data Science/Data Analysis 2020. 3. 17. 22:06

[Spotify Data Analysis/스포티파이 데이터 분석] 파이썬 AWS Dynamo DB 연결 + boto3 (3)

파이썬 boto3 패키지를 활용하여 AWS DynamoDB에 연결해보겠습니다. 1. 우선 AWS에 로그인 후 DynamoDB를 생성합니다. 2. 테이블 이름은 원하는 이름을 주고 기본 키(Primary)를 무엇으로 할지 정합니다. 생성시 프리티어로 설정합니다. (과금방지) 3. 생성이 완료 되었으면 아래와 같이 테이블이 생성됩니다. 4. 이제 boto3 모듈을 아래의 명령어로 설치합니다. 사용 방법은 아래 공식 Document를 참고 합니다. - pip3 install boto3 https://boto3.amazonaws.com/v1/documentation/api/latest/index.html Boto 3 Documentation — Boto 3 Docs 1.12.22 documentation bot..

Data Science/Data Analysis 2020. 3. 17. 11:55

이전 Prev 1 2 3 4 5 6 7 ··· 38 Next 다음

목록분류 전체보기 (224)

JIHYUN JEONG

티스토리툴바