일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 딥러닝
- IT
- Java
- Mac
- SAP
- docker
- 자바
- 유럽여행
- Programming
- SAP ABAP
- nodejs
- db
- JavaScript
- 오라클 디비
- 머신러닝
- 파이썬
- Oracle DB
- Python
- sap mm
- Spring Framework
- SAP ERP
- 자바스크립트
- node.js
- 비지니스영어
- 영어
- oracle
- 도커
- 노드
- 오라클
- ABAP
- Today
- Total
목록spotify (3)
JIHYUN JEONG

우선 related_artists 테이블 하나 만듭니다. CREATE TABLE related_artists (artist_id VARCHAR(255), y_artist VARCHAR(255), distance FLOAT, PRIMARY KEY(artist_id, y_artist)) ENGINE=InnoDB DEFAULT CHARSET=utf8; 만든 테이블에 top_tracks와 audio_features를 join 합니다. 조인한 다음 유클리드 거리를 구해서 곡의 유사도를 구분 합니다. 구분한 값들을 related_artists 테이블에 insert 합니다. 가장 유사도가 높은(유클리드 거리값이 적은) 상위 20개를 select 해봅니다. select p1.name, p2.name, p1.url, p..

제플린(Zeppelin)을 활용해서 Spark의 대한 기능들을 살펴보도록 하겠습니다. 기본적인 적들은 아래와 같은 구문을 통해서 활용할 수 있습니다. 스파크는 rdd라는 개념을 사용합니다. AWS S3에 있는 parquet 데이터를 불러 올때는 아래와 같은 명령어를 통해 사용합니다. 스파크에서도 DataFrame 형식으로 데이터를 읽을 수 있습니다. 판다스의 DataFrame을 떠올리면 됩니다. %pyspark from datetime import datetime raw = sqlContext.read.format("parquet").load("s3://spotify-data-artist/top-tracks/dt=2020-03-18/top-tracks.parquet") # 일자별로 들어오게 할 경우 # ..

2019년도 Spotify 에서 가장 많이 스트림된 곡들을 아래 데이터 셋에서 가져온 후 https://www.kaggle.com/prasertk/spotify-global-2019-moststreamed-tracks Spotify global 2019 most-streamed tracks top 1,717 tracks with audio features and artist info www.kaggle.com 판다스에서 가수들만 추려서 csv로 만든 뒤 Mysql DB Insert 한 뒤 쿼리 예시이다. 총 488명의 가수 데이터를 가지고 Spotify API를 사용해서 artist 정보와 arist genres 정보를 Insert 한 결과를 select 해보았다. mysql> select count(*..