📌 Amazon Athena
Amazon Athena를 이용하면 Amazon S3에 저장된 데이터 소스에 쿼리가 가능하다.
Amazon Athena를 이용해 데이터 조회를 할 때는 필터를 걸어주는 것이 좋다.
(매번 대량의 데이터에 접근하게 되면 요금 폭탄을 맞게 되므로!)
위의 쿼리와 같이 limit 5라는 조건을 주어 5개의 데이터만 출력하였다!!
📌 python 환경에서 Athena 사용하기
⚙️ 라이브러리 설치 및 로드
pip install pyathena
import pandas as pd
from pyathena import connect
from pyathena.pandas.cursor import PandasCursor
⚙️ Amazon Athena 접근 세팅
path = "액세스 키 파일"
access_key = pd.read_csv(path)
클라우드 환경인 만큼 보안에 무지무지 신경을 써야하기 때문에,
액세스 키 관련 정보를 csv파일에 저장해서 사용했다!
⚙️ 쿼리 수행해보기
query = """
select * from spotify.tracks
limit 20
"""
연결 정보를 별도로 만들지 않고 진행할 예정이므로,
접근하려는 테이블이 저장된 데이터베이스를 명시해주어야 한다!
cursor = connect(
s3_staging_dir = "접근하려는 저장소",
aws_access_key_id = access_key["Access key ID"][0],
aws_secret_access_key = access_key["Secret access key"][0],
region_name = "AWS 리전",
cursor_class = PandasCursor
).cursor()
athena = cursor.execute(query).as_pandas()
쿼리 결과는 다음과 같이 확인할 수 있다.
athena.head()