본 실습은 AWS 기반의 빅 데이터 분석을 위해서 필요한 AWS의 다양한 서비스를 사용하는 방법을 학습할 수 있습니다.
본 실습은 ap-northeast-2 (Seoul) 리전을 기준으로 작성되어져 있습니다.
Lab 1. 사전 준비
Amazon EC2 인스턴스에서 임의의 데이터를 생성하고 Python(boto) SDK를 이용하여 Kinesis에 생성한 데이터를 발송하도록 구성합니다.
Lab 2. 데이터 수집
Amazon Kinesis에 수집된 데이터를 가공하고 데이터를 S3에 저장하는 방법을 실습합니다.
Lab 3. 데이터 처리
S3에 수집된 데이터를 AWS Glue의 Crawlers 이용하여 Data Catalog를 생성합니다. Amazon Athena를 이용해서 데이터를 ad-hoc하게 쿼리하여 분석합니다.
Lab 4. 데이터 시각화
S3에 쌓인 데이터를 기반으로 Amazon Athena에서 쿼리한 결과를 Amazon QuikcSight에 연결하여 시각화하여 Insight를 얻습니다.
Lab 5. 데이터 웨어하우스
다른 계정의 S3 버킷에 쌓여진 데이터를 데이터 웨어하우스인 Amazon Redshift에 통합하고 Spectrum을 사용하는 방법을 학습합니다.