EC2에서 데이터 생성하여 전송

실습 소개

EC2에서 데이터를 생성하고, 생성한 데이터가 Firehose에 정상적으로 수집되는지 확인해 봅니다.

실습 순서

  1. 앞서 생성한 EC2 인스턴스에 EC2 Connect 기능으로 SSH 접속을 합니다.
    정상적으로 접속시 아래와 같은 화면이 나옵니다. create-event-01

    1.2 EC2 생성 및 설정 - 3. 참고 Connect 연결하는 방법

  2. 다음의 명령을 통해서 소스코드를 확인합니다.
    코드의 내용은 banking_loss.csv 파일을 읽어서 1초 간격으로 Source 이름을 가진 Firehose에 record를 put으로 추가합니다.

cat firehose.py

create-event-02

  1. 해당 코드인 firehose.py 를 실행합니다.
    매 초 데이터가 화면에 찍히는 것을 확인합니다. 데이터를 쌓기 위해서 그냥 해당 창을 닫지 않고 내버려 둡니다.
python firehose.py

create-event-03

  1. 몇 분 뒤 생성한 S3 버킷에 가면 생성된 원본 데이터가 Firehose를 통해 S3에 저장되는 것을 확인할 수 있습니다.
    이 때 지정한 Prefix인 source 폴더에 데이터가 저장됩니다. create-event-04

    Firehose는 default로 prefix/year/month/day/hour/ 경로로 저장합니다. 이때 시간은 UTC를 따릅니다.