1. 학습목표
1) 온프레미스(기존의 서버 호스팅 방식)과 클라우드 환경에서의 데이터 수집 차이 이해하기
2) 다양한 AWS 서비스들을 활용해 데이터를 수집, 저장, 전처리하고 이를 적절한 형식으로 다른 서비스나 애플리케이션에 전달하는 과정 이해하기
3)
2. Data Flow
1) Data Producer : 데이터 수집 및 전송
(1) Amazon Kinesis Stream
- 대량의 스트림 데이터를 실시간으로 수집, 처리, 분석할 수 있는 서비스
(2) Amazon Kinesis Firehowe
- Kinesis Stream에서 생성된 데이터를 소비해서 전달하는 역할.
- 주로 스트림 안에 있는 데이터를 정기적으로 S3와 같은 저장소에 내리거나, 데이터 분석용 데이터베이스(Redshift 등)에 저장하는 데 사용
(3) Lambda function
- AWS에서 제공하는 서버리스 서비스, 특정 이벤트에 대한 반응으로 코드 실행
- 예를들어, 특정 조건에 맞는 데이터를 추출해 RDS에 저장
(4) Amazon API Gateway
- 외부에서 내부의 서비스를 호출할 때 사용. API를 생성하고 관리해서 내부의 다양한 서비스에 대한 접근 제어
2) Data pipeline : 생성된 데이터들을 파이프라인을 통해 전처리 및 저장
(1) 데이터 전처리
(2) 데이터 저장
- AWS Glue : 데이터를 추출하고 변환하여 원하는 형식으로 저장하는 ETL(Extract, Transform, Load) 서비스. 주로 S3에 있는 데이터를 데이터 카탈로그에 저장하는 기능을 활용하여 데이터를 수집하고 분석에 활용
3) Data consumer
(1) 데이터 분석
(2) 데이터 시각화