일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 해커톤
- gcp
- Conference
- 구글스타트업캠퍼스
- 오픈소스해커톤
- BOAZ
- 코딩테스트
- Open Hack
- API
- 스터디 잼
- Ground Truth
- rl
- Backend.AI
- SageMaker
- aws
- Tensorflow 2.0
- entity
- GDG Campus
- OPENHACK
- 뉴비톤
- kakao
- re:Invent
- 머신러닝
- SW중심대학
- Community Day
- seq2seq
- Speech
- Qwik Start
- ainize
- CSIP
Archives
- Today
- Total
pizzaplanet
Data Warehouse, ETL 간략 개념 정리 본문
<Data Warehouse 개념도>
ETL(Extraction, Transformation, Loading)
ETL이란 데이터 웨어하우스(DW, Data Warehouse) 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스에 적재하는 모든 과정을 말한다.
일반적으로 발생하는 데이터 변환에는 필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등의 다양한 작업이 포함된다.
<ETL 개념도>
데이터웨어하우스(DW, Data Warehouse)
Raw Data를 통한 분석자료를 제공하여 조직내 의사결정을 지원하는 정보관리 시스템
DW 4가지 특성
- 주제지향(Subject Oriented): data를 categorizing하여 End User에게 이해하기 쉬운 형태 제공
- 통합(Integrated): raw data를 일관적인 포맷으로 변환하여 저장
- 시계열(Time Variant): DW내의 data는 일정기간동안 정확성을 나타낸다.
- 비휘발성(Nonvolatile): DW에 적재 후 일괄처리(batch) 작업에 의한 갱신 이외에는 삽입, 삭제 등의 변경이 수행되지 않는다.
AWS는 DW를 아래의 3가지 티어로 나누고 있다.
- 하단티어: DB Server
- 중간티어: data를 액세스하고 분석하는 데 사용되는 분석 엔진으로 구성
- 상단티어: 통계, 분석, 데이터 마이닝 및 AI를 통해 결과를 제시하는 프론트엔드
DW의 이점
- 더 나은 의사 결정
- 여러 소스로부터의 데이터 통합
- 데이터 품질, 일관성 및 정확성
- 인텔리전스 기록
- 분석 처리프로세스를 트랜잭션 데이터베이스로부터 분리하여 두 시스템의 성능을 모두 향상시킴
- A 기사를 본 사용자들의 연령대 비율 - 30대 90%
- IT 카테고리 기사 中 가장 인기있는 기사 - A기사
- A기사를 본 User가 같이 많이 보는 기사 - B, C기사
- 아이폰7에 관심있는 User는? N명, Ryan
참고
- https://aws.amazon.com/ko/data-warehouse/
- https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%9B%A8%EC%96%B4%ED%95%98%EC%9A%B0%EC%8A%A4
- https://www.slideshare.net/deview/236-67609108
- https://docs.microsoft.com/ko-kr/azure/architecture/data-guide/relational-data/etl
- http://21flowers.tistory.com/entry/ETL%EC%9D%B4%EB%9E%80
'Data' 카테고리의 다른 글
Apache Zeppelin Setting (1) | 2019.11.01 |
---|---|
Ubuntu Apache Zeppelin Install (0) | 2019.10.31 |
Comments