pizzaplanet

Data Warehouse, ETL 간략 개념 정리 본문

Data

Data Warehouse, ETL 간략 개념 정리

scio 2018. 9. 30. 19:24

<Data Warehouse 개념도>


ETL(Extraction, Transformation, Loading)

 ETL이란 데이터 웨어하우스(DW, Data Warehouse) 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스에 적재하는 모든 과정을 말한다. 

일반적으로 발생하는 데이터 변환에는 필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등의 다양한 작업이 포함된다.

<ETL 개념도>


데이터웨어하우스(DW, Data Warehouse)

 Raw Data를 통한 분석자료를 제공하여 조직내 의사결정을 지원하는 정보관리 시스템


DW 4가지 특성

  • 주제지향(Subject Oriented): data를 categorizing하여 End User에게 이해하기 쉬운 형태 제공
  • 통합(Integrated): raw data를 일관적인 포맷으로 변환하여 저장
  • 시계열(Time Variant): DW내의 data는 일정기간동안 정확성을 나타낸다.
  • 비휘발성(Nonvolatile): DW에 적재 후 일괄처리(batch) 작업에 의한 갱신 이외에는 삽입, 삭제 등의 변경이 수행되지 않는다.
AWS는 DW를 아래의 3가지 티어로 나누고 있다.
  • 하단티어: DB Server
  • 중간티어: data를 액세스하고 분석하는 데 사용되는 분석 엔진으로 구성
  • 상단티어: 통계, 분석, 데이터 마이닝 및 AI를 통해 결과를 제시하는 프론트엔드 
DW의 이점
  • 더 나은 의사 결정
  • 여러 소스로부터의 데이터 통합
  • 데이터 품질, 일관성 및 정확성
  • 인텔리전스 기록
  • 분석 처리프로세스를 트랜잭션 데이터베이스로부터 분리하여 두 시스템의 성능을 모두 향상시킴
  • A 기사를 본 사용자들의 연령대 비율 - 30대 90%
  • IT 카테고리 기사 中 가장 인기있는 기사 - A기사
  • A기사를 본 User가 같이 많이 보는 기사 - B, C기사
  • 아이폰7에 관심있는 User는? N명, Ryan

참고


'Data' 카테고리의 다른 글

Apache Zeppelin Setting  (1) 2019.11.01
Ubuntu Apache Zeppelin Install  (0) 2019.10.31
Comments