BI

DW/ETL - 데이터웨어하우스의 이해

초롱불 2024. 6. 22. 12:17

개요

데이터웨어하우스는 분석 목적을 위해 최적화된 데이터베이스이다. 이번 글에서는 데이터웨어하우스의 정의와 역할, 그리고 데이터 웨어하우스를 구축하기 위한 핵심과정인 ETL 프로세스에 대해 자세히 다루어보겠다.

데이터 웨어하우스의 정의와 필요성

데이터 웨어하우스는 사용자가 데이터를 쉽게 이해하고 분석할  수 있도록 설계된 데이터베이스이다. 주요 특징은 다음과 같다.

  • 사용자 친화적: 기술적으로 복잡하지 않고 데이터 분석가가 쉽게 데이터를 검색하고 처리할 수 있도록 최적화 되어 있다.
  • 빠른 쿼리 성능: 대량의 데이터를 빠르게 처리할 수 있어야 한다.
  • 중앙 집중화 다양한 출처에서 데이터를 모아 일관된 구조로 저장한다.

운영 데이터 시스템과의 차이점

운영 데이터 시스템(OLTP)는 주로 판매 데이터, HR 시스템 CRM 시스템 등에서 사용되며 각각의 데이터 형식과 구조가 다르다. 데이터 웨어하우스는 이러한 다양한 데이터 소스를 중앙 집중화하여 일관된 형식으로 저장한다.

ETL 프로세스

데이터 웨어하우스를 구축하는 데 있어 가장 중요한 과정은 ETL(Extract, Transform, Load) 프로세스이다. ETL 프로세스는 다음과 같은 단계로 이루어진다.

  • 추출: 다양한 데이터 소스에서 데이터를 추출한다.
  • 변환: 데이터를 일관된 형식으로 통합하고 필요한 경우 집계한다.
  • 적재: 변환된 데이터를 데이터 웨어하우스에 적재한다.

이 과정에서 데이터를 일관되게 반복적으로 변환하고 적재하는 것이 중요하다.

데이터 웨어하우스의 목표

데이터 웨어하우스의 주요 목표는 다음과 같다.

  • 일관된 데이터 제공: 다양한 출처의 데이터를 중앙 집중화하여 일관된 형식으로 제공한다.
  • 빠른 데이터 접근: 사용자가 데이터를 빠르게 쿼리하고 결과를 신속하게 얻을 수 있도록 한다.
  • 사용자 친화적 모델링: 데이터를 쉽게 이해하고 사용할 수 있도록 모델링한다.
  • ETL 프로세스: 데이터를 일관되게 추출, 변환, 적재하는 과정을 반복적으로 수행한다.
  • 보고서 및 데이터 시각화: 데이터 웨어하우스를 기반으로 보고서 작성 및 데이터 시각화를 수행한다.

결론

데이터 웨어하우스는 기업이 데이터에 기반한 의사결정을 내릴 수 있도록 돕는 도구이다. ETL 프로세스를 통해 다양한 데이터를 중앙 집중화하고 사용자가 데이터를 쉽게 분석할 수 있도록 최적화된 환경을 제공한다. 나의 경험을 토대로 정리해보자면 실무에서는 쉽게 와닿지 않는 개념이었다. 데이터가 운영 시스템으로부터 전달되어야 한다는 개념 자체가 없던 때는 모든 데이터가 다른 운영 시스템으로부터 넘어오게끔 설계 된다는 것 자체를 상상하기도 힘들었고 원천 DB가 무엇인지에 대한 개념도 잡기 힘들었다. 하지만 실무를 겪고 나서는 원천 즉 OLTP 운영 데이터는 해당 시스템을 위해 존재하고 분석을 위한 데이터베이스는 따로 존재하기에 데이터 웨어하우스에는 반드시 원천이 존재한다고 생각할 수 있으며 이를 위해서 ETL 작업은 필수이다.