BI

DW/ETL - 데이터 웨어하우스 레이어

초롱불 2024. 6. 26. 00:31

개요

데이터 웨어하우스는 현대 데이터 관리의 핵심 구성 요소로 방대한 양의 데이터를 효율적으로 저장, 검색, 분석할 수 있게 한다. 이번 글에서는 데이터 웨어하우스의 아키텍처를 구성하는 여러 레이어에 대해 깊이 있게 정리해보도록 하겠다. 각 레이어는 데이터의 무결성, 변환, 접근성을 보장하는 중요한 역할을 한다.

데이터 웨어하우스의 레이어

데이터웨어하우스는 여러 레이어로 구성되어 있다. 각 레이어는 특정한 역할을 담당하며 데이터를 체계적으로 관리하고 가공한다.

  1. 스테이징 레이어 (Staging Layer)
    • 스테이징 레이어는 다양한 형식과 파일의 소스 데이터를 첫 번째 레이어로 추출하는 단계이다. 이 단계에는 데이터를 가능한 한 원본 그대로 유지하면서 테이블 형태로 저장한다. 예를 들어 여러 부서의 직원 테이블이 CSV 파일, 데이터베이스 등 다양한 형식으로 존재할 수 있다. 이 데이터를 스테이징 영역에 테이블 형태로 추출하여 저장한다. 이때 데이터 구조가 유사한 경우 소규모 변환을 통해 데이터를 결합할 수 있다.
    • 스테이징 레이어는 데이터 품질 관리에도 중요한 역할을 한다. 원본 데이터를 그대로 저장하기 때문에 데이터 품질 문제를 초기에 발견하고 수정할 수 있다.
  2. 코어 레이어(Core Layer)
    • 코어 레이어는 스테이징 레이어에서 데이터를 가져와 필요한 변환을 수행한 후 저장하는 단계이다. 이 레이어는 종종 최종 사용자나 애플리케이션에서 직접 접근하는 데이터 웨어하우스로 인식된다. 여기서 데이터를 변환하고 모델링하여 최종적으로 보고서 작성, 데이터 마이닝, 예측 분석 등에 사용한다.
    • 코어 레이어에서는 데이터 통합이 이루어지며 이를 통해 서로 다른 소스에서 가져온 데이터를 일관된 형식으로 변환한다. 예를 들어 서로 다른 소스에서 가져온 직원 데이터를 통합하여 하나의 통합된 직원 테이블로 변환할 수 있다.
  3. 데이터 마트
    • 대규모 데이터 웨어하우스에서 코어 레이어 위에 데이터 마트를 구축할 수 있다. 데이터 마트는 특정 용도에 맞는 관련 테이블만을 포함하여 사용자 친화성을 높이고 쿼리 성능을 향상시킨다. 데이터 마트는 필요한 테이블만을 포함하기 때문에 성능이 향상될 수 있으며 특정 사용자 그룹만이 이를 쿼리하여 전체 데이터 웨어하우스의 성능 저하를 방지할 수 있다.
    • 데이터 마트는 부서별, 주제별로 구축할 수 있으며 이를 통해 특정 비즈니스 요구에 맞춘 데이터를 제공한다. 예를 들어, 마케팅 부서의 데이터 마트는 마케팅 켐페인과 관련된 데이터를 중심으로 구축될 수 있다.
  4. 정제 영역 (Cleansing Area)
    • 데이터가 매우 원시적이고 많은 정제가 필요한 경우, 전용 정제 영역을 포함시킬 수 있다. 이 단계에서 데이터를 깨끗하게 정제하여 다음 단계로 넘긴다. 데이터 정제 과정에서는 데이터의 정확성, 일관성, 완전성을 보장하기 위해 다양한 기법이 사용된다.
    • 정제 영역에서는 데이터 중복 제거, 결측값 처리, 데이터 형식 변환 등 다양한 정제 작업이 이루어진다. 이를 통해 데이터 품질을 높이고 분석에 적합한 형태로 변환한다.

데이터 웨어하우스의 실제

최종 사용자에게 있어서 데이터 웨어하우스란 코어 레이어로 인식된다. 최종적으로 접근 가능한 레이어이기 때문에 그것이 데이터 웨어하우스의 전부로 보이는 것이다. 그러나 실제로 데이터 웨어하우스란 앞서 설명한 모든 레이어를 포함한다. 각 레이어가 고유한 기능과 역할을 담당하여 데이터 웨어하우스의 전체적인 기능을 구성한다.

실무 경험 관련

데이터 웨어하우스를 다루는 경험을 해본 입장에서는 당연하게 그려지는 내용이다. 원천이 있고 이를 우선 그대로 적재하는 내용이나 변환을 수행한 후 저장하여 본격적으로 활용될 수 있도록 하는 점, 데이터 마트로 보다 쉽게 데이터에 접근할 수 있도록 하는 부분, 필요하다면 보다 적극적인 정제 과정을 따로 뺴놓는 일들을 자연스럽게 수행한 경험이 있다. 그러나 이에 계층을 나누어서 다룰 수 있다는 점은 처음 알았고 개념을 통해서 보다 이루어 질 수 있는 작업을 분명하게 나눌 수 있다는 점은 좋은 지점이다.

결론

이 글에서는 데이터 웨어하우스의 레이어에 대해서 다루어보았다. 데이터웨어하우스라는 것이 활용가능하게 적재된 상태만을 의미하는 게 아니라 변환 없이 적재된 데이터, 변환과정 등 ETL과정에서 필요한 단계로 구축되는 영역들도 데이터웨어하우스라고 부르는 것을 확인할 수 있었다. 이는 ETL이 데이터웨어하우스의 핵심이며 시작이라는 것을 나타내는 것이라고도 할 수 있다. 그러니 ETL의 중요성을 인식하고 보다 체계적인 데이터 웨어하우스 구축을 위한 개념을 알아갈 필요가 있다.