개요
데이터 웨어하우스의 두 가지 구성 요소 스테이징 영역과 데이터 마트에 대해서 알아본다. 둘은 데이터를 분석 가능한 형태로 변환하는데 중요한 역할을 한다. 이 두 가지 요소의 필요성과 구성에 대해서 자세히 살펴보도록 하겠다.
스테이징 영역
스테이징 영역은 ETL 프로세스에서 데이터를 추출한 후 임시로 저장하는 장소이다. 스테이징 영역의 주요 목적과 기능은 다음과 같다.
- 데이터 추출:
- 원천 시스템에서 데이터를 빠르게 읽어와 스테이징 영역에 저장한다. 소스 시스템의 성능 저하를 방지하기 위해 가능한 한 빨리 데이터를 추출하여 저장하는 것이 중요하다.
- 데이터 저장:
- 스테이징 영역에서는 다양한 형식의 데이터를 테이블 형태로 저장한다. 이는 CSV 파일, JSON 파일 등 다양한 형식을 관계형 데이터베이스 테이블로 변환하는 첫 번째 단계이다.
- 데이터 변환 준비:
- 스테이징 영역에 저장된 데이터는 이후 단계에서 변환 작업을 수행할 수 있도록 준비된다. 변환 작업은 주로 ETL 도구를 사용하여 정의되고 실행된다.
스테이징 영역은 추출 - 저장 -변환 작업 및 실행 - 영역 초기화(Truncate) 단계의 순환을 이룬다. 스테이징 영역은 임시 스테이징 레이어와 영구 스테이징 레이어로 나누어지는데 임시 스테이징 레이어는 각 ETL 주기 후에 데이터를 비우는 레이어이고 영구 스테이징 레이어는 데이터를 절대 비우지 않는 레이어이다. 일반적으로 스테이징 레이어는 임시 스테이징 레이어를 의미한다.
데이터 마트
데이터웨어하우스는 많은 양의 데이터를 통합, 저장하여 분석을 가능하게 한다. 그러나 모든 부서나 사용자가 동일한 데이터를 필요로 하는 것은 아니다. 데이터 마트는 이러한 상황에서 특정 부서나 용도의 데이터를 제공하여 사용자가 더 효율적으로 데이터를 분석할 수 있도록 한다.
데이터 마트의 필요성 및 주요 기능
- 사용성 향상:
- 데이터 마트는 특정 용도에 맞는 관련 테이블만을 포함하여 사용자 친화성을 높인다. 비즈니스 사용자가 필요로 하는 데이터만을 제공하여 데이터 접근과 분석이 더 편리해진다.
- OLAP 큐브, 차원 분석 등을 가능하게 하여 사용자가 원하는 형태의 데이터를 조회하기에 더욱 용이해진다.
- 성능 향상:
- 데이터 마트는 특정 용도에 맞는 데이터만을 지니고 있기에 대량의 데이터를 지닌 데이터웨어하우스에 비해 빠르게 데이터에 접근이 가능하다.
- 데이터마트는 데이터 웨어하우스의 데이터 중 일부를 차원적 데이터 모델로 구성한다. 차원적 데이터 모델은 중심에 FACT 테이블을 두고 이를 둘러싼 차원 테이블로 구성된다. 이를 통해 분석이 더욱 용이해질뿐 아니라 성능 개선에 도움을 준다.
- 데이터 마트는 특정 용도에 맞는 데이터를 제공하기 위해 요약 및 집계를 수행한다. 이는 더욱 빠른 접근을 가능하게 한다.
실무에서의 경험
데이터 마트 구축은 BI 화면을 만들경우 대부분 사전적으로 수행하는 작업이었다. 화면 단위로 마트를 구성하며 마트 테이블을 설계한 경험이 있고 이를 통해 EIS 화면을 보다 빠르게 조회가능하도록 할 수 있었다. 스테이징의 경우 적재한 데이터를 지우는 형태의 임시 스테이징은 아직까지는 경험한 적이 없다. 지난 4년간의 데이터를 보존해달라는 요구사항처럼 어느 정도는 보존을 전제로 원천 데이터를 있는 그대로 적재하는 테이블을 만들었고 활용하였다.
결론
데이터 마트와 스테이징 영역에 대하여 심층적으로 알아보았다. 스테이징 영역은 안전하게 추출하고 저장하는데 큰 역할을 하며 데이터 마트는 사용자에게 보다 좋은 편의성과 성능을 제공한다. 웹개발시에 프론트와 백엔드가 나누어지듯이 데이터웨어하우스에서 사용자에게 가까운 데이터 마트가 프론트 원천에 가까운 스테이징 영역이 백엔드 역할을 하는 것처럼 느껴진다. 데이터 웨어하우스의 아키텍처에서 큰 역할을 하는 두 부분이라고 할 수 있다.
'BI' 카테고리의 다른 글
DW/ETL - OLAP 큐브 (0) | 2024.07.03 |
---|---|
DW/ETL - 관계형 데이터 베이스, 인메모리 데이터베이스 (0) | 2024.07.02 |
DW/ETL - 데이터 웨어하우스 레이어 (0) | 2024.06.26 |
DW/ETL - 데이터 레이크와 데이터 웨어하우스 (0) | 2024.06.24 |
DW/ETL - BI 이해 (0) | 2024.06.23 |