분류 전체보기 152

Surrogate Key 개념 정리 및 SAP에서의 활용 비교

랄프 킴벌의 데이터웨어하우스 툴킷 책을 읽으며 개념을 정리하다가 대리 키 개념을 정리해보았고 SAP에서의 활용과 비교해보았다. 아래는 GPT를 통한 정리. 서론데이터웨어하우스(DW) 설계에서 대리 키(Surrogate Key)는 데이터 통합과 성능 최적화를 위한 핵심 요소로 알려져 있습니다. 하지만 SAP 시스템에서는 전통적으로 대리 키보다는 자연 키(Natural Key)를 사용하는 방식이 주류를 이루어 왔습니다. 이번 글에서는 SAP의 데이터 모델링 철학과 대리 키 사용 여부에 대해 살펴보고, SAP BW와 최신 SAP HANA 환경에서의 대리 키 활용 사례를 탐구합니다.1. 대리 키란 무엇인가?대리 키(Surrogate Key)는 의미 없는 정수형 키로, 차원 테이블의 기본 키로 사용됩니다. 이는 ..

DW 2024.12.18

BW - 개념정리

SAP BW업무를 하게 된 지도 두 달이 되어간다. 안정화된 운영업무인만큼 그다지 많은 일들이 있지는 않았고 내게 맡겨진 일은 BO 중심이었기에 업무적으로 많이 배울 수는 없었다. 아쉬운 일이지만 그만큼 여유가 있었다. 그 여유를 활용해서 이론적 지식은 많이 익혔고 그것을 정리해보고자 한다. 간단하게 정리하는 것인만큼 캡쳐 화면이나 그림 자료는 없이 글로만 적고 설명하려고 한다. BW 변천사 SAP BW가 어떻게 변하였는지 이해하는 것은 SAP BW를 운영하는 입장에서 중요하다. 회사마다 환경이 다르고 버전이 다르기에 그에 맞는 운영법을 알아야하기 때문이다. SAP BW의 버전은 크게 셋으로 나누어 생각할 수 있다. SAP BW on Any DB, SAP BW On HANA, SAP BW/4HANA가 그..

BW 2024.12.09

ADSO 정리

InfoCube, DSO(Data Store Obeject), PSA(Persistance Staging Area), SPO(Semantically Partitioned object)--> ADSO로 대체 ADSO의 특징ADSO는 BW4H의 핵심 저장소이다.ADSO는 DSO와 CUBE의 특징을 합하였다.인포오브젝트 혹은 필드를 사용할 수 있다.이클립스에서 만들고 유지한다.필드로 구성된 ADOS는 보통 스테이징/Corporate Memory 영역에서 빠른 로딩을 위하여 쓰인다다양한 ADSO의 사용 케이스는 키 모델링 설정에서 가능하다.인벤토리 로드를 설정할 수 있다.계획을 설정할 수 있다.기록 인터페이스를 설정할 수 있다. DSO는 세 개의 테이블로 구성된다.Inbound:/BIC/A1Active Data..

BW 2024.11.01

10월 한 달 동안 있었던 일

지난 달에는 새로운 회사로 이직하였다. SAP를 전문적으로 다루는 회사이다.정든 회사를 떠나는 것도 새로운 회사에 적응하는 것도 생각만큼 쉽진 않은 일이었다.이전 회사에서 2년 반 정도의 시간을 보내면서 가졌던 안정감을 버리고 새로운 회사에서는 리스크를 질 수 밖에 없다는 게 크게 와닿았다. 실수 한 번에라도 수습기간에 직장을 잃게 될 수도 있는 게 아닐까하는 생각이 들었다. 단순히 똑같은 일을 하면서 연봉을 높이는 차원은 아니었다. 그래도 이직에 성공하여 차츰 자리를 잡아가는 게 느껴진다. 새로운 회사에 온만큼 새로운 기술을 배우고 있고 내 몫을 해내고 있다.나는 BW 시스템에 익숙하지 않았다. BI를 한다고 하면 SAP BO ETL 툴을 낀 DW 시스템을 운용하였다. 데이터 모델링이나 ETL 과정에서..

개발일기 2024.11.01

SQLP 시험 후기

어제는 SQLP 시험을 쳤다. 데이터 관련 개발자인만큼 데이터 관련해서 남들보다 좀 더 아는 게 좋지 않을까하는 생각에서 시작한 도전이었다. 조금 더 나은 개발자가 되어서 잘 자리잡아야 한다는 조바심도 나를 새로운 공부로 이끌었다. 5개월 전쯤의 일이었다. 시험을 준비하는 건 쉽지 않은 일이었다. 업무는 업무대로 존재했고 이직 준비, 사회활동 등의 이유로 공부할 시간을 내기 어려운 때도 있었다. 그리고 어제 시험을 쳤다. 지금 느끼기로는 합격하기는 어렵지 않을까하는 생각이 든다. 개념이 내 머릿속에 잘 정리되어 있다기보다는 큰 덩어리로 자리잡고 있을 뿐이었기에 시험을 칠 준비는 되어 있지 않은 듯했다. 그러나 시험을 준비하는 과정은 내게 많은 것을 느끼게 했다.   내가 모른다는 사실을 안다는 건 어려운..

자격증 2024.08.25

DW/ETL - 기간 누계(YTD, MTD) 데이터

개요DW 비즈니스 환경에서는 기간 단위로 누계 데이터를 요구하는 케이스가 무척 많다. 대표적으로 연 누계(Year-To-Date, YTD)와 월 누계(Month-To-Date, MTD)이다. 연 누계란 특정 년도의 시작일부터 기준일까지의 누적 데이터를 의미하며 MTD는 특정 월 시작일부터 기준일까지의 누적데이터를 의미한다. 이 두가지 누계 데이터가 많이 사용되는 이유는 비즈니스 환경에서 데이터를 유의미하게 나누는 기준이 년, 월 단위이기 때문이다. 년, 월 단위 누계 데이터를 조회할 경우 성장세, 목표달성률, 트랜드 등을 한 눈에 보기 편하고 유의미한 전략적 의사결정을 내리기 쉽다. 따라서 기간 누계 데이터를 다루는 방법에 대해서 알 필요가 있다.MTD와 YTD 물리 적재의 문제점우선 DW에서는 MTD,..

BI 2024.07.27

DW/ETL - 팩트 테이블 가산성 및 NULL 값처리

개요팩트 테이블은 실적, 판매 수량과 같은 수치를 차원 ID 들과 함께 매핑하여 저장하는 테이블이다. 이때 저장되는 데이터를 몇 가지 특징으로 나눌 수 있다. 이 특징에 따라서 해당 수치값을 어떻게 저장해야 하는지, 어떻게 계산하여 새로운 마트로 구성할 수 있는지가 다를 수 있다. 이글에서는 이 부부에 대해서 다루어 보고자 한다. 가산성수치값은 대부분 합산하여 활용하는 것이 직관적이다. 하지만 모든 수치값이 합산하여 계산할 수 있는 것은 아니다. 합산해서는 안 되는 값을 합산하여 계산하여 활용하거나 저장할 경우 의미없는 데이터를 조회하게 될 뿐이다. 이를 방지하기 위해서라도 저장되는 데이터의 가산성에 대해서 제대로 이해하고 있을 필요가 있다. 데이터의 가산성은 완전 가산성, 반 가산성, 비가산성으로 나눌..

BI 2024.07.18

DW/ETL - 스타 스키마와 스노우플레이크 스키마

개요스타스키마와 스노우 플레이크 스키마는 데이터웨어하우스와 데이터 마트에서 많이 사용되는 스키마이다. 차원과 팩트 테이블로 나누어지고 중앙에 팩트 테이블이 존재하는 스키마라는 점에서 둘은 동일하나 세부적인 면에서 차이가 있다. 이 글에서는 이 두 스키마에 대해서 정리해보도록 하겠다. 스타스키마구성 요소팩트 테이블: 주요 비즈니스 이벤트나 트랜잭션 데이터를 저장한다. 예를 들어, 매출, 수익, 판매량 등의 측정 값이 포함된다. 팩트 테이블은 외래키를 통해 차원 테이블과 연결된다.차원 테이블: 분석에 필요한 다양한 속성을 저장한다. 예를 들어 시간, 제품, 고객, 지역 등이 차원 테이블에 해당한다. 차원 테이블은 각 속성을 설명하는 컬럼들을 가지고 있으며 주로 비정규화된 형태로 저장된다.비정규화비정규화는 데..

BI 2024.07.12

DW/ETL - 팩트 테이블과 차원 테이블 설계

개요데이터웨어하우스의 설계에서 팩트 테이블과 차원 테이블은 데이터를 효율적으로 저장하고 분석하기 위해 필수적인 요소이다. 이번 글에서는 팩트 테이블과 차원 테이블의 설계 방법에 대해 자세히 알아보도록 하겠다.팩트 테이블 설계팩트 테이블은 비즈니스 이벤트나 활동을 나타내는 데이터를 저장한다. 주로 수량, 금액, 획수 등의 측정값을 포함한다. 팩트 테이블은 다음과 같은 단계를 따른다.측정값 정의:팩트 테이블에 저장할 측정값을 정의한다. 예를 들어, 판매 데이터의 경우 판매량, 매출액, 할인 금액 등이 측정값이 될 수 있다.핵심 이벤트 식별:팩트 테이블은 특정 비즈니스 이벤트를 나타내므로 어떤 이벤트를 저장할 것인지 결정한다. 예를 들어, 판매 이벤트, 주문 이벤트, 클레임 이벤트 등이 있을 수 있다.키 구성..

BI 2024.07.08

DW/ETL - 차원 모델링

개요이 글에서는 차원 모델링이 무엇인지, 차원 모델링은 왜 필요한지를 정리한다. 차원 모델링은 데이터 웨어하우스를 학습하면서 주로 접하게 되는 개념이다. 데이터를 효율적으로 저장하고 분석하기 쉽게 구조화하는 기법으로 데이터 웨어하우스 설계의 핵심적인 부분을 차지한다. 이에 대해서 자세히 알아보도록 하겠다. 차원 모델링차원 모델링은 데이터를 특정한 방식으로 조직화하는 방법으로 주로 데이터웨어하우스에서 사용된다. 데이터 웨어하우스는 보고서 작성과 OLAP 용도로 데이터를 사용하기 때문에 사용성과 성능이 중요하다. 차원 모델은 이러한 요구사항을 충족시키기 위한 최적의 방법이다.차원 모델링의 주요 구성 요소는 다음과 같다.펙트 테이블비즈니스 활동이나 사건을 나타내는 측정값(예: 판매량, 수익 등)을 저장한다.많..

BI 2024.07.06