분류 전체보기 154

데이터 거버넌스와 데이터 관리

개요이번 글에서는 데이터 거버넌스와 데이터 관리에 대해서 정리해보고자 합니다. 데이터 거버넌스와 데이터 관리는 혼동되기 쉬운 개념입니다. 이 둘의 개념을 명확히 하여 혼동되지 않도록 하며 어떤 분야에 어떤 활동이 속하는지를 확인할 수 있도록 하는 것이 이번 글의 목표입니다.1. 데이터 관리와 데이터 거버넌스의 차이데이터 관리정의: 데이터를 직접 다루고 품질을 개선하는 기술적이고 운영적인 활동목표: 단기적으로 데이터 품질을 높이고 오류를 수정하며 데이터 신뢰성을 보장함핵심 역할데이터 품질 진단 및 평가데이터 정제 및 수정데이터 저장, 변환 및 전송 최적화데이터 거버넌스정의: 데이터 품질을 유지하고 보호하기 위한 정책과 규칙을 정의하는 전략적 활동목표: 장기적인 데이터 품질을 유지하며 조직 내 데이터 활용의..

데이터 2025.02.09

데이터 관리/거버넌스/보안/윤리 - 1

1. 개요새로운 블로그 연재글 소재 및 학습 내용으로 데이터 관리/거버넌스/리터러시를 선택하였습니다. 데이터 리터러시에 대하여 공부하고 글을 써야겠다고 생각한 이유는 이런 저런 자료를 찾고 다른 회사들의 데이터 관련 공고를 보는 중에 데이터 거버넌스라는 문구를 보았기 때문입니다. 데이터 관련 일을 하는 사람으로서 데이터 관련 문구가 나왔는데 그게 무엇인지 설명할 수 없다는 게 자존심 상하는 일이었습니다. 데이터 거버넌스에 대해서 찾아서 확인해보면 아예 해본적 없는 분야의 일은 아니었습니다. 데이터를 관리하고 품질을 높이고 정책적인 문제를 피하도록 하는 작업은 언제나 있었던 것이니까요. 하지만 제대로 공부해본적은 없기에 이 부분에 대하여 정리하는 글을 써야겠다고 생각했습니다. 그러면 본격적으로 관련 내용을..

데이터 2025.02.08

Surrogate Key 개념 정리 및 SAP에서의 활용 비교

랄프 킴벌의 데이터웨어하우스 툴킷 책을 읽으며 개념을 정리하다가 대리 키 개념을 정리해보았고 SAP에서의 활용과 비교해보았다. 아래는 GPT를 통한 정리. 서론데이터웨어하우스(DW) 설계에서 대리 키(Surrogate Key)는 데이터 통합과 성능 최적화를 위한 핵심 요소로 알려져 있습니다. 하지만 SAP 시스템에서는 전통적으로 대리 키보다는 자연 키(Natural Key)를 사용하는 방식이 주류를 이루어 왔습니다. 이번 글에서는 SAP의 데이터 모델링 철학과 대리 키 사용 여부에 대해 살펴보고, SAP BW와 최신 SAP HANA 환경에서의 대리 키 활용 사례를 탐구합니다.1. 대리 키란 무엇인가?대리 키(Surrogate Key)는 의미 없는 정수형 키로, 차원 테이블의 기본 키로 사용됩니다. 이는 ..

DW 2024.12.18

BW - 개념정리

SAP BW업무를 하게 된 지도 두 달이 되어간다. 안정화된 운영업무인만큼 그다지 많은 일들이 있지는 않았고 내게 맡겨진 일은 BO 중심이었기에 업무적으로 많이 배울 수는 없었다. 아쉬운 일이지만 그만큼 여유가 있었다. 그 여유를 활용해서 이론적 지식은 많이 익혔고 그것을 정리해보고자 한다. 간단하게 정리하는 것인만큼 캡쳐 화면이나 그림 자료는 없이 글로만 적고 설명하려고 한다. BW 변천사 SAP BW가 어떻게 변하였는지 이해하는 것은 SAP BW를 운영하는 입장에서 중요하다. 회사마다 환경이 다르고 버전이 다르기에 그에 맞는 운영법을 알아야하기 때문이다. SAP BW의 버전은 크게 셋으로 나누어 생각할 수 있다. SAP BW on Any DB, SAP BW On HANA, SAP BW/4HANA가 그..

BW 2024.12.09

ADSO 정리

InfoCube, DSO(Data Store Obeject), PSA(Persistance Staging Area), SPO(Semantically Partitioned object)--> ADSO로 대체 ADSO의 특징ADSO는 BW4H의 핵심 저장소이다.ADSO는 DSO와 CUBE의 특징을 합하였다.인포오브젝트 혹은 필드를 사용할 수 있다.이클립스에서 만들고 유지한다.필드로 구성된 ADOS는 보통 스테이징/Corporate Memory 영역에서 빠른 로딩을 위하여 쓰인다다양한 ADSO의 사용 케이스는 키 모델링 설정에서 가능하다.인벤토리 로드를 설정할 수 있다.계획을 설정할 수 있다.기록 인터페이스를 설정할 수 있다. DSO는 세 개의 테이블로 구성된다.Inbound:/BIC/A1Active Data..

BW 2024.11.01

10월 한 달 동안 있었던 일

지난 달에는 새로운 회사로 이직하였다. SAP를 전문적으로 다루는 회사이다.정든 회사를 떠나는 것도 새로운 회사에 적응하는 것도 생각만큼 쉽진 않은 일이었다.이전 회사에서 2년 반 정도의 시간을 보내면서 가졌던 안정감을 버리고 새로운 회사에서는 리스크를 질 수 밖에 없다는 게 크게 와닿았다. 실수 한 번에라도 수습기간에 직장을 잃게 될 수도 있는 게 아닐까하는 생각이 들었다. 단순히 똑같은 일을 하면서 연봉을 높이는 차원은 아니었다. 그래도 이직에 성공하여 차츰 자리를 잡아가는 게 느껴진다. 새로운 회사에 온만큼 새로운 기술을 배우고 있고 내 몫을 해내고 있다.나는 BW 시스템에 익숙하지 않았다. BI를 한다고 하면 SAP BO ETL 툴을 낀 DW 시스템을 운용하였다. 데이터 모델링이나 ETL 과정에서..

개발일기 2024.11.01

SQLP 시험 후기

어제는 SQLP 시험을 쳤다. 데이터 관련 개발자인만큼 데이터 관련해서 남들보다 좀 더 아는 게 좋지 않을까하는 생각에서 시작한 도전이었다. 조금 더 나은 개발자가 되어서 잘 자리잡아야 한다는 조바심도 나를 새로운 공부로 이끌었다. 5개월 전쯤의 일이었다. 시험을 준비하는 건 쉽지 않은 일이었다. 업무는 업무대로 존재했고 이직 준비, 사회활동 등의 이유로 공부할 시간을 내기 어려운 때도 있었다. 그리고 어제 시험을 쳤다. 지금 느끼기로는 합격하기는 어렵지 않을까하는 생각이 든다. 개념이 내 머릿속에 잘 정리되어 있다기보다는 큰 덩어리로 자리잡고 있을 뿐이었기에 시험을 칠 준비는 되어 있지 않은 듯했다. 그러나 시험을 준비하는 과정은 내게 많은 것을 느끼게 했다.   내가 모른다는 사실을 안다는 건 어려운..

자격증 2024.08.25

DW/ETL - 기간 누계(YTD, MTD) 데이터

개요DW 비즈니스 환경에서는 기간 단위로 누계 데이터를 요구하는 케이스가 무척 많다. 대표적으로 연 누계(Year-To-Date, YTD)와 월 누계(Month-To-Date, MTD)이다. 연 누계란 특정 년도의 시작일부터 기준일까지의 누적 데이터를 의미하며 MTD는 특정 월 시작일부터 기준일까지의 누적데이터를 의미한다. 이 두가지 누계 데이터가 많이 사용되는 이유는 비즈니스 환경에서 데이터를 유의미하게 나누는 기준이 년, 월 단위이기 때문이다. 년, 월 단위 누계 데이터를 조회할 경우 성장세, 목표달성률, 트랜드 등을 한 눈에 보기 편하고 유의미한 전략적 의사결정을 내리기 쉽다. 따라서 기간 누계 데이터를 다루는 방법에 대해서 알 필요가 있다.MTD와 YTD 물리 적재의 문제점우선 DW에서는 MTD,..

BI 2024.07.27

DW/ETL - 팩트 테이블 가산성 및 NULL 값처리

개요팩트 테이블은 실적, 판매 수량과 같은 수치를 차원 ID 들과 함께 매핑하여 저장하는 테이블이다. 이때 저장되는 데이터를 몇 가지 특징으로 나눌 수 있다. 이 특징에 따라서 해당 수치값을 어떻게 저장해야 하는지, 어떻게 계산하여 새로운 마트로 구성할 수 있는지가 다를 수 있다. 이글에서는 이 부부에 대해서 다루어 보고자 한다. 가산성수치값은 대부분 합산하여 활용하는 것이 직관적이다. 하지만 모든 수치값이 합산하여 계산할 수 있는 것은 아니다. 합산해서는 안 되는 값을 합산하여 계산하여 활용하거나 저장할 경우 의미없는 데이터를 조회하게 될 뿐이다. 이를 방지하기 위해서라도 저장되는 데이터의 가산성에 대해서 제대로 이해하고 있을 필요가 있다. 데이터의 가산성은 완전 가산성, 반 가산성, 비가산성으로 나눌..

BI 2024.07.18

DW/ETL - 스타 스키마와 스노우플레이크 스키마

개요스타스키마와 스노우 플레이크 스키마는 데이터웨어하우스와 데이터 마트에서 많이 사용되는 스키마이다. 차원과 팩트 테이블로 나누어지고 중앙에 팩트 테이블이 존재하는 스키마라는 점에서 둘은 동일하나 세부적인 면에서 차이가 있다. 이 글에서는 이 두 스키마에 대해서 정리해보도록 하겠다. 스타스키마구성 요소팩트 테이블: 주요 비즈니스 이벤트나 트랜잭션 데이터를 저장한다. 예를 들어, 매출, 수익, 판매량 등의 측정 값이 포함된다. 팩트 테이블은 외래키를 통해 차원 테이블과 연결된다.차원 테이블: 분석에 필요한 다양한 속성을 저장한다. 예를 들어 시간, 제품, 고객, 지역 등이 차원 테이블에 해당한다. 차원 테이블은 각 속성을 설명하는 컬럼들을 가지고 있으며 주로 비정규화된 형태로 저장된다.비정규화비정규화는 데..

BI 2024.07.12