BI 19

DW/ETL - 스테이징 영역과 데이터 마트

개요데이터 웨어하우스의 두 가지 구성 요소 스테이징 영역과 데이터 마트에 대해서 알아본다. 둘은 데이터를 분석 가능한 형태로 변환하는데 중요한 역할을 한다. 이 두 가지 요소의 필요성과 구성에 대해서 자세히 살펴보도록 하겠다.스테이징 영역스테이징 영역은 ETL 프로세스에서 데이터를 추출한 후 임시로 저장하는 장소이다. 스테이징 영역의 주요 목적과 기능은 다음과 같다.데이터 추출:원천 시스템에서 데이터를 빠르게 읽어와 스테이징 영역에 저장한다. 소스 시스템의 성능 저하를 방지하기 위해 가능한 한 빨리 데이터를 추출하여 저장하는 것이 중요하다.데이터 저장:스테이징 영역에서는 다양한 형식의 데이터를 테이블 형태로 저장한다. 이는 CSV 파일, JSON 파일 등 다양한 형식을 관계형 데이터베이스 테이블로 변환하..

BI 2024.06.26

DW/ETL - 데이터 웨어하우스 레이어

개요데이터 웨어하우스는 현대 데이터 관리의 핵심 구성 요소로 방대한 양의 데이터를 효율적으로 저장, 검색, 분석할 수 있게 한다. 이번 글에서는 데이터 웨어하우스의 아키텍처를 구성하는 여러 레이어에 대해 깊이 있게 정리해보도록 하겠다. 각 레이어는 데이터의 무결성, 변환, 접근성을 보장하는 중요한 역할을 한다.데이터 웨어하우스의 레이어데이터웨어하우스는 여러 레이어로 구성되어 있다. 각 레이어는 특정한 역할을 담당하며 데이터를 체계적으로 관리하고 가공한다.스테이징 레이어 (Staging Layer)스테이징 레이어는 다양한 형식과 파일의 소스 데이터를 첫 번째 레이어로 추출하는 단계이다. 이 단계에는 데이터를 가능한 한 원본 그대로 유지하면서 테이블 형태로 저장한다. 예를 들어 여러 부서의 직원 테이블이 C..

BI 2024.06.26

DW/ETL - 데이터 레이크와 데이터 웨어하우스

개요데이터 웨어하우스와 데이터 레이크는 모두 데이터를 저장하는 중앙 집중화된 장소를 제공하지만, 이 두가지는 그 목적과 사용 방법에서 다르다. 이번 글에서는 데이터 레이크와 데이터 웨어하우스의 차이점을 이해하고, 각각의 기술이 언제 사용되는지 다루어보겠다.데이터 웨어하우스데이터 웨어하우스는 주로 분석과 비즈니스 인텔리전스를 위해 사용된다. 주요 특징은 구조화된 데이터, 고성능 쿼리, 사용자 친화적, 특정 목적 지향으로 다룰 수 있다. 이는 앞선 글에서도 다루었기에 자세히 다루지는 않겠다.데이터 레이크데이터 레이크는 다양한 형식의 원시 데이터를 저장하는데 사용된다. 주요 특징은 다음과 같다.비구조화된 데이터: 구조화되지 않은 원시 데이터, 예를 들어 JSON, XML 파일, 이미지, 비디오 등을 저장한다...

BI 2024.06.24

DW/ETL - BI 이해

개요데이터 웨어하우스는 비즈니스 인텔리전스(BI)를 위해 구축된다. BI는 데이터를 통해 의미 있는 인사이트를 도출하여 더 나은 의사결정을 내리는 것을 목표로한다. 이번 글에서는 BI의 정의와 중요성, 그리고 데이터 웨어하우스의 역할에 대해서 다루어보겠다.비즈니스 인텔리스전스(BI)란 무엇인가?비즈니스 인텔리전스는 데이터 수집, 통합, 분석, 시각화 보고서를 통해 기업의 현황을 파악하고 미래를 예측하며 전략적 의사 결정을 지원하는 일련의 과정과 기술을 의미한다. BI는 데이터를 정보로 정보를 인사이트로, 인사이트를 행동으로 변환하는 것을 목표로 한다. 역할의 중요성을 정리하자면 아래와 같다.의사결정 지원: BI는 정확하고 신뢰할 수 있는 데이터를 바탕으로 의사결정을 지원한다.운영 효율성 향상: BI 도구..

BI 2024.06.23

DW/ETL - 데이터웨어하우스의 이해

개요데이터웨어하우스는 분석 목적을 위해 최적화된 데이터베이스이다. 이번 글에서는 데이터웨어하우스의 정의와 역할, 그리고 데이터 웨어하우스를 구축하기 위한 핵심과정인 ETL 프로세스에 대해 자세히 다루어보겠다.데이터 웨어하우스의 정의와 필요성데이터 웨어하우스는 사용자가 데이터를 쉽게 이해하고 분석할  수 있도록 설계된 데이터베이스이다. 주요 특징은 다음과 같다.사용자 친화적: 기술적으로 복잡하지 않고 데이터 분석가가 쉽게 데이터를 검색하고 처리할 수 있도록 최적화 되어 있다.빠른 쿼리 성능: 대량의 데이터를 빠르게 처리할 수 있어야 한다.중앙 집중화 다양한 출처에서 데이터를 모아 일관된 구조로 저장한다.운영 데이터 시스템과의 차이점운영 데이터 시스템(OLTP)는 주로 판매 데이터, HR 시스템 CRM 시스..

BI 2024.06.22

DW/ETL - 데이터 웨어하우스의 필요성

개요BI/OLAP 개발자로서 데이터웨어하우스와 ETL, 차워 모델링에 대한 개념을 정리할 필요를 느꼈다. 이에 대한 관련 지식을 정리하면서 하나씩 써내려갈 생각이다. 가장 먼저 데이터 웨어하우스가 왜 필요한지를 짚어보는 것을 첫번째 주제로 삼았다. 데이터 웨어하우스는 기업의 운영과 분석에 필수적인 요소이다. 데이터의 효율적인 사용을 통해서 기업은 조직 운영을 원활히 하고 미래를 위한 전략적인 결정을 내릴 수 있다. 데이터의 두 가지 사용 목적을 OLTP, OLAP으로 나누어 살펴보고 이를 통해 데이터 웨어하우스의 필요성을 정리할 수 있도록 하겠다.OLTP( Online Transactional Processing )운영 데이터는 기업의 일상적인 활동을 지원하는데 사용된다. 여기에는 주문 접수 및 이행, ..

BI 2024.06.21

경영 정보 시각화 - 1 : 경영과 정보

개요이 글은 경영 정보 시각화 시험에서 다루어지는 개념들을 정리하여 쓴 글이다. 주요 개념은 대한상공회에서 제공하는 시험가이드를 참고하여 정리하였으며 제공되는 정보 이외에도 알고 싶은 부분도 찾아서 정리해보았다. 오늘은 경영과 정보에 대하여 정리해보도록 하겠다. 경영(Management)경영은 조직의 목표를 달성하기 위해 자원을 효과적으로 계획하고 실행하며, 점검하고 개선하는 과정이다. 이 과정은 일반적으로 PDCA 사이클(Plan-Do-Check-Act)로 요약된다.계획: 목표를 설정하고 이를 달성하기 위한 전략과 방법을 수립한다.실행: 계획을 실행에 옮기고 실질적인 활동을 시작한다.점검: 실행 결과를 모니터링하고 평가하여 계획된 목표와의 차이를 확인한다.개선: 점검 결과를 바탕으로 필요한 조치를 취하..

BI 2024.06.01

다시 블로그 연재 시작

문예창작학과 비전공자로서 개발자의 삶을 시작한 이후 2년이 넘는 시간이 지났다. IT 학원을 다니고 정보처리기사를 따고 취업을 성공할 때까지만 해도 나는 블로그를 계속 연재하는 개발자가 되고 싶다고 생각했다. github에 서브프로젝트를 계속 올리고 꾸준히 새로운 기술을 탐구하는 개발자가 되리라고 생각했다. 하지만 나는 그런 개발자가 아닌 채로 2년을 보냈다. 그렇게 보내게 된 데에 여러가지 변명이 떠오르긴 한다. '몇주 동안 지속적인 야근이 있는 프로젝트를 수행하면서 연재를 할 수는 없었다.' '보안이 중요시 되는 프로젝트를 돌아다니다보니 일하면서 글을 연재하기에 상황이 좋지 않았다.' '회사 일에 적응하는데 매진하느라 힘들었다' 등등. 맞는 말이고 평범한 개발자라면 하게 되는 일이다. 하지만 평범한 ..

BI 2024.03.10

취업 후 근황

잠시 중단했던 블로그를 다시 시작하며 근황에 대해서 적고자 한다. BI 카테고리의 첫글이 되기에도 적당하다고 느꼈다. 현재 일하고 있는 분야가 BI 쪽 개발 운영 일이기 때문이다. 국비교육에서 자바 웹 개발을 배우고 정보처리기사를 딴 뒤에 뻥튀기 인력파견 업체에 취업했던 게 이전에 글을 올렸을 때까지의 근황이었다. 비전공자이기도하고 내세울만한 학력이 있는 것도 아니었으며 나이도 적은 건 아니었기에 어쩔 수 없는 선택이라고 여기며 들어간 일자리였다. 3년차 타이틀을 달고 투입된 프로젝트는 난데없는 데이터 진단 프로젝트였다. 자바를 하는 것도 아니었고 웹을 개발할 일도 없었다. 파이썬으로 크롤링하여 데이터를 수집하고 데이터 검증하는 일들이었다. 그곳에서 나는 이직 제안을 받고 데이터를 다루는 업체로 이직했다..

BI 2023.05.11