데이터

데이터 거버넌스와 데이터 관리

초롱불 2025. 2. 9. 20:49

개요

이번 글에서는 데이터 거버넌스와 데이터 관리에 대해서 정리해보고자 합니다. 데이터 거버넌스와 데이터 관리는 혼동되기 쉬운 개념입니다. 이 둘의 개념을 명확히 하여 혼동되지 않도록 하며 어떤 분야에 어떤 활동이 속하는지를 확인할 수 있도록 하는 것이 이번 글의 목표입니다.

1. 데이터 관리와 데이터 거버넌스의 차이

데이터 관리

  • 정의: 데이터를 직접 다루고 품질을 개선하는 기술적이고 운영적인 활동
  • 목표: 단기적으로 데이터 품질을 높이고 오류를 수정하며 데이터 신뢰성을 보장함
  • 핵심 역할
    • 데이터 품질 진단 및 평가
    • 데이터 정제 및 수정
    • 데이터 저장, 변환 및 전송 최적화

데이터 거버넌스

  • 정의: 데이터 품질을 유지하고 보호하기 위한 정책과 규칙을 정의하는 전략적 활동
  • 목표: 장기적인 데이터 품질을 유지하며 조직 내 데이터 활용의 일관성을 보장함
  • 핵심 역할
    • 데이터 품질 기준 및 기대치 설정
    • 데이터 정책 및 표준 정의
    • 규정 준수 및 감사를 통한 데이터 품질 유지

2. 데이터 관리의 주요 활동

데이터 관리 활동은 데이터의 품질을 직접적으로 향상시키는 실무적인 활동으로 구성됩니다.

1) 데이터 프로파일링

  • 정의: 특정 데이터 품질을 분석하고 문제점을 식별하는 활동
  • 목적: 데이터 품질을 평가하여 오류, 불일치, 누락된 값을 식별함
  • 실행 방법:
    • 데이터 내 누락된 값 분석(완전성 평가)
    • 데이터 최신성 확인(시의성 평가)
    • 데이터 간의 일관성 확인(일관성 평가)
  • 예제: 고객 데이터베이스를 분석하여 전화번호가 누락된 고객의 비율 파악

2) 데이터 차원 정의

  • 정의: 데이터 품질이 다양한 차원에서 평가될 수 있음을 인식하고 각 차원을 명확히 정의
  • 주요 데이터 품질 차원
    • 완전성: 데이터가 빠짐없이 존재하는가?
    • 정확성: 데이터 값이 올바른가?
    • 시의성: 데이터가 최신인가?
    • 일관성: 여러 소스에서 동일한 값을 유지하는가?
  • 예제: 고객 연락처 데이터가 최신이지만 주소 정보가 누락되었다면 시의성은 높고 완전성은 낮음

3) 데이터 수정

  • 정의: 품질이 낮은 데이터를 정리하고 오류를 수정하는 활동
  • 활동 유형
    • 데이터 파싱: 잘못된 데이터를 추출하여 올바르게 변환
    • 데이터 정제: 비정상적인 데이터를 필터링하거나 수정
    • 데이터 표준화: 여러 소스에서 가져온 데이터를 동일한 형식으로 변환
    • 데이터 보강: 새로운 정보를 추가하여 데이터 품질을 향상
  • 예제: 고객 주소 데이터에서 'Seoul, KR' 대신 '서울특별시, 대한민국'으로 변경

3. 데이터 거버넌스의 주요 활동

데이터 거버넌스는 조직 내 데이터 관리의 체계를 정의하고 장기적인 품질 유지 전략을 수립하는 활동을 포함합니다.

1) 데이터 요구사항 및 기대치 설정

  • 정의: 높은 품질의 데이터를 유지하기 위한 형식, 값 범위 및 조건을 정의
  • 목적: 데이터 입력 및 저장 시 오류를 방지하고 데이터의 일관성을 유지
  • 예제
    • 고객 주소 입력 시 6자리 우편번호 필수
    • 기온 측정 데이터는 섭씨 -50~50의 값만 허용

2) 정책 및 표준 정의

  • 정의: 데이터의 생성, 사용, 저장, 전송, 삭제 등과 관련된 정책과 표준을 정의
  • 목적: 데이터 품질을 유지하고 규정을 준수하며 일관된 데이터 처리를 보장
  • 정책유형
    • 데이터 입력 정책: 고객 정보 입력 시 필수 필드 정의
    • 데이터 삭제 정책: 일정 기간 이후 개인 식별 정보 삭제
    • 데이터 공유 정책: 외부 시스템과의 데이터 교환 시 표준화된 형식 사용
  • 예제
    • 신규 거래 데이터 입력 시 거래 금액이 2000만원 이상이면 별도 보고서 필요
    • 개인 식별 정보는 24시간 내에 자동 삭제

3) 프로세스 통제 및 감사

  • 정의: 데이터 품질 정책이 실제 운영에서 지켜지는지 검증하는 활동
  • 목적: 데이터 정책이 준수되는지 확인하고 데이터 품질을 지속적으로 평가
  • 방법
    • 자동화된 감시 시스템: SQL 트리거, 데이터 모니터링 시스템 활용
    • 정기적 감사: 사람이 직접 샘플 데이터를 점검하여 오류 확인
  • 예제
    • 은행 자금세탁방지 규제 준수:
      • 2000만원 이상 거래 발생 시 자동으로 보고서 생성 여부 확인
      • 정기적으로 과거 거래 데이터 점검하여 미보고 사례 감지

4. 데이터 거버넌스와 데이터 관리의 상호작용

  • 데이터 관리는 실질적인 데이터 품질 문제를 해결하는 활동을 수행
  • 데이터 거버넌스는 데이터 관리 활동을 바탕으로 정책과 표준을 정의
  • 상호작용 예시
    • 데이터 프로파일링을 통해 오류를 발견 -> 데이터 거버넌스 팀이 새로운 정책 수립
    • 데이터 거버넌스에서 정책을 설정 -> 데이터 관리 팀이 이를 준수하도록 시스템 개선

5. 결론

데이터 관리는 데이터를 실질적으로 다루고 품질을 개선하는 활동이며 데이터 거버넌스는 품질을 유지하기 위한 정책과 절차를 정의하는 활동이다. BI 엔지니어인 나로서는 대부분 데이터 관리의 업무를 수행하였고 데이터 거버넌스 측 활동은 주어지는 대로 수행하는 것이 전부였다. 하지만 어떤 규칙이 주어지고 수행되어야 하는지에 대하여 조금 더 관심을 가지고 이해하는 것이 앞으로의 시스템 구축 능력 개선에 도움을 줄 수 있을 듯하다.