BI

DW/ETL - 데이터 레이크와 데이터 웨어하우스

초롱불 2024. 6. 24. 12:35

개요

데이터 웨어하우스와 데이터 레이크는 모두 데이터를 저장하는 중앙 집중화된 장소를 제공하지만, 이 두가지는 그 목적과 사용 방법에서 다르다. 이번 글에서는 데이터 레이크와 데이터 웨어하우스의 차이점을 이해하고, 각각의 기술이 언제 사용되는지 다루어보겠다.

데이터 웨어하우스

데이터 웨어하우스는 주로 분석과 비즈니스 인텔리전스를 위해 사용된다. 주요 특징은 구조화된 데이터, 고성능 쿼리, 사용자 친화적, 특정 목적 지향으로 다룰 수 있다. 이는 앞선 글에서도 다루었기에 자세히 다루지는 않겠다.

데이터 레이크

데이터 레이크는 다양한 형식의 원시 데이터를 저장하는데 사용된다. 주요 특징은 다음과 같다.

  • 비구조화된 데이터: 구조화되지 않은 원시 데이터, 예를 들어 JSON, XML 파일, 이미지, 비디오 등을 저장한다.
  • 유연한 저장: 대량의 데이터를 저장할 수 있는 유연성을 제공한다.
  • 다양한 사용 사례: 특정 목적 없이 데이터를 저장하여 다양한 사용 사례에 대비할 수 있다.
  • 높은 기술 요구: 데이터 과학자와 같은 고급 기술을 가진 사용자가 데이터를 처리하고 분석한다.

주요 차이점

  1. 데이터 형식: 데이터 웨어하우스는 구조화된 데이터를 저장하는 반면 데이터 레이크는 비구조화된 원시 데이터를 저장한다.
  2. 사용 목적: 데이터 웨어하우스는 특정한 비즈니스 분석 목적을 위해 사용되나 데이터 레이크는 여러 잠재적인 사용 사례에 대비한다.
  3. 데이터 처리: 데이터 웨어하우스는 ETL 과정을 통해 데이터를 정제하고 변환하나 데이터 레이크는 원시 데이터를 그대로 저장한다.
  4. 접근성: 데이터 웨어하우스는 비즈니스 사용자에게 친화적이며 쉽게 접근하고 사용할 수 있으나 데이터 레이크는 고급 기술을 가진 데이터 과학자가 주로 사용한다.

활용 방안

데이터 웨어하우스와 데이터 레이크는 상호 배타적이지 않으며 함께 사용할 수 있다. 데이터 레이크는 대량의 비구조화 데이터를 저장하는 데 유용하며 데이터 웨어하우스는 이 데이터를 정제하여 비즈니스 인텔리전스 목적에 맞게 사용한다. 클라우드 기술의 발전으로 데이터 레이크는 확장 가능성이 뛰어나고 데이터 웨어하우스는 인사이트를 도출 할 수 있는 환경을 제공한다.

실무 경험 관련

아쉽게도 데이터 레이크와 관련된 실무 경험은 없다. 그나마 비슷한 경우를 겪었던 거라면 공공데이터 진단을 할 때 가이드 문서를 수집하여 가이드 문서가 제대로 존재하는지 체크하는 시스템을 만든 점이나 API에 있는 JSON 데이터를 되는 대로 모아서 엑셀에 저장하고 이에 대한 점수 평가를 수행하던 경험이 있다. 이 경우도 일시적인 원시 데이터를 수집한 것에 불과하기에 데이터 레이크와는 거리가 멀다.

결론

데이터 레이크와 데이터 웨어하우스는 각각의 장점과 목적이 다르다. 기업은 이 두가지를 적절히 활용하여 데이터를 효과적으로 관리하고 분석할 수 있다. 데이터 레이크는 다양한 형식의 원시 데이터를 저장하고 데이터 웨어하우스는 이 데이터를 정제하여 분석 가능한 형식으로 저장함으로써 비즈니스 인텔리전스를 강화할 수도 있다.