데이터 웨어하우스(DW)란?
데이터 관리 시스템으로 여러 소스로부터 얻은 대량의 데이터를 중앙 집중화 및 통합
사용이유
다양한 대량의 소스로부터 얻은 데이터를 결합하거나,
분석에 적합한 형식인지 확인하거나,
시간이 지남에 따라 현재 및 장기적인 데이터 뷰를 모두 확보하기 위해서
특징
- 쿼리 및 분석을 수행하기 위한 용도로만 사용
- 많은 양의 데이터를 처리 가능
- 데이터 저장 및 관리 위한 관계형 데이터 베이스
- 분서용 데이터 준비 위한 ETL 솔루션
- 통계 분석, 보고 및 데이터 마이닝 가능
- 데이터 시각화, 비즈니스 사용자에게 제공하기 위한 클라이언트 분석 도구
- 정교한 분석으로 다양한 종류의 데이터 분석을 가능케 하는 공간 분석 기능
설계
분석 계층 (상위 계층)
: 보고, 분석 및 데이터 마이닝 도구를 통해 결과를 제시하는 프런트 엔드 클라이언트
- 프론트 엔드 클라이언트 계층
- 사용자가 데이터와 상호작용하고
- 대시보드와 리포트를 생성하며 KPI 모니터링, 데이터 분석, 앱 구축 등 데이터 웨어하우스 액세스 툴을 보유
- 데이터 탐색과 신규 데이터 모델 개발을 위한 워크벤치나 샌드박스 영역이 포함 경우
의미 계층 (중간 계층)
: 데이터를 엑세스하고 분석하는데 사용되는 분석 엔진
- 온라인 분석 처리(OLAP)와 온라인 트랜잭션 처리(OLTP) 서버가 데이터를 재구성해 빠르고 복잡한 쿼리와 분석
데이터 계층 (하위 계층)
: 데이터가 로드되고 저장되는 데이터베이스 서버
- 데이터는 소스에서 추출해 ETL 툴을 사용해 하위 계층으로 변화 및 로드
- 데이터베이스 서버, 데이터 마트, 데이터 레이크로 구성
- 메타데이터는 이 하위 계층에서 생성되며, 데이터 가상화와 같은 데이터 통합 툴은 데이터를 원활하게 결합하고 집계
데이터 저장방법
1. 자주 엑세스하는 데이터는 매우 빠른 스토리지에 저장 ex.ssd 드라이브
2. 자주 엑세스하지 않는 데이터는 저렴한 객체 스토어에 저장 ex. amazon s3
* 데이터 웨어하우스는 자주 액세스되는 빠른 스토리지로 이동되어 쿼리 속도가 최적화되는지 자동으로 확인
데이터 웨어하우스에 저장되는것
1. 최초
사람, 제품, 거래에 관한 정보인 정형데이터를 쉽게 액세스할 수 있도록 간결하게 구조화해 일정한 형식으로 저장
2. 요구
문서, 이미지, 영상, 전자메일, 소셜 미디어 포스트, 기계 센서의 원시 데이터 등 비정형 데이터도 저장하길 원함
3. 현재 최신
정형, 비정형모두 수용
= 데이터 유형을 통합하고 두 유형 간의 사일로(단절)을 제거함
작동원리
- 데이터 웨어하우스는 여러 개의 데이터베이스가 포함가능
- 각 DB 내에서 데이터는 테이블 및 열로 구성
- 각 열 내에서 사용자는 정수, 데이터 필드 또는 문자열 등 데이터의 설명을 정의 가능
- 테이블은 스키마 내부에 구성될 수 있으며, 이는 폴더와 같은 역할
- 데이터가 수집되면 스키마에 의해 설명되는 다양한 테이블에 저장
- 쿼리 도구는 스키마를 사용하여 어떤 데이터 테이블을 엑세스하고 분석할지 결정
이점
- 절차지향적 : 특정 절차, 기능 영역에 대한 데이터 분석 가능, 과거 데이터 분석, 대량의 이형 데이터 분석, 그로부터 중요한 가치 추출, 기록 데이터를 보관
- 통합 : 이질적인 소스로부터 얻은 다양한 데이터 유형 간에 일관성 생성, 여러 데이터 소스의 통합, 데이터 품질, 일관성 및 정확성
- 비 휘발성 : 일단 저장되면, 데이터는 안정적인 상태가 되어 변경되지 않음
- 시간 변이적 : 분석을 통해 시간 경과에 따른 변화 확인
- 정보에 기반한 의사 결정
- 트랜잭션 DB와 분석 처리를 분리하여 두 시스템 모두의 성능 향상
주요 용어
01
데이터 웨어하우스 vs 데이터베이스
데이터베이스와 데이터 웨어하우스는
모두 데이터 스토리지 시스템 하지만 각각 다른 목적을 수행
데이터베이스는
특정 비즈니스 영역에 해당하는 데이터를 저장
데이터 웨어하우스는
비즈니스 전체에 해당하는 현재 및 이력 데이터를 저장하며 BI와 분석을 제공
데이터베이스 서버를 사용해 기업 데이터베이스에서 데이터를 가져오고 데이터 모델링, 데이터 수명주기 관리, 데이터 소스 통합 등을 위한 추가적인 기능 포함
특징데이터 웨어하우스트랜잭션 데이터베이스
적합한 워크로드 | 분석, 보고, 빅 데이터 | 트랜잭션 처리 |
데이터 원본 | 여러 소스로부터 수집되고 정규화된 데이터 | 트랜잭션 시스템과 같이 단일 소스에서 있는 그대로 캡처한 데이터 |
데이터 캡처 | 대개 미리 결정된 대량 배치 일정에 따른 대량 쓰기 작업 | 트랜잭션 처리량을 최대화할 수 있도록 새로운 데이터가 사용 가능해지면서 연속적인 쓰기 작업에 최적화됨 |
데이터 정규화 | 스타 스키마 또는 눈송이 스키마와 같이 비정규화된 스키마 | 고도로 정규화된 정적 스키마 |
데이터 스토리지 | 컬럼 방식 스토리지를 사용하여 간단한 액세스 및 고속 쿼리 성능에 대해 최적화됨 | 단일 행 지향 물리적 블록에 대한 고도의 처리량 쓰기 작업에 최적화됨 |
데이터 액세스 | I/O를 최소화하고 데이터 처리량을 최대화하도록 최적화됨 | 대량의 소규모 읽기 작업 |
02
데이터 웨어하우스 vs 데이터 레이크
데이터 웨어하우스와 데이터 레이크는 빅데이터를 저장하는 데 사용되지만, 매우 다른 특성을 지닌 스토리지 시스템
데이터 웨어하우스는
특정 목적을 위해 형식이 지정된 데이터를 저장
데이터 레이크는
처리되지 않은 원시 상태, 즉, 아직 정의되지 않은 데이터를 저장
데이터 웨어하우스와 데이터 레이스는 상호 보완적인 관계
예를 들어, 데이터 레이크에 저장된 원시 데이터는 비즈니스 질문에 답하기 위해 필요한 경우 추출, 정리, 변환되어 분석을 위해 데이터 웨어하우스에서 사용할 수 있습니다.
데이터 볼륨, 데이터베이스 성능, 스토리지 가격은 적합한 스토리지 솔루션을 선택하는 데 중요한 역할을 합니다
데이터 레이크란?
데이터 레이크는 비즈니스 애플리케이션의 정형 데이터 또는 모바일 앱, 소셜 미디어, 사물인터넷(IoT) 장치의 비정형 데이터 등 모든 종류의 빅데이터를 저장하는 장소입니다. 데이터는 정형, 비정형, 반정형, 이진 등 본래의 형식으로 저장되기 때문에 다양한 데이터 유형 전반에 대한 분석을 시행하기 위해서는 변환, 정규화 또는 그 외 처리 과정이 반드시 필요할 수 있습니다. 대부분의 데이터 레이크는 대용량의 데이터를 저장하며 분산된 소스에 대한 고속 연결과 확장성에 대한 필요성으로 인해 클라우드를 기반으로 합니다.
특징데이터 웨어하우스데이터 레이크
데이터 | 트랜잭션 시스템, 운영 데이터베이스 및 사업 부서(LOB) 애플리케이션의 관계형 데이터 | 정형, 반정형 및 비정형 등 모든 데이터 |
스키마 | 일부 경우 데이터 웨어하우스를 구현하기 전 설계되며 분석과 동시에 작성 가능 (스키마-온-라이트 또는 스키마-온-리드) |
분석 시에 작성됨(스키마-온-리드) |
가격/성능 | 로컬 스토리지를 사용하여 가장 빠른 쿼리 결과를 얻음 | 저렴한 스토리지를 사용하여 쿼리 결과가 빠르게 제공되며 컴퓨팅 및 스토리지 분리 |
데이터 품질 | 신뢰할 수 있는 중앙 버전 역할을 하는 고도로 큐레이트된 데이터 | 큐레이트될 수 있거나 될 수 없는 모든 데이터(즉, 원시 데이터) |
사용자 | 비즈니스 애널리스트, 데이터 사이언티스트 및 데이터 개발자 | 비즈니스 애널리스트(큐레이팅된 데이터 사용), 데이터 사이언티스트, 데이터 개발자, 데이터 엔지니어 및 데이터 아키텍트 |
분석 | 배치 보고, BI 및 시각화 | 기계 학습, 예비 분석, 데이터 검색, 스트리밍, 운영 분석, 빅 데이터 및 프로파일링 |
03
데이터 웨어하우스 vs 데이터 마트
데이터 마트는
데이터 웨어하우스의 하위 섹션으로, 영업, 마케팅 또는 재무와 같은 부서 또는 사업부를 위해 분할
일부 데이터 마트는 오직 운영 목적으로만 생성
데이터 웨어하우스가 기업 전반의 중앙 데이터 스토리지 역할을 한다면,
데이터 마트는 일부 선택된 사용자 그룹에게 관련 데이터를 제공
이는 데이터 액세스를 간소화하고, 분석 속도를 높이며, 자체 데이터에 대한 통제력을 부여하며,
여러 개의 데이터 마트가 데이터 웨어하우스 내에 배포
데이터 마트란?
데이터 마트란 재무나 마케팅 등 특정 비즈니스 영역이나 팀을 중심으로 하는 데이터 웨어하우스의 분할 세그먼트
데이터 마트는 다양한 부서가 관련 데이터와 인사이트에 빠르게 액세스하고 더 큰 데이터 저장소 내부에서 자체 데이터 세트를 더욱 손쉽게 컨트롤할 수 있도록 합니다.
특징데이터 웨어하우스데이터 마트
범위 | 함께 통합된 중앙 집중식의 여러 주제 영역 | 분산된 특정 주제 영역 |
사용자 | 전사적 | 단일 커뮤니티 또는 부서 |
데이터 원본 | 여러 소스 | 단일 또는 몇 개의 소스, 또는 데이터 웨어하우스에 이미 수집된 데이터의 일부 |
크기 | 대규모이며 수백 기가바이트에서 페타바이트에 이를 수 있음 | 소규모이며 대개 최대 수십 기가바이트에 이름 |
설계 | 하향식 | 상향식 |
데이터 세부 정보 | 완전한, 상세 데이터 | 요약된 데이터를 포함할 수 있음 |

데이터 웨어하우스의 주요 구성 요소
중앙 데이터베이스, ETL(추출, 변환, 로드) 툴, 메타데이터 및 액세스 툴이라는 4가지 주요 요소로 구성

- 중앙 데이터베이스: 데이터베이스는 데이터 웨어하우스의 기반
- 데이터 통합: 데이터는 소스 시스템에서 추출되어 ETL(추출, 변환, 로드) 및 ELT를 비롯해 실시간 데이터 복제, 벌크 로드 처리, 데이터 변환, 데이터 품질 및 강화 서비스와 같은 데이터 통합 접근 방법을 활용하는 빠른 분석 이용에 잘 맞게 정보를 사용하도록 수정
- 메타데이터: 귀사의 데이터에 관한 데이터. 즉 데이터 웨어하우스의 데이터 세트의 소스, 사용, 값 및 기타 기능을 지정. 데이터에 컨텍스트를 추가하는 비즈니스 메타데이터와 보관 위치 및 구성 방법을 포함하여 데이터에 액세스하는 방법을 설명.
- 데이터 웨어하우스 액세스 툴: 액세스 툴은 사용자가 데이터 웨어하우스의 데이터와 상호작용할 수 있도록 지원.
- 액세스 툴 : 쿼리 및 리포팅 툴, 애플리케이션 개발 툴, 데이터 마이닝 툴, OLAP 툴이 있습니다.
ETL이란?
"추출(extract), 변환(transform), 로드(load)"의 약자
이 세 가지 활동이 프로세스를 구성해 소스에서 데이터를 가져와 사용 가능한 포맷으로 변환한 뒤 데이터 웨어하우스나 그 외 데이터 저장소로 옮깁니다.
ETL은 특히 트랜잭션 데이터에 유용하지만, 좀 더 고급화된 툴에서도 다양한 비정형 데이터를 관리 가능
데이터 모델과 데이터 모델링이란?
데이터 모델은
소프트웨어 개발 및 분석의 기본 요소
데이터를 구조화하는 방식과 데이터를 데이터베이스에 저장하는 형태
데이터베이스 내에서 데이터 요소 간의 관계 프레임워크와 데이터 사용 가이드를 제공
데이터 모델링은
데이터 모델을 생성하는 프로세스
데이터베이스나 데이터 웨어하우스 구조를 생성할 때,
설계자는 데이터가 데이터베이스나 데이터 웨어하우스로 어떻게 유입되고 빠져나오는지에 관한 다이어그램
이런 흐름에 관한 다이어그램은 데이터 형식, 구조, 데이터베이스 처리 기능의 특징을 정의하는 데 사용되어
데이터 흐름 요구사항을 효율적으로 지원
엔터프라이즈 데이터 웨어하우스(EDW)란?
엔터프라이즈 데이터 웨어하우스(EDW)는
한 곳에 모든 현재와 이력 비즈니스 데이터를 저장
데이터 관리에 대한 전체적인 접근 방식을 기반으로 마스터 데이터 관리, 데이터 웨어하우징, 데이터 전략을 구현
EDW는 분석 소프트웨어와 정확하고 전사적인 KPI와 리포팅 유지보수에 적합한 환경을 제공
많은 EDW가 확장성, 액세스, 손쉬운 사용을 이유로 클라우드를 기반
출처
https://www.oracle.com/kr/database/what-is-a-data-warehouse/
https://aws.amazon.com/ko/data-warehouse/
https://www.sap.com/korea/insights/what-is-a-data-warehouse.html
'BI > DW' 카테고리의 다른 글
[ETL] ETL 개념 심화 (0) | 2023.02.03 |
---|---|
[DW]ETL의 간단한 개념 (0) | 2023.01.25 |
[DW Modeling] 데이터 웨어하우스 모델링 개념 (0) | 2023.01.19 |
[Dimension/ fact] 디멘션과 팩트 개념 (0) | 2023.01.19 |
[DW] 데이터 웨어하우스(Data Warehouse) 란? (0) | 2023.01.18 |