BI/DW
[DW] 데이터 웨어하우스 모델링 방식
리오토리
2023. 1. 18. 11:09
데이터 웨어하우스 모델링 방식
모델링은 크게 2가지로 나뉜다
다차원 큐브의 전통적인 방식의 모델과 최근에 구현되어 많이 사용되는 관계형 데이터베이스(RDBMS) 형식의 모델
1. 다차원 큐브 모델 사용
- 데이터를 모델에 적재하는 시점에 미리 계산을 수행하고 필요한 인덱싱 작업을 진행하기 때문에 높은 성능을 발휘 가능
- 대용량의 데이터를 처리할 때 다차원 큐브 모델을 많이 선택
- 하지만 데이터를 적재하는 시간이 오래걸리는 단점 존재
2. 관계형 모델 사용
- RDMBS의 특징을 따르기 때문에 백업이나 복원하는 것이 용이하고 익숙한 데이터베이스 형식으로 모델링 가능
- 전통적인 큐브 모델보다 성능이 떨어지는 단점이 존재했지만 최근에 클라우드 환경의 사용과 메모리의 증가로 다차원 큐브 모델과 성능적인 부분에서도 큰 차이가 없어 많이 사용되고있음
모델을 구성하는 테이블은 Fact와 Dimension 두가지가 존재
1. Fact 테이블
팩트라고 부르는 숫자 값의 형태를 따르는 비즈니스 측정값을 가지고있는 테이블
각 레코드는 모두 동일한 그레인(Grain)이어야만 하고 그레인이 유지될 때에 데이터 중복이 방지
*그레인 : 하나의 레코드가 가지고 있는 비즈니스적인 의미 단위
2. Dimension 테이블
'~별'이라고 해석할 수 있는 데이터의 배경이 되는 속성("Attribute")을 가지고있는 테이블
6w : "누가, 언제, 어디서, 무엇을, 어떻게, 왜"의 이벤트 설명
Row가 많고 Column이 적은 Fact 테이블에 반해
Row는 적고 Column이 많은 Dimension
테이블 계층 구조로 구성되는게 일반적인데, 상위계층에 대한 조회 테이블을 만드는 것을 Snowflake 스키마, 중복되는 값이 생기더라도 하나의 Dimension 테이블 계층구조를 담는 것을 Star 스키마라고 하면 조회 편의상 Star 스키마 사용
참고
https://datalibrary.tistory.com/43 데이터 웨어하우스 개념1