-
데이터 저장소 파헤치기데이터 분석 (Data Analysis) 2023. 8. 25. 23:28SMALL
본격적으로 데이터 분석을 다루기에 앞서, 데이터 저장소에 대해 먼저 알아본다.
각 데이터 저장소들이 어떤 의미를 가지는지 이해하기 위해 다음의 순서로 설명한다.
빅 데이터 - 데이터 웨어하우스 - 데이터 마트 - 데이터 레이크 1. 빅 데이터 (Big Data)
빅데이터는 정형 (Structured Data), 비정형 데이터 (Unstructured Data)를 모두 포함한다.
- 정형 데이터
- 정의: 미리 정의된 구조 또는 규칙을 따르는 데이터
- 예시: 날짜, 이름, 우편번호 등 규칙에 따라 적재된 데이터
- 비정형 데이터
- 정의: 정해진 구조 없이 저장된 데이터
- 예시: 텍스트, 이미지, 영상 등
빅데이터 자체만으로 의미를 가지긴 어렵고, 이를 가공하고 분석하여 정보를 얻는다.
빅데이터를 가공 및 분석하기 전에 빅데이터를 저장하고 처리하는 기술들이 필요했고 이때 Hadoop을 포함해 빅데이터 저장 및 관리 기술들이 다양하게 등장했다.
2. 데이터 저장소
2-1. 데이터 웨어하우스 (Data Warehouse)
데이터 웨어하우스 DW는 직역 그 자체로 데이터 창고다. 방대한 조직 내에서 분산 운영되는 여러 데이터 베이스를 통합해서 조회 및 분석할 수 있게 제공한다.
용도에 맞게 적재된 데이터 베이스 (DataBase; DB)들이 있지만 이들을 대해 조회하기 위해 DB 별 쿼리를 날리거나 여러 DB를 통합 관찰하기 어려운 점이 존재했다. 이러한 한계점을 고려해 창고처럼 데이터를 쌓아두는 데이터 웨어하우스를 구성하였고 궁극적으로 '분석을 용이하게 하는 목적'으로 활용된다.
*OLAP (Online Analytic Processing) : 최종 사용자가 다차원 정보에 직접 접근하여 분석하고 의사결정 지원하는 시스템
2-2. 데이터 마트 (Data Mart)
데이터 마트 DM은 데이터 웨어하우스의 일부로 회사의 금융, 마케팅 등 단일 주제(프로젝트)에 초점을 맞춰 지원하는 데이터 웨어하우스다. 데이터 마트는 기존 데이터 웨어하우스의 정보를 필터링하고 가공한 경우가 많아 데이터 소스 수가 적고 크기가 작은 경향이 있다.
2-3. 데이터 레이크 (Data Lake)
데이터 레이크는 더 크고 원본에 가까운 데이터 저장소를 뜻한다. 데이터 웨어하우스는 데이터 저장 전 미리 정의된 스키마를 적용해야했으나, 데이터 레이크는 비정형 데이터를 포함해 다양한 구조의 데이터를 저장할 수 있다.
반응형LIST'데이터 분석 (Data Analysis)' 카테고리의 다른 글
텍스트 마이닝 개요 (Text Mining) (0) 2023.09.29 데이터 전처리 편 (0) 2023.09.16 기술통계 분석과 시각화 (Visualization) - 기초편 (0) 2023.09.09 데이터 형식과 타입 (1) 2023.09.03 데이터 분석 목표과 절차 (8) 2023.08.27 - 정형 데이터