ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 저장소 파헤치기
    데이터 분석 (Data Analysis) 2023. 8. 25. 23:28
    SMALL

    본격적으로 데이터 분석을 다루기에 앞서, 데이터 저장소에 대해 먼저 알아본다.

     

    각 데이터 저장소들이 어떤 의미를 가지는지 이해하기 위해 다음의 순서로 설명한다. 

    빅 데이터 - 데이터 웨어하우스 - 데이터 마트 - 데이터 레이크

     

    1. 빅 데이터 (Big Data) 

    빅데이터는 정형 (Structured Data), 비정형 데이터 (Unstructured Data)를 모두 포함한다.

    • 정형 데이터
      • 정의: 미리 정의된 구조 또는 규칙을 따르는 데이터
      • 예시: 날짜, 이름, 우편번호 등 규칙에 따라 적재된 데이터
    • 비정형 데이터
      • 정의: 정해진 구조 없이 저장된 데이터
      • 예시: 텍스트, 이미지, 영상 등

     

    빅데이터 자체만으로 의미를 가지긴 어렵고, 이를 가공하고 분석하여 정보를 얻는다.

    빅데이터를 가공 및 분석하기 전에 빅데이터를 저장하고 처리하는 기술들이 필요했고 이때 Hadoop을 포함해 빅데이터 저장 및 관리 기술들이 다양하게 등장했다.

    2. 데이터 저장소

    Source: https://www.databricks.com/glossary/data-lakehouse

    2-1. 데이터 웨어하우스 (Data Warehouse)

    데이터 웨어하우스 DW는 직역 그 자체로 데이터 창고다. 방대한 조직 내에서 분산 운영되는 여러 데이터 베이스를 통합해서 조회 및 분석할 수 있게 제공한다. 

    용도에 맞게 적재된 데이터 베이스 (DataBase; DB)들이 있지만 이들을 대해 조회하기 위해 DB 별 쿼리를 날리거나 여러 DB를 통합 관찰하기 어려운 점이 존재했다. 이러한 한계점을 고려해 창고처럼 데이터를 쌓아두는 데이터 웨어하우스를 구성하였고 궁극적으로 '분석을 용이하게 하는 목적'으로 활용된다.

    *OLAP (Online Analytic Processing) : 최종 사용자가 다차원 정보에 직접 접근하여 분석하고 의사결정 지원하는 시스템 

    2-2. 데이터 마트 (Data Mart)

    데이터 마트 DM은 데이터 웨어하우스의 일부로 회사의 금융, 마케팅 등 단일 주제(프로젝트)에 초점을 맞춰 지원하는 데이터 웨어하우스다. 데이터 마트는 기존 데이터 웨어하우스의 정보를 필터링하고 가공한 경우가 많아 데이터 소스 수가 적고 크기가 작은 경향이 있다. 

    2-3. 데이터 레이크 (Data Lake)

    데이터 레이크는 더 크고 원본에 가까운 데이터 저장소를 뜻한다. 데이터 웨어하우스는 데이터 저장 전 미리 정의된 스키마를 적용해야했으나, 데이터 레이크는 비정형 데이터를 포함해 다양한 구조의 데이터를 저장할 수 있다. 

    반응형
    LIST
Designed by Tistory.