ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 형식과 타입
    데이터 분석 (Data Analysis) 2023. 9. 3. 00:49
    SMALL

    데이터 분석에는 다양한 종류의 데이터가 활용된다. 

    이번 편에서는 데이터 종류를 형식 (Format) 과, 타입 (Type) 에 따라 용어를 알아본다.

     

    1. 데이터 형식 (Data Formats)

    데이터 형식는 크게 정형, 비정형, 반정형 3가지로 나눌 수 있다.

    Source: Developing Dynamic Packaging Applications Using Semantic Web-Based Integration - Scientific Figure on ResearchGate (정형, 비정형, 반정형 데이터 예시)

    1-1. 정형 데이터 (Strunctured Data)

    정형 데이터는 데이터가 구조화되어 있어서, 관계형 데이터베이스(RDB)와 같이 데이터 스키마가 명확히 정의된 데이터를 의미한다. 정형 데이터를 다루기 위해 SQL (Structured Query Language) 을 활용할 수 있다. 관계형 데이터베이스를 관리하는 시스템 (RDBMS) 는 대표적으로 Oracle, MySQL, PostgreSQL, MS-SQL 등이 있다. 

    • 예시: 엑셀 파일 등

     

    데이터 일관성을 가지고 SQL과 같은 쿼리를 통해 손쉽게 데이터를 추출할 수 있다는 장점이 있다. 반면, 정해진 형식을 유지해야하고 이미지, 오디오 등 비구조적 정보를 다루기 어렵다는 단점이 있다.  

    1-2. 비정형 데이터 (Unstructured Data)

    비정형 데이터는 구조화되지 않은 데이터를 의미한다. 즉 스키마의 개념이 없고 자유롭게 데이터를 관리할 수 있다. 비정형 데이터를 관리하는 시스템인 NoSQL (Not only SQL)이 있다. NoSQL 는 대표적으로 몽고디비 (MongoDB), 페이스북이 개발한 카산드라(Cassandra), 구글이 개발한 하이퍼테이블 (Hypertable) 등이 있다. 

    • 예시: 오디오, 텍스트, 이미지 등

     

    다양한 타입의 정보를 담을 수 있다는 장점이 있으나, 저장 및 처리 비용이 비교적 높으며 데이터 품질과 일관성을 유지하기 어렵다는 단점이 있다. 

    1-3. 반정형 데이터 (Semi-structured Data)

    반정형 데이터는 데이터는 구조가 유연해 데이터의 형식과 구조가 변경될 수 있는 데이터이다. 따라서 스키마 정보를 데이터와 함께 제공하는데, JSON, XML 등이 있다. 쉽게 설명하면 정형 데이터는 변수가 있고 데이터가 있을 수도 없을 수도 있지만, 반정형 데이터는 변수 (Field) 자체가 있을 수도 없을 수도 있다. 

    추가로 엘라스틱 서치 (Elasticsearch)는 저장소보다 검색 엔진에 가깝지만, NoSQL 특성도 가지고 있어 비/반정형 데이터를 다룰 때 많이 활용한다. ElasticSearch은 해당 링크에서 잘 소개 되어 있어 참고로 공유한다. 

    • 예시: 웹 스크래핑 결과, 로그 파일 등

     

    반정형 데이터도 다양한 타입의 정보를 담을 수 있다는 장점이 있으나, 저장 및 처리 비용이 비교적 높으며 RDB 보다 데이터 일관성이 부족할 수 있다.

     


    2. 데이터 타입 (Data Type)

    데이터 타입은 크게 수치형과 범주형으로 나눌 수 있다. 데이터 분석을 할 때 각 변수의 특성에 따라 분석 방법이 상이 할 수 있으므로 이에 대한 이해는 매우 중요하다.

    Source: https://www.fullstory.com/blog/categorical-vs-quantitative-data/

    2-1. 수치형 데이터 (Quantitative Data)

    • 연속형 데이터 (Continuous Data)
      • 연속적인 값을 가지는 데이터로 키, 몸무게 등이 있다.

     

    • 이산형 데이터 (Discrete Data) 
      • 이산적이 값을 가지는 데이터로 운동 빈도, 구매 빈도 등이 있다.

     

    2-2. 범주형 데이터 (Categorical Data)

    • 순서형 데이터 (Ordinal Data)
      • 항목 사이의 순서가 존재 하는 데이터로, 선호도 (불만 - 보통 - 만족), 성적표 (C-B-A) 등이 있다. 

     

    • 명목형 데이터 (Nominal Data)
      • 순서를 매길 수 없는 범주형 데이터로, 성별, 색상, 주거 지역 등이 있다. 

    * 스키마 (Schema) 

    스키마는 DB 내 어떤 구조로 데이터가 저장되는지 나타내는 데이터 구조와 제약조건에 관한 명세를 의미함.

    반응형
    LIST
Designed by Tistory.