ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 기술통계 분석과 시각화 (Visualization) - 기초편
    데이터 분석 (Data Analysis) 2023. 9. 9. 02:20
    SMALL

    이번주에는 기술 통계 분석과 시각화 기법에 대해 소개한다. 

    고도화된 분석을 수행하기 전에 위 두가지를 먼저 선행하지 않는다면 데이터 분석 방향성을 잘못잡고 삽질할 가능성이 매우 높다.

    데이터 분석은 무엇보다도 데이터에 대한 이해가 필수적인데, 기술통계 분석과 그래프가 본연의 데이터 이해를 돕는데 효과적이다. 

     

    여담으로 데이터 분석가로 업무를 수행하며 느꼈던 점은, '데이터 분석 앞에서 거만떨지말자!'이다 😂

    데이터 분석의 본질은 fancy한 모델을 사용하거나, 최신 분석 모델을 사용하는 것이 아니라 설정한 가설이나 알고 싶은 포인트가 있는지 고민하고 데이터를 어떻게 해석하는가에 달려있다. 그러나 멋진 분석 용어들과 모델들을 뒤로하고, 기술통계량과 간단한 시각화로 분석을 마친 경우에는 완전한 분석을 하지 않았다는 불안감도 든 적이 있었다. 

    이제는 기술통계량 및 그래프 더 나아가 특정 분석 기법과 용도에 맞는 모델을 사용하는 것은 알맞은 해석에 다다르기까지 여정에 도움을 주는 도구이고 본질은 분석한 결과를 어떻게 해석하는가, 어떻게 Action Item 까지 끌어내는가, 어떤 가치가 있는 데이터 분석이고 실제로 가치를 주고 있는가가 답변된다면 간단한 분석이라도 분석의 목표을 어느 정도 달성했다고 생각한다. 

    결론은 기술통계량, 시각화 중요함! 기본 is the Best! 이고 본격적으로 위 내용에 대해 소개한다. 

     

    1. 기술 통계 (Descriptive Statistics)

    Source: https://www.scribbr.com/statistics/descriptive-statistics/

    빈도 (Count) 최빈 값 (Mode)
    데이터 개수 가장 빈번히 발생한 값
    평균 (Mean) 중앙 값 (Median)
    데이터들의 총합을 개수로 나눈 값
    변수의 대표 값으로도 활용되지만, Outlier 에 민감함
    데이터를 순서대로 나열했을 때 가운데 있는 값
    Outlier에 평균에 비해 Robust 함
    분산 (Variance) 표준편차 (Standard Deviation; SD)
    편차 제곱 합을 데이터 개수(n)로 나눈 값 (표본분산은 n-1 로 나눔)
    데이터의 흩어짐을 측정함
    sqrt(분산)
    최댓 값 (Maximum) 최소 값 (Minimum)
    데이터를 순서대로 나열하였을때, 가장 큰 값 데이터를 순서대로 나열하였을때, 가장 작은 값

    2. 시각화

    그래프 명 예시
    Histogram

    수치형 데이터에 적절함 (x축 참고)
    구간을 임의로 나누어 구간별Count 를 그래프로 나타냄
    데이터 분포의 형태와 경향성을 쉽게 알아볼 수 있음

    Bar Plot

    범주현 데이터에 적절함 (x축 참고)
    범주별 Count를 그래프로 나타냄
    범주가 많은 경우 막대의 밀집도가 높아져 확인이 어려울 수 있음

    Pie Plot

    범주의 상대적인 비율을 보여주는데 적절함
    Pie Plot도 범주가 많거나 비율이 작은경우 시각적으로 확인하기 어려울 수 있음

    Scatter Plot

    두 변수 간 관계를 시각화하여 패턴을 파악하기 용이함
    전반적인 패턴 및 이상값을 확인하기 좋음

    Box Plot
    URL

    데이터의 중앙값, 사분위수, 이상 값 등을 파악하기 용이함
    데이터 분포를 요약해 파악가능하다는 장점이 있음
    다만 상세한 데이터 분포 정보를 제공하지는 않음

    Heatmap

    두 변수 사이의 관계를 행렬 형태로 시각화함
    색상 등으로 관계 방향성 (+/-)등을 파악하기 용이함

    Density Plot


    연속 변수의 확률 밀도를 시각화하여 데이터 밀도와 분포 파악이 가능함
    데이터 양이 적을 때는 사용하기 어려울 수 있음

    *그래프 Source는 그래프를 클릭하면 연결됩니다.

     

    대표적인 기술 통계량과, 기본 그래프에 대해 알아보았다. 분석 목적에 따라 활용 가능한 통계량 및 그래프는 매우 다양하다. 이는 분석 기법이나 모델을 다루며 차후 함께 알아볼 예정이다. 

     

    반응형
    LIST

    '데이터 분석 (Data Analysis)' 카테고리의 다른 글

    텍스트 마이닝 개요 (Text Mining)  (0) 2023.09.29
    데이터 전처리 편  (0) 2023.09.16
    데이터 형식과 타입  (1) 2023.09.03
    데이터 분석 목표과 절차  (8) 2023.08.27
    데이터 저장소 파헤치기  (0) 2023.08.25
Designed by Tistory.