-
기술통계 분석과 시각화 (Visualization) - 기초편데이터 분석 (Data Analysis) 2023. 9. 9. 02:20SMALL
이번주에는 기술 통계 분석과 시각화 기법에 대해 소개한다.
고도화된 분석을 수행하기 전에 위 두가지를 먼저 선행하지 않는다면 데이터 분석 방향성을 잘못잡고 삽질할 가능성이 매우 높다.
데이터 분석은 무엇보다도 데이터에 대한 이해가 필수적인데, 기술통계 분석과 그래프가 본연의 데이터 이해를 돕는데 효과적이다.
여담으로 데이터 분석가로 업무를 수행하며 느꼈던 점은, '데이터 분석 앞에서 거만떨지말자!'이다 😂
데이터 분석의 본질은 fancy한 모델을 사용하거나, 최신 분석 모델을 사용하는 것이 아니라 설정한 가설이나 알고 싶은 포인트가 있는지 고민하고 데이터를 어떻게 해석하는가에 달려있다. 그러나 멋진 분석 용어들과 모델들을 뒤로하고, 기술통계량과 간단한 시각화로 분석을 마친 경우에는 완전한 분석을 하지 않았다는 불안감도 든 적이 있었다.
이제는 기술통계량 및 그래프 더 나아가 특정 분석 기법과 용도에 맞는 모델을 사용하는 것은 알맞은 해석에 다다르기까지 여정에 도움을 주는 도구이고 본질은 분석한 결과를 어떻게 해석하는가, 어떻게 Action Item 까지 끌어내는가, 어떤 가치가 있는 데이터 분석이고 실제로 가치를 주고 있는가가 답변된다면 간단한 분석이라도 분석의 목표을 어느 정도 달성했다고 생각한다.
결론은 기술통계량, 시각화 중요함! 기본 is the Best! 이고 본격적으로 위 내용에 대해 소개한다.
1. 기술 통계 (Descriptive Statistics)
Source: https://www.scribbr.com/statistics/descriptive-statistics/ 빈도 (Count) 최빈 값 (Mode) 데이터 개수 가장 빈번히 발생한 값 평균 (Mean) 중앙 값 (Median) 데이터들의 총합을 개수로 나눈 값
변수의 대표 값으로도 활용되지만, Outlier 에 민감함데이터를 순서대로 나열했을 때 가운데 있는 값
Outlier에 평균에 비해 Robust 함분산 (Variance) 표준편차 (Standard Deviation; SD) 편차 제곱 합을 데이터 개수(n)로 나눈 값 (표본분산은 n-1 로 나눔)
데이터의 흩어짐을 측정함sqrt(분산) 최댓 값 (Maximum) 최소 값 (Minimum) 데이터를 순서대로 나열하였을때, 가장 큰 값 데이터를 순서대로 나열하였을때, 가장 작은 값 2. 시각화
*그래프 Source는 그래프를 클릭하면 연결됩니다.
대표적인 기술 통계량과, 기본 그래프에 대해 알아보았다. 분석 목적에 따라 활용 가능한 통계량 및 그래프는 매우 다양하다. 이는 분석 기법이나 모델을 다루며 차후 함께 알아볼 예정이다.
반응형LIST'데이터 분석 (Data Analysis)' 카테고리의 다른 글
텍스트 마이닝 개요 (Text Mining) (0) 2023.09.29 데이터 전처리 편 (0) 2023.09.16 데이터 형식과 타입 (1) 2023.09.03 데이터 분석 목표과 절차 (8) 2023.08.27 데이터 저장소 파헤치기 (0) 2023.08.25