데이터 분석 (Data Analysis)
-
텍스트 마이닝 (2) Latent Dirichlet Allocation (LDA)데이터 분석 (Data Analysis) 2023. 10. 22. 20:44
LDA 란? LDA는 잠재 디리클레 할당이라는 의미로, 문서가 생성되는 과정을 확률 모형으로 모델링 하는 것이다. (선형 판별 분석 (Linear Discriminant Analysis) 아님!!) LDA는 Soft Clustering 의 한 형태이기도 하다. 각 문서는 여러 주제에 동시에 속할 수 있기 때문이다. LDA는 텍스트 문서 집합에서 숨겨진 토픽을 발견하고, 이를 추론하는 통계 모델로 아래 두가지 가정 하에서 수행된다. 가정 (1) 각 문서가 여러 토픽으로 구성됨 (2) 각 토픽은 단어의 확률 분포로 표현됨 LDA 구현 과정 1. 문서를 수집하고, 이전 게시글에서 다룬 BoW 를 먼저 생성한다. 2. 주제 수 K (>=2) 를 분석가가 임의로 설정하며, 각 주제가 단어의 분포를 따른다고 가정한..
-
텍스트마이닝 (1) Bag-Of-Words (BoW)데이터 분석 (Data Analysis) 2023. 10. 15. 02:15
BoW 란? BoW는 Bag of Words의 줄임말로 단어 뭉치 혹은 단어 주머니라고 표현할 수 있다. BoW는 텍스트의 구조나 순서를 무시하고 단어의 출현 빈도에만 집중한다. BoW 생성 과정 1. 텍스트 전처리 텍스트를 전처리하여 불필요한 문자를 제거 (Stopwords, 일명 불용어 등)하거나, 대/소문자 통합 과정 등을 거친다. 2. 단어 토큰화 (Tokenization) 텍스트를 단어 단위로 쪼개어 각 단어를 토큰으로 만든다. 토큰은 문장에서 분리된 개별 단위로, 보통은 단어가 된다. 이때, 토크나이징 기법에 따라 텍스트 분석 성능이 크게 좌우될 수 있다. 3. 단어의 출현 빈도 계산 각 단어의 출현 빈도를 계산하여 벡터에 담는다. 이를 위해 주어진 문서에서 각 단어의 등장 횟수를 세고, 이를..
-
텍스트 마이닝 개요 (Text Mining)데이터 분석 (Data Analysis) 2023. 9. 29. 00:15
텍스트 마이닝은 방대한 텍스트 자료를 분석하여, 핵심 개념, 추세 및 숨겨진 관계를 파악하는 기법이다. 텍스트 데이터 텍스트 데이터는 웹사이트, 도서, 이메일을 포함해 최근엔 유투브 댓글, 영화 리뷰 등 다양한 차원에서 텍스트 데이터가 생성되고 수집되고 있다. 이러한 텍스트 데이터 분석을 기반으로 고객들의 제품에 대한 평가 (긍부정 분석), 텍스트 분류 (스팸 vs. 중요도 높은 텍스트), 정보 추출 등 다양하게 활용할 수 있다. 텍스트 마이닝 절차 크롤링이나 사내 자체 센서를 활용해 문서 수집 후, 토크나이징, 불용어(stopwords) 제거 등 텍스트 데이터 전처리를 수행한다. 정제된 데이터를 기반으로 문서군 (Corpus)를 생성하고 용도에 맞게 분석하여 정보를 제공한다. 가능한 분석들은 하단 텍스..
-
데이터 전처리 편데이터 분석 (Data Analysis) 2023. 9. 16. 20:16
데이터 전처리는 본격적인 분석 전 매우 중요한 단계로, 데이터의 품질을 향상시키고 분석에 적합한 형태로 만드는 과정이다. 데이터 타입에 따라서, 전처리 방법이 달라지기도 하고 풀고자하는 Task에 따라서도 전처리 기법은 다를 수 있다. 먼저 데이터 전처리에 대해 설명하고, 이후 상황 별 데이터 전처리 예시들에 대해 소개한다. 1. 데이터 전처리 (Data Preprocessing) 이란? 데이터 전처리는 데이터를 정제, 변환 하고 추가하는 과정을 의미한다. 실제 데이터를 마주하면 값이 비어있거나, 비정상적인 값이 포함된 경우도 많고 정상적으로 입력은 되었지만 보편적인 수준을 넘어서 값이 비정상적으로 크거나 작은 경우도 있다. 이러한 값들을 적절하게 처리하여 분석 결과가 합리적이고 유의미할 수 있도록 만드..
-
기술통계 분석과 시각화 (Visualization) - 기초편데이터 분석 (Data Analysis) 2023. 9. 9. 02:20
이번주에는 기술 통계 분석과 시각화 기법에 대해 소개한다. 고도화된 분석을 수행하기 전에 위 두가지를 먼저 선행하지 않는다면 데이터 분석 방향성을 잘못잡고 삽질할 가능성이 매우 높다. 데이터 분석은 무엇보다도 데이터에 대한 이해가 필수적인데, 기술통계 분석과 그래프가 본연의 데이터 이해를 돕는데 효과적이다. 여담으로 데이터 분석가로 업무를 수행하며 느꼈던 점은, '데이터 분석 앞에서 거만떨지말자!'이다 😂 데이터 분석의 본질은 fancy한 모델을 사용하거나, 최신 분석 모델을 사용하는 것이 아니라 설정한 가설이나 알고 싶은 포인트가 있는지 고민하고 데이터를 어떻게 해석하는가에 달려있다. 그러나 멋진 분석 용어들과 모델들을 뒤로하고, 기술통계량과 간단한 시각화로 분석을 마친 경우에는 완전한 분석을 하지 않..
-
데이터 형식과 타입데이터 분석 (Data Analysis) 2023. 9. 3. 00:49
데이터 분석에는 다양한 종류의 데이터가 활용된다. 이번 편에서는 데이터 종류를 형식 (Format) 과, 타입 (Type) 에 따라 용어를 알아본다. 1. 데이터 형식 (Data Formats) 데이터 형식는 크게 정형, 비정형, 반정형 3가지로 나눌 수 있다. 1-1. 정형 데이터 (Strunctured Data) 정형 데이터는 데이터가 구조화되어 있어서, 관계형 데이터베이스(RDB)와 같이 데이터 스키마가 명확히 정의된 데이터를 의미한다. 정형 데이터를 다루기 위해 SQL (Structured Query Language) 을 활용할 수 있다. 관계형 데이터베이스를 관리하는 시스템 (RDBMS) 는 대표적으로 Oracle, MySQL, PostgreSQL, MS-SQL 등이 있다. 예시: 엑셀 파일 등..
-
데이터 분석 목표과 절차데이터 분석 (Data Analysis) 2023. 8. 27. 21:46
이번 편에서는 데이터 분석 필요성을 먼저 알아본 후, 데이터 분석 절차에 대해 다룬다. 본 편 마지막에는 데이터 분석을 하며 느꼈던 주관적인 의견도 짤막하게 추가하였다. 1. 데이터 분석 이란 1-1. 데이터 분석이란 무엇인가 데이터 분석은 수많은 데이터를 수집하고 정제한 후, 이를 분석하여 유용한 인사이트를 도출하는 과정을 말한다. 1-2. 데이터 분석의 필요성 데이터 분석을 통해 조직이나 개인은 데이터에 기반해 더 객관적이고 효과적인 의사결정을 내려, 문제를 해결 및 설정한 목표를 달성에 도움을 줄 수 있다. 구체적으로 아래 사례들을 비롯해 다양한 측면에서 데이터 분석이 필요하다. 데이터 분석 활용 사례 인사이트 도출: 데이터 분석을 통해 기존에 인식하지 못했던 패턴이나 관계를 발견하고 유용한 정보를..
-
데이터 저장소 파헤치기데이터 분석 (Data Analysis) 2023. 8. 25. 23:28
본격적으로 데이터 분석을 다루기에 앞서, 데이터 저장소에 대해 먼저 알아본다. 각 데이터 저장소들이 어떤 의미를 가지는지 이해하기 위해 다음의 순서로 설명한다. 빅 데이터 - 데이터 웨어하우스 - 데이터 마트 - 데이터 레이크 1. 빅 데이터 (Big Data) 빅데이터는 정형 (Structured Data), 비정형 데이터 (Unstructured Data)를 모두 포함한다. 정형 데이터 정의: 미리 정의된 구조 또는 규칙을 따르는 데이터 예시: 날짜, 이름, 우편번호 등 규칙에 따라 적재된 데이터 비정형 데이터 정의: 정해진 구조 없이 저장된 데이터 예시: 텍스트, 이미지, 영상 등 빅데이터 자체만으로 의미를 가지긴 어렵고, 이를 가공하고 분석하여 정보를 얻는다. 빅데이터를 가공 및 분석하기 전에 빅..