데이터 분석
-
텍스트 마이닝 개요 (Text Mining)데이터 분석 (Data Analysis) 2023. 9. 29. 00:15
텍스트 마이닝은 방대한 텍스트 자료를 분석하여, 핵심 개념, 추세 및 숨겨진 관계를 파악하는 기법이다. 텍스트 데이터 텍스트 데이터는 웹사이트, 도서, 이메일을 포함해 최근엔 유투브 댓글, 영화 리뷰 등 다양한 차원에서 텍스트 데이터가 생성되고 수집되고 있다. 이러한 텍스트 데이터 분석을 기반으로 고객들의 제품에 대한 평가 (긍부정 분석), 텍스트 분류 (스팸 vs. 중요도 높은 텍스트), 정보 추출 등 다양하게 활용할 수 있다. 텍스트 마이닝 절차 크롤링이나 사내 자체 센서를 활용해 문서 수집 후, 토크나이징, 불용어(stopwords) 제거 등 텍스트 데이터 전처리를 수행한다. 정제된 데이터를 기반으로 문서군 (Corpus)를 생성하고 용도에 맞게 분석하여 정보를 제공한다. 가능한 분석들은 하단 텍스..
-
데이터 전처리 편데이터 분석 (Data Analysis) 2023. 9. 16. 20:16
데이터 전처리는 본격적인 분석 전 매우 중요한 단계로, 데이터의 품질을 향상시키고 분석에 적합한 형태로 만드는 과정이다. 데이터 타입에 따라서, 전처리 방법이 달라지기도 하고 풀고자하는 Task에 따라서도 전처리 기법은 다를 수 있다. 먼저 데이터 전처리에 대해 설명하고, 이후 상황 별 데이터 전처리 예시들에 대해 소개한다. 1. 데이터 전처리 (Data Preprocessing) 이란? 데이터 전처리는 데이터를 정제, 변환 하고 추가하는 과정을 의미한다. 실제 데이터를 마주하면 값이 비어있거나, 비정상적인 값이 포함된 경우도 많고 정상적으로 입력은 되었지만 보편적인 수준을 넘어서 값이 비정상적으로 크거나 작은 경우도 있다. 이러한 값들을 적절하게 처리하여 분석 결과가 합리적이고 유의미할 수 있도록 만드..
-