-
텍스트 마이닝 개요 (Text Mining)데이터 분석 (Data Analysis) 2023. 9. 29. 00:15SMALL
텍스트 마이닝은 방대한 텍스트 자료를 분석하여, 핵심 개념, 추세 및 숨겨진 관계를 파악하는 기법이다.
텍스트 데이터
텍스트 데이터는 웹사이트, 도서, 이메일을 포함해 최근엔 유투브 댓글, 영화 리뷰 등 다양한 차원에서 텍스트 데이터가 생성되고 수집되고 있다. 이러한 텍스트 데이터 분석을 기반으로 고객들의 제품에 대한 평가 (긍부정 분석), 텍스트 분류 (스팸 vs. 중요도 높은 텍스트), 정보 추출 등 다양하게 활용할 수 있다.
텍스트 마이닝 절차
크롤링이나 사내 자체 센서를 활용해 문서 수집 후, 토크나이징, 불용어(stopwords) 제거 등 텍스트 데이터 전처리를 수행한다. 정제된 데이터를 기반으로 문서군 (Corpus)를 생성하고 용도에 맞게 분석하여 정보를 제공한다. 가능한 분석들은 하단 텍스트 마이닝 기능에 작성되어 있다.
텍스트 마이닝 기능
텍스트 마이닝 기능은 크게 4가지로 구분할 수 있다.
1. 문서 요약 (Summarization) - 토픽 분석
2. 문서 분류 (Classification) - 스팸 필터링 분석
3. 문서 군집 (Clustering) - 유사한 문서 묶어내기
4. 특성 추출 (Feature Extraction) - 연관 키워드 분석 등텍스트 마이닝 (Text Mining) vs. 자연어 처리 (NLP) ?
최근 두 용어가 혼용되어 자주 사용되지만, 텍스트 마이닝이 더 큰 분야고 NLP는 텍스트 마이닝에 포함되어 있다.
NLP는 언어의 규칙적인 면에 중점을 두어 인공지능이 자연어를 파악하고 생성할 수 있도록 연구하는 분야이고, 텍스트 마이닝은 NLP 결과물인 Corpus 혹은 언어모델 등을 활용하여 데이터로부터 유용한 정보를 얻어내는 기법이다.
참고 문헌
- Peersman, Claudia. (2018). Detecting Deceptive Behaviour in the Wild: Text Mining for Online Child Protection in the Presence of Noisy and Adversarial Social Media Communications.
- Miner, G., Delen, D., Elder, J., Fast, A., Hill, T., Nisbet, R. (2012). The seven practice areas of text analytics. In Practical text mining and statistical analysis for non-structured text data applications (pp. 29–41). Amsterdam: Elsevier, Inc.
반응형LIST'데이터 분석 (Data Analysis)' 카테고리의 다른 글
텍스트 마이닝 (2) Latent Dirichlet Allocation (LDA) (1) 2023.10.22 텍스트마이닝 (1) Bag-Of-Words (BoW) (0) 2023.10.15 데이터 전처리 편 (0) 2023.09.16 기술통계 분석과 시각화 (Visualization) - 기초편 (0) 2023.09.09 데이터 형식과 타입 (1) 2023.09.03