SMALL
토픽모델링
-
텍스트 마이닝 (2) Latent Dirichlet Allocation (LDA)데이터 분석 (Data Analysis) 2023. 10. 22. 20:44
LDA 란? LDA는 잠재 디리클레 할당이라는 의미로, 문서가 생성되는 과정을 확률 모형으로 모델링 하는 것이다. (선형 판별 분석 (Linear Discriminant Analysis) 아님!!) LDA는 Soft Clustering 의 한 형태이기도 하다. 각 문서는 여러 주제에 동시에 속할 수 있기 때문이다. LDA는 텍스트 문서 집합에서 숨겨진 토픽을 발견하고, 이를 추론하는 통계 모델로 아래 두가지 가정 하에서 수행된다. 가정 (1) 각 문서가 여러 토픽으로 구성됨 (2) 각 토픽은 단어의 확률 분포로 표현됨 LDA 구현 과정 1. 문서를 수집하고, 이전 게시글에서 다룬 BoW 를 먼저 생성한다. 2. 주제 수 K (>=2) 를 분석가가 임의로 설정하며, 각 주제가 단어의 분포를 따른다고 가정한..