SMALL
TextAnalysis
-
텍스트마이닝 (1) Bag-Of-Words (BoW)데이터 분석 (Data Analysis) 2023. 10. 15. 02:15
BoW 란? BoW는 Bag of Words의 줄임말로 단어 뭉치 혹은 단어 주머니라고 표현할 수 있다. BoW는 텍스트의 구조나 순서를 무시하고 단어의 출현 빈도에만 집중한다. BoW 생성 과정 1. 텍스트 전처리 텍스트를 전처리하여 불필요한 문자를 제거 (Stopwords, 일명 불용어 등)하거나, 대/소문자 통합 과정 등을 거친다. 2. 단어 토큰화 (Tokenization) 텍스트를 단어 단위로 쪼개어 각 단어를 토큰으로 만든다. 토큰은 문장에서 분리된 개별 단위로, 보통은 단어가 된다. 이때, 토크나이징 기법에 따라 텍스트 분석 성능이 크게 좌우될 수 있다. 3. 단어의 출현 빈도 계산 각 단어의 출현 빈도를 계산하여 벡터에 담는다. 이를 위해 주어진 문서에서 각 단어의 등장 횟수를 세고, 이를..