분류 전체보기
-
텍스트 마이닝 (2) Latent Dirichlet Allocation (LDA)데이터 분석 (Data Analysis) 2023. 10. 22. 20:44
LDA 란? LDA는 잠재 디리클레 할당이라는 의미로, 문서가 생성되는 과정을 확률 모형으로 모델링 하는 것이다. (선형 판별 분석 (Linear Discriminant Analysis) 아님!!) LDA는 Soft Clustering 의 한 형태이기도 하다. 각 문서는 여러 주제에 동시에 속할 수 있기 때문이다. LDA는 텍스트 문서 집합에서 숨겨진 토픽을 발견하고, 이를 추론하는 통계 모델로 아래 두가지 가정 하에서 수행된다. 가정 (1) 각 문서가 여러 토픽으로 구성됨 (2) 각 토픽은 단어의 확률 분포로 표현됨 LDA 구현 과정 1. 문서를 수집하고, 이전 게시글에서 다룬 BoW 를 먼저 생성한다. 2. 주제 수 K (>=2) 를 분석가가 임의로 설정하며, 각 주제가 단어의 분포를 따른다고 가정한..
-
텍스트마이닝 (1) Bag-Of-Words (BoW)데이터 분석 (Data Analysis) 2023. 10. 15. 02:15
BoW 란? BoW는 Bag of Words의 줄임말로 단어 뭉치 혹은 단어 주머니라고 표현할 수 있다. BoW는 텍스트의 구조나 순서를 무시하고 단어의 출현 빈도에만 집중한다. BoW 생성 과정 1. 텍스트 전처리 텍스트를 전처리하여 불필요한 문자를 제거 (Stopwords, 일명 불용어 등)하거나, 대/소문자 통합 과정 등을 거친다. 2. 단어 토큰화 (Tokenization) 텍스트를 단어 단위로 쪼개어 각 단어를 토큰으로 만든다. 토큰은 문장에서 분리된 개별 단위로, 보통은 단어가 된다. 이때, 토크나이징 기법에 따라 텍스트 분석 성능이 크게 좌우될 수 있다. 3. 단어의 출현 빈도 계산 각 단어의 출현 빈도를 계산하여 벡터에 담는다. 이를 위해 주어진 문서에서 각 단어의 등장 횟수를 세고, 이를..
-
도커 (Docker) 사용법데브옵스 (DevOps) 2023. 10. 1. 11:30
도커 Docker 란? Docker는 컨테이너를 사용하여 애플리케이션을 보다 쉽게 생성, 배포 및 관리할 수 있도록 설계된 오픈 소스 플랫폼이다. 컨테이너를 사용하면 개발자는 라이브러리 및 기타 종속성 등 필요한 모든 부분으로 애플리케이션을 패키징하여 모두 하나의 패키지로 출시할 수 있다. 도커 컨테이너란? 요약: 도커 이미지 기반 애플리케이션 실행되는 상태 컨테이너는 도커 이미지를 기반으로 생성된 실행 가능한 인스턴스이다. 독립적인 프로세스로 애플리케이션과 필요한 실행 환경을 포함한다. 여러 컨테이너를 동시에 실행할 수 있으며, 각각 격리된 환경에서 동작한다. 도커 이미지란? 요약: 컨테이너 구성하는 파일시스템과 실행할 애플리케이션 설정 하나로 합친 것 - 컨테이너 생성하기 위한 템플릿 도커 컨테이..
-
-
텍스트 마이닝 개요 (Text Mining)데이터 분석 (Data Analysis) 2023. 9. 29. 00:15
텍스트 마이닝은 방대한 텍스트 자료를 분석하여, 핵심 개념, 추세 및 숨겨진 관계를 파악하는 기법이다. 텍스트 데이터 텍스트 데이터는 웹사이트, 도서, 이메일을 포함해 최근엔 유투브 댓글, 영화 리뷰 등 다양한 차원에서 텍스트 데이터가 생성되고 수집되고 있다. 이러한 텍스트 데이터 분석을 기반으로 고객들의 제품에 대한 평가 (긍부정 분석), 텍스트 분류 (스팸 vs. 중요도 높은 텍스트), 정보 추출 등 다양하게 활용할 수 있다. 텍스트 마이닝 절차 크롤링이나 사내 자체 센서를 활용해 문서 수집 후, 토크나이징, 불용어(stopwords) 제거 등 텍스트 데이터 전처리를 수행한다. 정제된 데이터를 기반으로 문서군 (Corpus)를 생성하고 용도에 맞게 분석하여 정보를 제공한다. 가능한 분석들은 하단 텍스..
-
데이터 전처리 편데이터 분석 (Data Analysis) 2023. 9. 16. 20:16
데이터 전처리는 본격적인 분석 전 매우 중요한 단계로, 데이터의 품질을 향상시키고 분석에 적합한 형태로 만드는 과정이다. 데이터 타입에 따라서, 전처리 방법이 달라지기도 하고 풀고자하는 Task에 따라서도 전처리 기법은 다를 수 있다. 먼저 데이터 전처리에 대해 설명하고, 이후 상황 별 데이터 전처리 예시들에 대해 소개한다. 1. 데이터 전처리 (Data Preprocessing) 이란? 데이터 전처리는 데이터를 정제, 변환 하고 추가하는 과정을 의미한다. 실제 데이터를 마주하면 값이 비어있거나, 비정상적인 값이 포함된 경우도 많고 정상적으로 입력은 되었지만 보편적인 수준을 넘어서 값이 비정상적으로 크거나 작은 경우도 있다. 이러한 값들을 적절하게 처리하여 분석 결과가 합리적이고 유의미할 수 있도록 만드..
-
기술통계 분석과 시각화 (Visualization) - 기초편데이터 분석 (Data Analysis) 2023. 9. 9. 02:20
이번주에는 기술 통계 분석과 시각화 기법에 대해 소개한다. 고도화된 분석을 수행하기 전에 위 두가지를 먼저 선행하지 않는다면 데이터 분석 방향성을 잘못잡고 삽질할 가능성이 매우 높다. 데이터 분석은 무엇보다도 데이터에 대한 이해가 필수적인데, 기술통계 분석과 그래프가 본연의 데이터 이해를 돕는데 효과적이다. 여담으로 데이터 분석가로 업무를 수행하며 느꼈던 점은, '데이터 분석 앞에서 거만떨지말자!'이다 😂 데이터 분석의 본질은 fancy한 모델을 사용하거나, 최신 분석 모델을 사용하는 것이 아니라 설정한 가설이나 알고 싶은 포인트가 있는지 고민하고 데이터를 어떻게 해석하는가에 달려있다. 그러나 멋진 분석 용어들과 모델들을 뒤로하고, 기술통계량과 간단한 시각화로 분석을 마친 경우에는 완전한 분석을 하지 않..
-
데이터 형식과 타입데이터 분석 (Data Analysis) 2023. 9. 3. 00:49
데이터 분석에는 다양한 종류의 데이터가 활용된다. 이번 편에서는 데이터 종류를 형식 (Format) 과, 타입 (Type) 에 따라 용어를 알아본다. 1. 데이터 형식 (Data Formats) 데이터 형식는 크게 정형, 비정형, 반정형 3가지로 나눌 수 있다. 1-1. 정형 데이터 (Strunctured Data) 정형 데이터는 데이터가 구조화되어 있어서, 관계형 데이터베이스(RDB)와 같이 데이터 스키마가 명확히 정의된 데이터를 의미한다. 정형 데이터를 다루기 위해 SQL (Structured Query Language) 을 활용할 수 있다. 관계형 데이터베이스를 관리하는 시스템 (RDBMS) 는 대표적으로 Oracle, MySQL, PostgreSQL, MS-SQL 등이 있다. 예시: 엑셀 파일 등..