'분류 전체보기' 카테고리의 글 목록

2023년 10월 TIL

보호글 2023. 9. 29. 01:25

보호되어 있는 글입니다.

텍스트 마이닝 개요 (Text Mining)

데이터 분석 (Data Analysis) 2023. 9. 29. 00:15

텍스트 마이닝은 방대한 텍스트 자료를 분석하여, 핵심 개념, 추세 및 숨겨진 관계를 파악하는 기법이다. 텍스트 데이터 텍스트 데이터는 웹사이트, 도서, 이메일을 포함해 최근엔 유투브 댓글, 영화 리뷰 등 다양한 차원에서 텍스트 데이터가 생성되고 수집되고 있다. 이러한 텍스트 데이터 분석을 기반으로 고객들의 제품에 대한 평가 (긍부정 분석), 텍스트 분류 (스팸 vs. 중요도 높은 텍스트), 정보 추출 등 다양하게 활용할 수 있다. 텍스트 마이닝 절차 크롤링이나 사내 자체 센서를 활용해 문서 수집 후, 토크나이징, 불용어(stopwords) 제거 등 텍스트 데이터 전처리를 수행한다. 정제된 데이터를 기반으로 문서군 (Corpus)를 생성하고 용도에 맞게 분석하여 정보를 제공한다. 가능한 분석들은 하단 텍스..

데이터 전처리 편

데이터 분석 (Data Analysis) 2023. 9. 16. 20:16

데이터 전처리는 본격적인 분석 전 매우 중요한 단계로, 데이터의 품질을 향상시키고 분석에 적합한 형태로 만드는 과정이다. 데이터 타입에 따라서, 전처리 방법이 달라지기도 하고 풀고자하는 Task에 따라서도 전처리 기법은 다를 수 있다. 먼저 데이터 전처리에 대해 설명하고, 이후 상황 별 데이터 전처리 예시들에 대해 소개한다. 1. 데이터 전처리 (Data Preprocessing) 이란? 데이터 전처리는 데이터를 정제, 변환 하고 추가하는 과정을 의미한다. 실제 데이터를 마주하면 값이 비어있거나, 비정상적인 값이 포함된 경우도 많고 정상적으로 입력은 되었지만 보편적인 수준을 넘어서 값이 비정상적으로 크거나 작은 경우도 있다. 이러한 값들을 적절하게 처리하여 분석 결과가 합리적이고 유의미할 수 있도록 만드..

기술통계 분석과 시각화 (Visualization) - 기초편

데이터 분석 (Data Analysis) 2023. 9. 9. 02:20

이번주에는 기술 통계 분석과 시각화 기법에 대해 소개한다. 고도화된 분석을 수행하기 전에 위 두가지를 먼저 선행하지 않는다면 데이터 분석 방향성을 잘못잡고 삽질할 가능성이 매우 높다. 데이터 분석은 무엇보다도 데이터에 대한 이해가 필수적인데, 기술통계 분석과 그래프가 본연의 데이터 이해를 돕는데 효과적이다. 여담으로 데이터 분석가로 업무를 수행하며 느꼈던 점은, '데이터 분석 앞에서 거만떨지말자!'이다 😂 데이터 분석의 본질은 fancy한 모델을 사용하거나, 최신 분석 모델을 사용하는 것이 아니라 설정한 가설이나 알고 싶은 포인트가 있는지 고민하고 데이터를 어떻게 해석하는가에 달려있다. 그러나 멋진 분석 용어들과 모델들을 뒤로하고, 기술통계량과 간단한 시각화로 분석을 마친 경우에는 완전한 분석을 하지 않..

데이터 형식과 타입

데이터 분석 (Data Analysis) 2023. 9. 3. 00:49

데이터 분석에는 다양한 종류의 데이터가 활용된다. 이번 편에서는 데이터 종류를 형식 (Format) 과, 타입 (Type) 에 따라 용어를 알아본다. 1. 데이터 형식 (Data Formats) 데이터 형식는 크게 정형, 비정형, 반정형 3가지로 나눌 수 있다. 1-1. 정형 데이터 (Strunctured Data) 정형 데이터는 데이터가 구조화되어 있어서, 관계형 데이터베이스(RDB)와 같이 데이터 스키마가 명확히 정의된 데이터를 의미한다. 정형 데이터를 다루기 위해 SQL (Structured Query Language) 을 활용할 수 있다. 관계형 데이터베이스를 관리하는 시스템 (RDBMS) 는 대표적으로 Oracle, MySQL, PostgreSQL, MS-SQL 등이 있다. 예시: 엑셀 파일 등..

ABOUT ME

데이터 분석 로그북 데이터 분석 로그북

티스토리툴바