[텍스트 마이닝] 카운트 기반의 문서 표현이란?
·
AI & 빅데이터
"파이썬 텍스트 마이닝 완벽 가이드" 도서를 읽고 정리한 글입니다. 이 글을 통해 얻을 수 있는 내용 - 카운트 기반 문서 표현이란 무엇인가 - 카운트 벡터를 생성하는 방법과 코드 이해 - 카운트 벡터와 TF-IDF 방법의 차이 4장. 카운트 기반의 문서 표현 4-1. 카운트 기반 문서 표현의 개념 카운트 기반 문서 표현이란? 단어의 통계를 이용해 문서의 내용을 이해하고자 하는 시도이다. 카운트 기반 문서 표현은 단어의 빈도를 세어 벡터로 표현하는 방법이다. 텍스트의 특성을 무엇으로 정의할까? 텍스트의 특성을 단어로 표현하고, 특성이 갖는 값을 그 단어가 텍스트에서 나타나는 횟수로 표현한다. ex) 정치(특성) : 4(특성이 갖는 값, 빈도) 문서마다 특성이 제각각인데, 어떻게 비교하지? 전체 문서에서 ..