상세 보기
문서 군집화를 위한 워드 임베딩, PCA와 K-평균 군집의 새로운 결합
Novel Association of Word Embeddings, PCA and K-means for Text Clustering
- 김동현;
- 이계민
Citations
WEB OF SCIENCE
0Citations
SCOPUS
0초록
본 논문은 현대 웹 환경에서 다양한 주제의 문서가 폭발적으로 증가함에 따라 사용자가 원하는 정보를 찾기가 점점 어려워지는 문제를 다루고 있다. 문서 군집화는 비슷한 특징을 가진 문서들을 그룹화함으로써 정보의 접근성과 사용 편의성을 향상시킬 수 있는 강력한 도구로, 사용자가 필요한 정보를 빠르고 쉽게 찾을 수 있도록 도와준다. 본 논문에서는 문서 군집화를 위한 새로운 방법인 PCA-KM (Principal Component Analysis –K- means)을 제안하였다. PCA-KM은 워드 임베딩으로부터 얻은 문서의 고차원 벡터에 주성분 분석을 적용하여 차원을 축소한 후, 수정된 K-means을 반복적으로 적용하는 과정을 포함한다. 여러 군집화 성능지표를 사용해 워드 임베딩과 K-means를 단순 결합한 전통적인 방법과 제안된 방법을 비교하였다. 그 결과, 본 논문에서 제안한 방법이 여러 성능지표에서 비슷하거나 우수한 성능을 나타냈다. 따라서 제안한 방법이 더 효율적인 문서 검색 서비스의 발전에 기여할 것으로 기대된다.
키워드
워드 임베딩; 문서 벡터; 차원 축소; K-평균 군집화; 문서 분류; Word Embedding; Document Vector; Dimensionality Reduction; K-means; Document Clustering
- 제목
- 문서 군집화를 위한 워드 임베딩, PCA와 K-평균 군집의 새로운 결합
- 제목 (타언어)
- Novel Association of Word Embeddings, PCA and K-means for Text Clustering
- 저자
- 김동현; 이계민
- 발행일
- 2024-11
- 저널명
- 아시아태평양융합연구교류논문지
- 권
- 10
- 호
- 11
- 페이지
- 475 ~ 486