문서 군집화를 위한 워드 임베딩, PCA와 K-평균 군집의 새로운 결합Novel Association of Word Embeddings, PCA and K-means for Text Clustering
- Other Titles
- Novel Association of Word Embeddings, PCA and K-means for Text Clustering
- Authors
- 김동현; 이계민
- Issue Date
- Nov-2024
- Publisher
- 사단법인 인문사회과학기술융합학회
- Keywords
- 워드 임베딩; 문서 벡터; 차원 축소; K-평균 군집화; 문서 분류; Word Embedding; Document Vector; Dimensionality Reduction; K-means; Document Clustering
- Citation
- 아시아태평양융합연구교류논문지, v.10, no.11, pp 475 - 486
- Pages
- 12
- Indexed
- KCI
- Journal Title
- 아시아태평양융합연구교류논문지
- Volume
- 10
- Number
- 11
- Start Page
- 475
- End Page
- 486
- URI
- https://scholarworks.gnu.ac.kr/handle/sw.gnu/74916
- DOI
- 10.47116/apjcri.2024.11.35
- ISSN
- 2508-9080
- Abstract
- 본 논문은 현대 웹 환경에서 다양한 주제의 문서가 폭발적으로 증가함에 따라 사용자가 원하는 정보를 찾기가 점점 어려워지는 문제를 다루고 있다. 문서 군집화는 비슷한 특징을 가진 문서들을 그룹화함으로써 정보의 접근성과 사용 편의성을 향상시킬 수 있는 강력한 도구로, 사용자가 필요한 정보를 빠르고 쉽게 찾을 수 있도록 도와준다. 본 논문에서는 문서 군집화를 위한 새로운 방법인 PCA-KM (Principal Component Analysis –K- means)을 제안하였다. PCA-KM은 워드 임베딩으로부터 얻은 문서의 고차원 벡터에 주성분 분석을 적용하여 차원을 축소한 후, 수정된 K-means을 반복적으로 적용하는 과정을 포함한다. 여러 군집화 성능지표를 사용해 워드 임베딩과 K-means를 단순 결합한 전통적인 방법과 제안된 방법을 비교하였다. 그 결과, 본 논문에서 제안한 방법이 여러 성능지표에서 비슷하거나 우수한 성능을 나타냈다. 따라서 제안한 방법이 더 효율적인 문서 검색 서비스의 발전에 기여할 것으로 기대된다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - 자연과학대학 > Dept. of Information and Statistics > Journal Articles

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.