본문 바로가기
[학술저널]

  • 학술저널

이주홍 박선

초록

문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해 (NMF, non-negative matrix factorization)를 기반한 용어 가중치 재산정 방법을 이용하여서 사용자의 요구에 적합한 군집결과를 얻도록 하는 새로운 군집모델을 제안한다. 제안된 모델은 군집형태에 대한 사용자 요구와 기계에 의한 군집 형태의 차이를 최소화하기 위하여 사용자 피드백에 의한 가중치가 재계산된 용어를 이용한다. 또한 제안방법은 용어의 가중치 재계산과 문서군집에 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 적용하지 않은 문서군 방법에 비하여 좋은 성능을 보인다.

Document clustering is an important method for document analysis and is used in many different information retrieval applications. This paper proposes a new document clustering model using the re-weighted term based NMF(non-negative matrix factorization) to cluster documents relevant to a user’s requirement. The proposed model uses the re-weighted term by using user feedback to reduce the gap between the user’s requirement for document classification and the document clusters by means of machine. The proposed method can improve the quality of document clustering because the re-weighted terms, the semantic feature matrix and the semantic variable matrix, which is used in document clustering, can represent an inherent structure of document set more well. The experimental results demonstrate appling the proposed method to document clustering methods achieves better performance than documents clustering methods.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 관련연구
Ⅲ. 용어 재가중치에 의한 문서군집
Ⅳ. 실험 및 평가
Ⅴ. 결론
참고문헌
저자소개

리뷰(0)

도움이 되었어요.0

도움이 안되었어요.0

첫 리뷰를 남겨주세요.
DBpia에서 서비스 중인 논문에 한하여 피인용 수가 반영됩니다.
인용된 논문이 DBpia에서 서비스 중이라면, 아래 [참고문헌 신청]을 통해서 등록해보세요.
Insert title here