메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학술저널
저자정보
김영기 (경성대학교)
저널정보
한국문헌정보학회 한국문헌정보학회지 한국문헌정보학회지 제39권 제1호
발행연도
2005.3
수록면
45 - 58 (14page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색

초록· 키워드

오류제보하기
이 연구는 한글 웹 문서를 클러스터링 하기 위한 자질 선정 방법에 대한 비교연구이다. 이 연구에는 두 개의 코퍼스가 사용되었 다. 클러스터링을 위한 실험 문서는 Naver의 자연과학 범주에서, 자질 선정을 위한 학습문서는 Yahoo Korea의 같은 범주에서 수 집하였다. 우선 실험 문서를 단어자질과 동시링크, 그리고 이 둘을 혼합한 방법으로 클러스터링 한 다음 그 성능을 비교하였다. 다 음으로 학습문서에서 카이제곱 통계량(X2), 정보획득량(IG), 그리고 상호정보량(MI)을 이용하여 용어자질을 선정한 다음, 이를 실험문서에 적용하여 클러스터링 성능을 비교하였다. 여기에 각 범주별로 최댓값을 갖는 용어들만을 해당 범주를 대표하는 자질로 선정하는 ‘최댓값 자질 선정기법’을 실험적으로 도입하여 적용해 보았다. 실험 결과 사용된 자질에 따른 한글 웹 문서 클러스터링 정확률은 자연어 72.3%, 동시링크 74.3%, 단어-링크 혼합 74.8%, X2 79.6%, Max X2 83.8%로 나타났다. 전통적 자질 선정 기 법 중에서는 X2가 약간 나은 성능을 보여 주었지만 큰 차이는 발견되지 않았다. 그러나 최댓값 자질 선정기법을 적용하였을 때 클 러스터링 성능은 크게 향상되었다. 이 논문에서 제안된 최댓값 자질 선정 기법은 웹 문서의 자질 공간 축소와 한글 웹 문서의 클러 스터링을 위한 간단하면서도 효과적인 수단이다.

목차

등록된 정보가 없습니다.

참고문헌 (0)

참고문헌 신청

이 논문의 저자 정보

최근 본 자료

전체보기

댓글(0)

0