본문 바로가기
[학술대회자료]

  • 학술대회자료

진훈(연세대학교) 김성국(연세대학교)

이 논문을 2019-07-15 에 이용했습니다.

표지

북마크 2

리뷰 0

이용수 218

피인용수 0

초록

일반적으로 논문의 초록은 나머지 전문 내용을 고려하여 저자가 직접 작성한 요약문으로서 해당 문서의 내용적 특징과 함께 키워드를 효과적으로 축약하여 나타낸다. 그러므로 초록을 제외한 전문 내용에 대해 기계적으로 수행한 요약문을 초록문과 최대한 유사하게 생성하는 것이 문서요약의 성능에 있어 효과적이다. 우리는 생물학-의학 분야의 과학 문헌들을 대상으로 문서의 구조적 특성을 고려하여 특징들을 추출한 후 초록문과의 유사도를 비교하였다. 실험을 위해 초록을 제외한 나머지 본문을 하나의 문서로 보고 초록문과 유사도를 측정하였고 섹션 별로 나뉘어진 개별 문서들의 집합으로 보고 각각의 문서들에 대해 초록문과의 유사도의 성능 변화를 측정하고 평가하였다. 이때 초록의 경우 단어벡터 별 가중치를 부여하기 위해 NLP 기법의 하나인 태깅(tagging) 작업을 통해 생성되는 단어와 구의 발생빈도를 중첩시켜 측정하였다. 실험을 통해 단일 문서 내에서 하나의 초록과 하나의 본문 간의 일대일 비교가 아니라 일대다 관계의 비교문제로 치환하여 유사도를 측정했을 때 성능이 증가하는 것을 확인할 수 있었다. 그리고 초록에 발생하는 단어를 기반으로 본문에 등장하는 단어들의 섹션 별 발생 비와 수를 측정함으로써 초록과의 유사성을 비교 분석하였다. 실험 결과를 통해 일정한 형식을 가진 단일 문서 비교에 있어 문서적 특성을 고려함으로써 다중 문서들 간의 비교 기법을 적용할 경우 유사성이 향상되는 것을 확인하였다. 또한 단어벡터 기반의 분석과정 시에 문서의 내용적 특성을 고려하여 추가적 가중치를 부여했을 때 역시 유사성이 증가하는 것을 확인하였다. 그럼에도 불구하고 문서요약을 위해 실제 초록에 등장하는 단어들에 대해 각 섹션 별 발생 횟수나 빈도비를 계산하였을 때 내용적 측면에서 유사도가 높지 않은 것으로 나타났다.

목차

Abstract
Introduction
Related Researches
Approach & Methods
Experiments
Discussion
References

참고문헌(0)

리뷰(0)

도움이 되었어요.0

도움이 안되었어요.0

첫 리뷰를 남겨주세요.
Insert title here