인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학위논문
- 저자정보
- 지도교수
- 김화종
- 발행연도
- 2018
- 저작권
- 강원대학교 논문은 저작권에 의해 보호받습니다.
이용수39
초록· 키워드
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
현재 인터넷 상에는 분야를 막론하고 수많은 정보와 데이터들이 모여 빅데이터를 이루고 있다. 이러한 빅데이터와 기술의 발달로 사람들은 종이로 된 도서, 신문보다 인터넷에 공개된 전자도서, 인터넷뉴스로부터 빠르게 정보를 습득 할 수 있게 되었다. 사용자는 스마트기기와 컴퓨터를 통해 과거와는 비교 할 수 없을 만큼 편리하게 정보에 접근 할 수 있게 되었지만, 정보 제공자 입장에서는 사용자 질의에 대해 양질의 정보를 찾아서 제공 하는 것이 중심 화두가 되었다.
따라서, 인터넷 상의 정보들을 분석하여 사용자 질의에 가장 근접한 정보들을 선택하여 제공하는 것은 사용자의 재검색을 최소화하고 원하는 정보에 빠르게 접근함으로써 사용자 만족도 향상에 기여할 수 있다.
이에 본 논문에서는 관련된 정보를 탐색하여 제공하기 위한 연구의 일환으로 인터넷에서 제공되는 뉴스기사 데이터를 활용하여 뉴스기사의 주요 키워드를 추출하기 위한 키워드 추출 방법을 제안한다. 또한, 추출한 키워드를 이용하여 단일 검색어에 대한 응답 뉴스기사와 해당 뉴스기사의 연관 뉴스기사를 선택하여 기존 기술과의 성능차이를 평가한다.
뉴스기사의 주요 키워드 추출을 위해 전처리를 통해 의미가 없는 특수문자, 조사, 어미, 구두점 등의 불용어 처리를 수행한다. 또한, 추출된 키워드의 품질 향상을 위해 뉴스기사 내의 불필요 문장을 제거하는 방법을 제안하며 여기에는 TF-IDF를 이용한 문장 유사도와 word2vec을 이용해 문장에 포함된 단어 간의 유사도 평균으로 계산된 결과를 함께 활용한다. 추출된 키워드는 단일 검색어에 대한 응답을 선택하고 주요 키워드 간의 유사도 분석을 통해 연관 뉴스를 찾기 위해 활용한다.
분석 데이터는 다양한 언론사의 뉴스기사를 종합적으로 제공하는 네이버의 IT 분야 뉴스기사를 크롤링하여 활용한다. 인터넷 뉴스기사는 언론사마다 개별 사이트를 통해 제공되고 있지만 검색어가 내용과 본문에 포함되면 모두 검색결과로 선택되며 사용자가 연관 뉴스 추천기능도 대부분 연관성이 떨어지는 경우가 많기 때문에 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.
따라서, 인터넷 상의 정보들을 분석하여 사용자 질의에 가장 근접한 정보들을 선택하여 제공하는 것은 사용자의 재검색을 최소화하고 원하는 정보에 빠르게 접근함으로써 사용자 만족도 향상에 기여할 수 있다.
이에 본 논문에서는 관련된 정보를 탐색하여 제공하기 위한 연구의 일환으로 인터넷에서 제공되는 뉴스기사 데이터를 활용하여 뉴스기사의 주요 키워드를 추출하기 위한 키워드 추출 방법을 제안한다. 또한, 추출한 키워드를 이용하여 단일 검색어에 대한 응답 뉴스기사와 해당 뉴스기사의 연관 뉴스기사를 선택하여 기존 기술과의 성능차이를 평가한다.
뉴스기사의 주요 키워드 추출을 위해 전처리를 통해 의미가 없는 특수문자, 조사, 어미, 구두점 등의 불용어 처리를 수행한다. 또한, 추출된 키워드의 품질 향상을 위해 뉴스기사 내의 불필요 문장을 제거하는 방법을 제안하며 여기에는 TF-IDF를 이용한 문장 유사도와 word2vec을 이용해 문장에 포함된 단어 간의 유사도 평균으로 계산된 결과를 함께 활용한다. 추출된 키워드는 단일 검색어에 대한 응답을 선택하고 주요 키워드 간의 유사도 분석을 통해 연관 뉴스를 찾기 위해 활용한다.
분석 데이터는 다양한 언론사의 뉴스기사를 종합적으로 제공하는 네이버의 IT 분야 뉴스기사를 크롤링하여 활용한다. 인터넷 뉴스기사는 언론사마다 개별 사이트를 통해 제공되고 있지만 검색어가 내용과 본문에 포함되면 모두 검색결과로 선택되며 사용자가 연관 뉴스 추천기능도 대부분 연관성이 떨어지는 경우가 많기 때문에 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.
목차
- Ⅰ. 서 론 11.1 연구 목적 및 동기 11.2 연구방법 2Ⅱ. 관련연구 52.1 선행연구 52.2 본 연구의 차별성 11Ⅲ. 뉴스기사 분석 143.1 이론적 배경 및 주요 기술 143.1.1 벡터 공간 모델 143.1.2 단어 임베딩 143.1.3 텍스트 분석 패키지 151) KoNLPy 152) Gensim 153.1.4 코사인 유사도 153.1.5 NDCG (Normalizing Discounted Cumulative Gain) 163.2 데이터 수집 및 전처리 173.3 불필요 문장 제거 193.4 키워드 추출 233.5 키워드 기반 뉴스 추천 26Ⅳ. 성능 평가 29Ⅴ. 결론 및 향후 과제 36□ 참고문헌 38