메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
신중길 (서울대학교) 임준석 (서울대학교) 박종헌 (서울대학교)
저널정보
대한산업공학회 대한산업공학회 춘계공동학술대회 논문집 2010년 대한산업공학회 춘계공동학술대회 논문집
발행연도
2010.6
수록면
569 - 572 (4page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
블로고스피어(blogosphere)는 웹상의 모든 블로그들의 집합을 일컫는 말로써 인터넷 상의 중요한 정보 제공자로 자리 잡았다. 인터넷 검색 엔진의 검색 결과의 상당부분이 블로고스피어의 자료로 구성되어 있다. 검색 엔진의 품질은 검색 엔진이 미리 수집해 놓은 자료에 큰 연관이 있다. 웹 크롤러란 웹상의 산재되어 있는 자료를 탐색 후 수집하는 로봇으로 대표적인 웹 크롤러의 알고리즘의 하나인 너비 우선탐색(breadth first search)을 이용하여 블로고스피어의 자료를 수집해본 결과 중복된 문서가 많이 수집되었다. 또한, 각 블로그들의 우선순위가 고려되지 않은 문제점이 발견되었다. 본 연구에서는 블로고스피어를 수집할 때 중복된 결과를 최소화할 수 있는 방법을 제안한다. 첫 번째로, 수집의 대상을 일반적인 하이퍼텍스트 웹 페이지 대신 수많은 블로그에서 제공하고 있는 RSS 피드를 이용하였고, 두 번째로는 블로그 호스트들의 URL의 패턴을 분석하여 중복이 예상되는 URL들을 제거하였다. 추가적으로 각 URL의 우선순위를 다르게 부여하여 중요하다고 판단되는 블로그들을 우선적으로 방문하게 하였다. 실험 결과를 보면 너비 우선탐색에 비해 중복된 문서의 수집이 줄어드는것을 확인할 수 있었다.

목차

Abstract
1. 서론
2. 관련연구
3. 본론
4. 실험
5. 결론

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-ECN-0101-2013-530-003237550