메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이수진 (경기대학교, 경기대학교 대학원)

지도교수
김인철
발행연도
2019
저작권
경기대학교 논문은 저작권에 의해 보호받습니다.

이용수4

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
본 논문에서는 고밀도 비디오 캡션 생성 문제의 해결을 위하여 새로운 심층 신경망 모델인 DVC-Net을 제안한다. 고밀도 비디오 캡션 생성은 하나의 비분할된 입력 비디오로부터 다수의 후보 이벤트 구간들을 탐지해내고, 각각의 이벤트 구간에 대한 자연어 설명 문장을 생성하는 작업이다. 기존 연구들에서 제안된 많은 모델에서는 합성 곱 신경망을 통해 추출하는 입력 비디오의 시각 특징들만을 주로 이용하였다. 그러나 본 논문에서 제안하는 DVC-Net 모델에서는 이러한 시각 특징들뿐만 아니라, 이벤트를 구성하는 중요한 요소들인 사람, 행위, 물체, 장소 등을 효과적으로 표현할 수 있는 고-수준의 의미 특징들을 추가로 이용한다. 또한, DVC-Net 모델에서는 비디오 안에 포함된 이벤트 시간 영역들을 탐지하기 위해 순환 신경망의 하나인 BLSTM을 이용한다. 또, DVC-Net 모델에서는 캡션 생성 단계에서 주의집중 메커니즘과 맥락 게이트를 적용한다. 대용량 벤치마크 데이터 집합들인 ActivityNet Captions와 MSR-VTT를 이용한 다양한 실험으로 제안한 DVC-Net 모델의 우수한 성능을 확인할 수 있었다.

목차

제 1 장 서 론 1
제 1 절 연구배경 1
제 2 절 연구목표 4
제 2 장 이론적 배경 7
제 1 절 비디오 행동 탐지 7
제 2 절 비디오 캡션 생성 9
제 3 절 고밀도 비디오 캡션 생성 12
제 3 장 고밀도 비디오 캡션 생성 모델 14
제 1 절 모델 개요 14
제 2 절 시각 특징 추출 네트워크 16
제 3 절 이벤트 시간 영역 제안 네트워크 17
제 4 절 의미 특징 추출 네트워크 19
제 5 절 캡션 생성 네트워크 23
제 4 장 구현 및 실험 26
제 1 절 데이터 집합 26
제 2 절 모델 구현 28
제 3 절 모델 성능 분석 30
제 1 항 입력 특징 별 성능 분석 30
제 2 항 이벤트 시간 영역 탐지 성능 분석 33
제 3 항 최신 모델들과의 성능 비교 35
제 4 항 고밀도 비디오 캡션 생성 결과 분석 38
제 5 장 결론 및 향후 연구 40
참고문헌 41
Abstract 47

최근 본 자료

전체보기

댓글(0)

0