메뉴 건너뛰기
소속 기관 / 학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
(국립목포대학교)
저널정보
한국멀티미디어학회 멀티미디어학회논문지 멀티미디어학회논문지 제29권 제5호
발행연도
수록면
757 - 766 (10page)
DOI
10.9717/kmms.2026.29.5.757

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
이 논문의 연구방법이 궁금하신가요?
🏆
연구결과
이 논문의 연구결과가 궁금하신가요?
AI에게 요청하기
추천
검색
질문

초록· 키워드

We propose NL-VRS, a hierarchical framework for retrieving abnormal events in large-scale indoor CCTV archives using natural language queries. The system employs a hierarchical two-stage framework: fast candidate retrieval using domain-adapted CLIP (Contrastive Language-Image Pretraining) and FAISS (Facebook AI Similarity Search), followed by structured metadata generation via a video VLM (Vision-Language Model), LLaVA-NeXT-Video-7B. We bridge the domain gap using LoRA (Low-Rank Adaptation)-based fine-tuning on the CLIP visual encoder and incorporate adaptive temporal sampling to capture behavior-rich intervals while minimizing frame redundancy. Experiments on the AI Hub indoor abnormal behavior dataset show that the proposed method improves Recall@1 from 33.5% to 41.5%, Recall@5 from 42.0% to 76.5%, and conditional mIoU (mean Intersection over Union, calculated only when the top-1 result satisfies the category match condition) from 0.348 to 0.409 over the baseline CLIP-based retrieval system. The first-stage retrieval takes 57 ms on average, while the full pipeline requires about 2.1 seconds, demonstrating the practical feasibility of the proposed framework for real-time surveillance support.
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지
정보가 잘못된 경우 알려주세요!

목차

  1. ABSTRACT
  2. 1. 서론
  3. 2. 관련 연구
  4. 3. 제안 방법
  5. 4. 실험 결과 및 고찰
  6. 5. 결론
  7. REFERENCE

참고문헌

참고문헌 신청

최근 본 자료

전체보기