인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 발행연도
- 2026.5
- 수록면
- 757 - 766 (10page)
- DOI
- 10.9717/kmms.2026.29.5.757
이용수
초록· 키워드
We propose NL-VRS, a hierarchical framework for retrieving abnormal events in large-scale indoor CCTV archives using natural language queries. The system employs a hierarchical two-stage framework: fast candidate retrieval using domain-adapted CLIP (Contrastive Language-Image Pretraining) and FAISS (Facebook AI Similarity Search), followed by structured metadata generation via a video VLM (Vision-Language Model), LLaVA-NeXT-Video-7B. We bridge the domain gap using LoRA (Low-Rank Adaptation)-based fine-tuning on the CLIP visual encoder and incorporate adaptive temporal sampling to capture behavior-rich intervals while minimizing frame redundancy. Experiments on the AI Hub indoor abnormal behavior dataset show that the proposed method improves Recall@1 from 33.5% to 41.5%, Recall@5 from 42.0% to 76.5%, and conditional mIoU (mean Intersection over Union, calculated only when the top-1 result satisfies the category match condition) from 0.348 to 0.409 over the baseline CLIP-based retrieval system. The first-stage retrieval takes 57 ms on average, while the full pipeline requires about 2.1 seconds, demonstrating the practical feasibility of the proposed framework for real-time surveillance support.
#Video Retrieval
#Natural Language Query
#CCTV Surveillance
#Abnormal Behavior Detection
#CLIP
#LoRA
#Domain Adaptation
#Video VLM
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- ABSTRACT
- 1. 서론
- 2. 관련 연구
- 3. 제안 방법
- 4. 실험 결과 및 고찰
- 5. 결론
- REFERENCE