메뉴 건너뛰기
소속 기관 / 학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
(숙명여자대학교) (숙명여자대학교)
저널정보
한국멀티미디어학회 멀티미디어학회논문지 멀티미디어학회논문지 제29권 제5호
발행연도
수록면
805 - 819 (15page)
DOI
10.9717/kmms.2026.29.5.805

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
이 논문의 연구방법이 궁금하신가요?
🏆
연구결과
이 논문의 연구결과가 궁금하신가요?
AI에게 요청하기
추천
검색
질문

초록· 키워드

3D Visual Grounding (3DVG) aims to localize objects in a 3D scene that correspond to a given natural language query and plays a critical role in applications such as robotics and autonomous systems. With recent advances in Vision-Language Models (VLMs), zero-shot approaches to 3DVG that leverage pre-trained VLMs without task-specific 3D supervision have gained increasingly attention. However, such approaches heavily rely on pre-trained knowledge and are sensitive to the configuration of textual and visual inputs. While fully supervised 3DVG methods have been extensively studied, a systematic analysis of zero-shot VLM-based 3DVG remains limited. In this work, we conduct a comprehensive analysis of VLM-based zero-shot 3D Visual Grounding by varying natural language query formulations and visual input configurations, with a particular focus on modality contribution. Our analysis reveals that current VLM-based zero-shot approaches exhibit limited capability in relational reasoning and tend to rely on textual cues rather than visual evidence. These findings highlight inherent structural limitations of existing zero-shot VLM-based 3DVG pipelines. Based on our observations, we further discuss the necessity of incorporating structured 3D representations or explicit mechanisms for modeling spatial relationships to enable more reliable reasoning in future zero-shot 3D Visual Grounding systems.
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지
정보가 잘못된 경우 알려주세요!

목차

  1. ABSTRACT
  2. 1. 서론
  3. 2. 관련 연구
  4. 3. 분석 방법
  5. 4. 실험 결과 및 분석
  6. 5. 결론
  7. REFERENCE

참고문헌

참고문헌 신청

최근 본 자료

전체보기