인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 발행연도
- 2026.5
- 수록면
- 95 - 104 (10page)
- DOI
- 10.9708/jksci.2026.31.05.095
이용수
초록· 키워드
본 연구는 시각-언어모델이 장면 인식을 넘어 로봇과 객체 간 상호작용을 통해 질량과 탄성 같은 내재적 물리 속성을 추론하도록 학습 및 평가하는 멀티뷰 비디오 질의응답 벤치마크와 데이터셋을 제안한다. 이를 위해 시뮬레이션 환경에서 역기구학 제어를 바탕으로 큐브 밀기와 구 낙하 태스크를 설계해 데이터를 수집하고, 최신 모델들을 미세조정하여 성능을 분석하였다. 실험 결과, 사전 학습 모델은 낮은 정답률을 보였으나 미세조정 후 최종 변위가 정적인 질량 추론 태스크에서는 성능이 크게 향상되며 기존의 텍스트 응답 편향을 극복하였다. 반면 찰나의 동적 궤적을 추적하는 탄성 추론 태스크에서는 성능 향상이 제한적이었고 언어적 편향성으로 회귀하는 한계를 보였다. 결론적으로 본 데이터셋은 모델의 물리 추론 능력을 정량적으로 평가할 수 있는 환경을 제공하여, 향후 실제 로봇의 효율적인 행동 계획과 의사결정 기반을 마련하는 데 기여한다.
#Vision-Language Model
#Interactive Perception
#Simulation
#Robot Dataset
#Physical property
#시각-언어 모델
#상호작용 인지
#시뮬레이션
#로봇 데이터셋
#물리 속성
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- Abstract
- 요약
- Ⅰ. Introduction
- Ⅱ. Related work
- Ⅲ. Dataset Construction
- IV. Experiments
- Ⅴ. Conclusion
- REFERENCES