인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
개인구독
소속 기관이 없으신 경우, 개인 정기구독을 하시면 저렴하게
논문을 무제한 열람 이용할 수 있어요.
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 발행연도
- 2025.6
- 수록면
- 581 - 585 (5page)
- DOI
- 10.5302/J.ICROS.2025.25.0050
이용수
초록· 키워드
A world model allows robots to understand and predict the interplay between their actions and environmental dynamics. Recent advancements in diffusion models have significantly improved the quality of image frame generation in simulated environments, contributing to the development of more robust and generalized world models. However, these diffusion-based world models often depend on discrete inputs, such as keyboard commands, which limit their applicability to continuous real-world robotic control. To address this limitation, we propose a novel framework that integrates contrastive learning to align visual and proprioceptive modalities (e.g., joint positions) within a shared latent space. This shared latent space facilitates accurate cross-modal predictions between visual scenes and proprioceptive states. By combining this latent representation with a diffusion model, our world model can generate long-term future visual scenes by leveraging both initial visual observations and proprioceptive states. Experimental results demonstrate that the proposed framework generates high-fidelity, long-term future visual scenes when provided with target proprioceptive data. This capability enables robots to plan their motions solely based on the generated images, enabling imagination-based planning.
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- Abstract
- I. 서론
- II. 선행 연구
- III. 제안 방법론
- IV. 실험
- V. 회귀적 미래 프레임 생성
- VI. 결론
- REFERENCES