메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
고재훈 김승룡 (고려대학교)
저널정보
한국방송·미디어공학회 방송과 미디어 방송과 미디어 제29권 제3호
발행연도
2024.7
수록면
58 - 66 (9page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
오디오 기반 발화 영상 생성을 위한 최근의 방법은 종종 단안 비디오에서 신경 방사장(NeRF)을 최적화하며, 고화질 및 3D 일관성 있는 새로운 뷰 프레임을 렌더링하는 기능을 활용한다. 그러나 단안 비디오에 포괄적인 3D 정보가 없기 때문에 완전한 얼굴 기하학을 reconstruct하는 데 어려움을 겪는 경우가 많다. 본 논문에서는 개인화를 통해 사전 훈련된 3차원 생성 모델을 바탕으로 그럴듯한 영상을 생성할 수 있는 새로운 오디오 기반 발화 영상 생성 프레임워크인 Talk3D를 제안한다. 본 모델은 개인화된 3D 생성 모델과 더불어 입력 오디오에 의해 구동되는 NeRF 공간의 동적 얼굴 변화를 예측하는 새로운 오디오 유도 주의 U-Net 아키텍처를 제시하며, 오디오와 무관한 장면 변화를 효과적으로 분리하는 다양한 컨디션 토큰을 사용하는 구조이다. 기존 방법에 비해 Talk3D는 극단적인 카메라 포즈에서도 현실적인 영상을 생성하는 데 탁월하며, 우리의 접근 방식이 정량적 및 정성적 평가 측면에서 최첨단 벤치마크를 능가한다는 것을 보여주는 광범위한 실험을 수행하고 이를 설명하고자 한다.

목차

요약
Ⅰ. 서론
Ⅱ. 개인화된 오디오 기반 NeRF 기술
Ⅲ. 개인화된 오디오 기반 NeRF 기술의 실험 결과
Ⅳ. 결론
참고문헌

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0