인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 발행연도
- 2026.5
- 수록면
- 9 - 20 (12page)
이용수
초록· 키워드
본 논문은 AI 비전공자도 음성 복제 기술을 실무에 적용할 수 있도록 사용성 중심의 종단간(end-to-end) 보이스 클로닝 파이프라인을 제안한다. 생성형 AI와 Zero-shot 보이스 클로닝 기술이 다양한 분야로 빠르게 확산되고 있지만, 비전공자는 적절한 모델을 선택하는 데 어려움을 겪고 있으며, 실제 활용을 위한 재현 가능한 절차도 부족한 상황이다. 이러한 문제를 해결하기 위해 본 연구는 F5-TTS, XTTS-V2, Chatterbox Turbo-TTS를 선정하고, 레퍼런스 음성 수집, 전처리, 합성, 자동 평가, 리포트 작성, 배포로 이어지는 표준화된 작업 흐름을 설계하였다. 예시 문장은 연구자의 실제 목소리로 녹음하였으며, 각 모델이 생성한 결과물은 원본 음성 파일, 생성 음성 파일, 텍스트 스크립트를 비교하여 유사성, 심미성, 정확성 지표를 통해 자동 평가하였다. 실험 결과, F5-TTS는 장문 낭독과 이야기형 생성에 효과적이었으나 조건에 따라 성능 편차가 나타났다. Chatterbox Turbo-TTS는 높은 화자 유사도, 안정적인 생성 품질이 강점이었다. XTTS-V2는 Cross-lingual 활용성과 정확성에서 가장 우수한 성능을 보였으며, 영어 발음 비교 시나리오에서 WER 0.00%를 기록하였다. 본 논문은 WebUI 도구를 활용해 음성 복제를 실무에 적용할 수 있는 실질적인 기준을 제시하며, 향후 교육 커리큘럼 개발과 다양한 스토리텔링 맥락에 적합한 모델 선택 전략 연구를 위한 기반을 제공한다.
#음성 복제
#자동화 벤치마크
#사용성 중심 파이프라인
#유사성
#심미성
#복제 성능
#Voice Cloning
#Automated Benchmark
#Usability-focused Pipeline
#Similarity
#Aesthetics
#Cloning Performance
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- 요약
- Abstract
- Ⅰ. 서론
- Ⅱ. 모델 연구
- Ⅲ. 구조설계
- Ⅳ. 실험 및 결과
- Ⅴ. 결론
- References