메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
오창한 (한국전자통신연구원) 김민서 (한국외국어대학교) 박기영 (한국전자통신연구원) 송화전 (한국전자통신연구원)
저널정보
한국음성학회 말소리와 음성과학 말소리와 음성과학 제16권 제3호
발행연도
2024.9
수록면
79 - 86 (8page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
트랜스포머 모델은 텍스트, 영상 등 순차적 입력 데이터에서 의미 있는 정보를 추출하는 데 뛰어난 성과를 보여주었으며, 음성인식 분야에서도 종단형 모델로서 주목받고 있다. 본 연구에서는 트랜스포머 음성인식 모델과 이를 개선한 컨포머, E-브랜치포머 모델을 한국어 음성인식에 적용하여 성능을 비교하였다. AIHub에 공개된 한국어 음성 데이터를 활용하여 약 7,500시간의 훈련셋을 마련하고, ESPnet 툴킷을 활용하여 트랜스포머, 컨포머, E-브랜치 포머 모델을 훈련하고 성능을 평가하였다. 또한, 인식 단위로 음절과 서브워드를 사용하는 경우를 비교하고, Byte Pair Encoding의 토큰 수 변화에 따른 성능 차이를 분석하였다. 실험 결과, E-브랜치포머가 한국어 음성인식에서 가장 우수한 성능을 보였으며, 컨포머는 트랜스포머보다 우수하였으나 긴 발화에 대해서는 성능 저하가 확인되었다. 이러한 성능 저하의 원인으로 인코더-디코더의 크로스 어텐션 정렬 과정에 오차가 발생함을 확인하였다. 또한, 서브워드 인식 단위를 사용하면서 토큰 수를 조정할 때의 성능 변화에 대한 분석을 통해 최적의 설정을 찾고자 하였다. 본 연구는 모델의 정확도와 처리 속도를 종합적으로 평가하였으며, 이를 통해 한국어 음성인식의 효율성을 극대화할 수 있는 방법을 모색하였다. 대규모 한국어 음성인식 모델의 학습과 컨포머의 인식 오류 개선 연구에 기여할 수 있을 것으로 기대된다. 또한, 향후 연구 방향으로는 다양한 한국어 음성 데이터셋을 활용한 추가 실험과 더불어, 컨포머의 구조적 개선을 통한 인식 성능 향상을 목표로 한다.

목차

Abstract
1. 서론
2. 종단형 음성인식 모델
3. 데이터셋
4. 실험 및 분석
5. 결론
References
국문초록
참고문헌

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-151-25-02-090942143