Exploring the feasibility of fine-tuning large-scale speech recognition models for domain-specific applications: A case study on Whisper model and KsponSpeech dataset

Q: 이 논문에서 정의한 인식 정확도란 무엇인가?

인식 정확도는 특정 어휘 항목이 포함된 문장에서 해당 어휘 항목이 올바르게 인식되었는지 여부를 기준으로 문장의 정확성을 판단하는 측정 기준이다. 참조 문장에 특정 어휘 항목이 있을 때, 디코딩 결과가 해당 어휘 항목을 정확히 인식하면 '정확한 문장'으로, 그렇지 않으면 '부정확한 문장'으로 분류한다. 이는 특정 어휘 항목의 의미론적 이해가 중요한 도메인 미세 조정에서 특히 중요하다.

Q: 대규모 음성 인식 모델의 도메인 특화 미세 조정은 어떤 효과를 가지는가?

연구 결과, 대규모 음성 인식 모델을 특정 도메인에 맞게 미세 조정하면, 적은 양의 데이터로도 특정 어휘 항목의 인식 정확도를 크게 향상시키고 도메인 특화 성능을 개선할 수 있다. 특히, 적은 양의 데이터로 미세 조정한 모델은 다양한 언어 및 환경에서 일반화 능력을 유지하는 경향을 보였다.

Jungwon Chang; Hosung Nam

추천

검색

질문

자료유형: 학술저널

저자정보: Jungwon Chang (Korea University) Hosung Nam (Korea University)

저널정보: 한국음성학회 말소리와 음성과학 말소리와 음성과학 제15권 제3호

발행연도: 2023.9

수록면: 83 - 88 (6page)

이용수

📌

연구주제

📖

연구배경

🔬

연구방법: 이 논문의 연구방법이 궁금하신가요?

🏆

연구결과: 이 논문의 연구결과가 궁금하신가요?

초록· 키워드

This study investigates the fine-tuning of large-scale Automatic Speech Recognition (ASR) models, specifically OpenAI’s Whisper model, for domain-specific applications using the KsponSpeech dataset. The primary research questions address the effectiveness of targeted lexical item emphasis during fine-tuning, its impact on domain-specific performance, and whether the fine-tuned model can maintain generalization capabilities across different languages and environments. Experiments were conducted using two fine-tuning datasets: Set A, a small subset emphasizing specific lexical items, and Set B, consisting of the entire KsponSpeech dataset. Results showed that fine-tuning with targeted lexical items increased recognition accuracy and improved domain-specific performance, with generalization capabilities maintained when fine-tuned with a smaller dataset. For noisier environments, a trade-off between specificity and generalization capabilities was observed. This study highlights the potential of fine-tuning using minimal domain-specific data to achieve satisfactory results, emphasizing the importance of balancing specialization and generalization for ASR models. Future research could explore different fine-tuning strategies and novel technologies such as prompting to further enhance large-scale ASR models’ domain-specific performance.

#automatic speech recognition #deep learning #Transformers #Whisper

참고문헌

참고문헌 신청

최근 본 자료

전체보기

UCI(KEPA) : I410-151-24-02-088054295

배경 및 목적
대상 및 방법론
분석 및 수행
결과 및 의의

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

초록· 키워드

AI가 분석한 연구 핵심

이 논문의 한줄 요약

이 논문의 연구방법

목차

참고문헌

함께 읽어보면 좋을 논문

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

댓글(0)