인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학위논문
- 저자정보
- 지도교수
- 이상민
- 발행연도
- 2021
- 저작권
- 인하대학교 논문은 저작권에 의해 보호받습니다.
이용수28
초록· 키워드
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
음성언어이해(spoken language understanding) 기술은 발화된 음성을 통해 화자의 명령이나 의도(intent)를 인식하는 것을 목적으로 한다. 전통적인 음성언어이해 기술은 발화된 음성을 문자로 전사(transcript)한 뒤, 전사된 문자를 통해 의도나 명령를 분류하는 음성인식과 자연어이해(natural language understanding) 기술의 결합으로 구성되는데, 음성인식의 오류가 자연어이해 알고리즘에 전파되어 음성인식 정확도에 많은 영향을 받는 단점이 존재했다. 이에 최근 음성인식을 통해 문자로 전사하지 않고 바로 의도를 인식하는 종단 간(end-to-end) 방식의 음성언어이해 기술들이 많이 연구되고 있지만, 기존의 방식을 대체하기에는 아직 연구가 완성되지 않았고, 또한, 종단 간 방식의 음성언어이해를 위해서는 음성에 해당하는 의도나 명령의 쌍으로 구성된 데이터가 필요하지만, 데이터를 구축하는 데에는 큰 비용이 소요되기 때문에 아직 그 수가 많이 부족하다.
따라서, 이 논문에서는 이를 해결하기 위해 최근 음성인식을 위한 음성의 특징을 추출하는 자기지도학습(self-supervised learning) 방식의 vq-wav2vec와 RoBERTa를 이용하여 음성의 특징을 추출하고 의도분류 성능을 보완하기 위해 사전학습(pre-training) 단계와 의도를 분류하기 위한 fine-tuning 단계에서 음성-문자 간 교차-모드(cross-modal) 지식 증류(knowledge distillation)를 적용하는 방법을 제안한다. 또한, 부족한 데이터의 양을 보완하기 위해 마스킹을 통한 데이터 증강(data augmentation)을 적용해 종단 간 음성언어이해 기술의 성능을 높이는 방법을 제안한다.
제안한 알고리즘들의 효과를 검증하기 위해 음성언어이해 성능평가에 많이 사용되는 FSC(Fluent Speech Command) 데이터셋과 데이터셋이 적은 상황을 가정하여 학습 데이터의 10%만 추출한 부분 데이터셋을 사용하여 성능을 평가했고 다양한 데이터셋에 대해서도 적응되는지 검증하기 위해 자연어이해 성능평가에 사용되는 Snips(Snips-NLU) 데이터셋을 음성 합성(speech synthesis)하여 만든 데이터셋과 Smartlights(Snips-SLU) 데이터셋에 대해 실험한 결과 제안한 알고리즘이 모두 효과가 있음을 확인했으며 특히, FSC 데이터셋의 경우 의도분류 태스크에서 현재까지 보고된 성능 중 가장 높은 99.7%의 정확도를 달성했다.
따라서, 이 논문에서는 이를 해결하기 위해 최근 음성인식을 위한 음성의 특징을 추출하는 자기지도학습(self-supervised learning) 방식의 vq-wav2vec와 RoBERTa를 이용하여 음성의 특징을 추출하고 의도분류 성능을 보완하기 위해 사전학습(pre-training) 단계와 의도를 분류하기 위한 fine-tuning 단계에서 음성-문자 간 교차-모드(cross-modal) 지식 증류(knowledge distillation)를 적용하는 방법을 제안한다. 또한, 부족한 데이터의 양을 보완하기 위해 마스킹을 통한 데이터 증강(data augmentation)을 적용해 종단 간 음성언어이해 기술의 성능을 높이는 방법을 제안한다.
제안한 알고리즘들의 효과를 검증하기 위해 음성언어이해 성능평가에 많이 사용되는 FSC(Fluent Speech Command) 데이터셋과 데이터셋이 적은 상황을 가정하여 학습 데이터의 10%만 추출한 부분 데이터셋을 사용하여 성능을 평가했고 다양한 데이터셋에 대해서도 적응되는지 검증하기 위해 자연어이해 성능평가에 사용되는 Snips(Snips-NLU) 데이터셋을 음성 합성(speech synthesis)하여 만든 데이터셋과 Smartlights(Snips-SLU) 데이터셋에 대해 실험한 결과 제안한 알고리즘이 모두 효과가 있음을 확인했으며 특히, FSC 데이터셋의 경우 의도분류 태스크에서 현재까지 보고된 성능 중 가장 높은 99.7%의 정확도를 달성했다.
목차
- 제 1 장 서론 1제 2 장 배경 이론 32.1. 전통적인 음성언어이해 기술 32.2. 종단 간 방식의 음성언어이해 기술 52.3. 자기지도학습 방식의 음성 특징 추출과 지식 증류 62.3.1 wav2vec 62.3.2 vq-wav2vec 82.3.3 지식 증류 14제 3 장 제안하는 방법 163.1 제안하는 종단 간 방식의 음성언어이해 모델 구조 163.2 음성-문자 간 교차-모드 지식 증류 183.2.1 사전학습 단계에서의 지식 증류 183.2.2 fine-tuning 단계에서의 지식 증류 203.3 음향모델 사전학습 223.4 데이터 증강 243.3.1 입력 마스킹을 통한 데이터 증강 253.3.2 시간-채널 축 임베딩 마스킹을 통한 데이터 증강 26제 4 장 실험 및 결과 274.1 실험 환경 274.2 실험을 위한 데이터셋 294.2.1 FSC 데이터셋 294.2.2 Snips 데이터셋 304.2.3 Smartlights 데이터셋 314.3 결과 324.2.1 FSC 데이터셋에 대한 의도분류 결과 324.2.2 Snips 데이터셋에 대한 의도분류 결과 354.2.3 Smartlights 데이터셋에 대한 의도분류 결과 36제 5 장 결론 37참고 문헌 38