상세검색
비밀번호 변경 안내
비밀번호를 변경하신 지 90일 이상 지났습니다.
개인정보 보호를 위해 비밀번호를 변경해 주세요.
비밀번호 변경 안내
비밀번호를 변경하신 지 90일 이상 지났습니다.
개인정보 보호를 위해 비밀번호를 변경해 주세요.
DOI : 10.7465/jkdi.2021.32.2.439
We compare the effect of multiple input representations on polyphonic piano music transcription based on neural networks. A state-of-the-art piano transcription neural network model, onsets and frames, is explored. We first provide detailed backgrounds of the piano transcription and input representations for the readers who are unfamiliar with this area. For comparing their effects, we consider four spectrograms; Mel-spectrogram, Linear-spectrogram, Log-spectrogram and constant-Q-transform with various hyper parameters. The effects of frequency bins, Short Time Fourier Transformation (STFT) window size and hop length on the four spectrograms are also examined. Our results show that Mel-spectrogram of 2,048 STFT window size, 512 frequency bins and 256 hop length yields the highest accuracy. We show that Mel-spectrogram is one of the most satisfactory input representations in general. Mel-spectrogram dominates other spectrograms and keeps a relatively high transcription accuracy even at the low resolutions in our experiments.
Abstract
1. Introduction
2. Background of piano music transcription
3. Background of audio input representations
4. Onsets and frames model
5. Application to real data
6. Concluding remarks
References
도움이 되었어요.0
도움이 안되었어요.0
알림 설정하기
논문 오류신고
신고항목
이 논문의 참고문헌을 찾아주세요.
이 논문의 참고문헌을 찾아주세요.
구매하기
장바구니
인용양식
공식 스폰서와 앰부시 마케팅의 광고 크리에이티브 효과 : 2009 광저우 아시안게임을 중심으로
기관인증