상세검색
비밀번호 변경 안내
비밀번호를 변경하신 지 90일 이상 지났습니다.
개인정보 보호를 위해 비밀번호를 변경해 주세요.
비밀번호 변경 안내
비밀번호를 변경하신 지 90일 이상 지났습니다.
개인정보 보호를 위해 비밀번호를 변경해 주세요.
DOI : 10.5626/JOK.2020.47.7.682
UCI(KEPA) : I410-ECN-0101-2020-569-000892577
최근 자연어처리에서 문장 단위의 임베딩을 위한 모델들은 거대한 말뭉치와 파라미터를 이용하기 때문에 큰 하드웨어와 데이터를 요구하고 학습하는 데 시간이 오래 걸린다는 단점을 갖는다. 따라서 규모가 크지 않더라도 학습 데이터를 경제적으로 활용하면서 필적할만한 성능을 가지는 모델의 필요성이 제기된다. 본 연구는 음절 단위의 한국어 사전, 자소 단위의 한국어 사전을 구축하고 자소 단위의 학습과 양방향 WordPiece 토크나이저를 새롭게 소개하였다. 그 결과 기존 모델의 1/10 사이즈의 학습 데이터를 이용하고 적절한 크기의 사전을 사용해 더 적은 파라미터로 계산량은 줄고 성능은 비슷한 KR-BERT 모델을 구현할 수 있었다. 이로써 한국어와 같이 고유의 문자 체계를 가지고 형태론적으로 복잡하며 자원이 적은 언어에 대해 모델을 구축할 때는 해당 언어에 특화된 언어학적 현상을 반영해야 한다는 것을 확인하였다.
Recent models for the sentence embedding use huge corpus and parameters. They have massive data and large hardware and it incurs extensive time to pre-train. This tendency raises the need for a model with comparable performance while economically using training data. In this study, we proposed a Korean-specific model KR-BERT, using sub-character level to character-level Korean dictionaries and BidirectionalWordPiece Tokenizer. As a result, our KR-BERT model performs comparably and even better than other existing pre-trained models using one-tenth the size of training data from the existing models. It demonstrates that in a morphologically complex and resourceless language, using sub-character level and BidirectionalWordPiece Tokenizer captures language-specific linguistic phenomena that the Multilingual BERT model missed.
요약
Abstract
1. 서론
2. 기존 연구
3. Multilingual BERT의 한계
4. 한국어에 특화된 KR-BERT 모형
5. 실험 및 결과
6. 결론
References
도움이 되었어요.0
도움이 안되었어요.0
알림 설정하기
논문 오류신고
신고항목
이 논문의 참고문헌을 찾아주세요.
이 논문의 참고문헌을 찾아주세요.
구매하기
장바구니
인용양식
공식 스폰서와 앰부시 마케팅의 광고 크리에이티브 효과 : 2009 광저우 아시안게임을 중심으로
기관인증