인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
개인구독
소속 기관이 없으신 경우, 개인 정기구독을 하시면 저렴하게
논문을 무제한 열람 이용할 수 있어요.
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 저널정보
- Korean Institute of Information Scientists and Engineers Journal of KIISE Journal of KIISE Vol.52 No.3
- 발행연도
- 2025.3
- 수록면
- 250 - 259 (10page)
- DOI
- 10.5626/JOK.2025.52.3.250
이용수
초록· 키워드
한국어 언어 모델을 학습하는 과정에서 한국어 토크나이저(Tokenzier)를 구성하는 것은 매우 중요한 단계이다. 현재 대부분의 언어 모델은 형태소(Morpheme) 또는 서브워드(Subword) 단위로 토크나이징을 진행하고 있다. 이러한 방식은 정제된 한국어 텍스트 데이터에서는 좋은 성능을 보일 수 있지만, 현실의 한국어 데이터에서 자주 발생하는 줄임말과 신조어로 인한 OOV(Out of Vocabulary) 문제에 취약하다. 또한, 실제 환경의 한국어 데이터에는 다양한 오탈자와 비표준적 표현이 많이 포함되어 있어, 기존의 형태소나 서브워드 단위 토크나이징 방식은 이러한 노이즈에 대한 강건성이 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 음절(Syllable) 단위의 토크나이저를 사용하여, 노이즈 및 비표준어가 존재하는 실제 환경에서도 한국어의 특성을 최소한의 자원으로 효과적으로 처리할 수 있는 SyllaBERT 모델을 제안한다. 이를 위해 매우 작은 크기의 음절 단위 어휘 집합을 만들고, 기존 언어 모델의 임베딩과 은닉층 크기를 줄인 음절 단위 언어 모델을 개발하였다. 실험 결과, SyllaBERT 모델은 기존 서브워드 단위 언어모델에 비해 파라미터 크기가 약 4배 더 작음에도 불구하고, 현실 세계의 노이즈가 존재하는 한국어 일상 대화 데이터에서 더 높은 자연어 이해 성능을 보였다.
#한국어 언어모델
#음절
#토크나이저
#오탈자
#경량화
#Korean language model
#syllable
#tokenizer
#misspelling
#natural language processing
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- 요약
- Abstract
- 1. 서론
- 2. 관련 연구
- 3. 제안 모델
- 4 실험 및 평가
- 5. 결론
- References
참고문헌
참고문헌 신청최근 본 자료
UCI(KEPA) : I410-151-25-02-092466940