인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학위논문
- 저자정보
- 지도교수
- 정윤서
- 발행연도
- 2022
- 저작권
- 고려대학교 논문은 저작권에 의해 보호받습니다.
이용수8
초록· 키워드
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
데이터 증강은 학습데이터의 변형을 통해 데이터의 크기 및 다양성을 늘리는 방법으로 과적합 규제화 수단으로 사용되고 있다. 활발한 연구가 이루어지고 있는 컴퓨터비전 영역과 달리 자연어처리 영역에서의 데이터 증강 관련 연구는 다소 제한적인 상황이다. 특히 한국어 데이터 관련 연구는 극히 적다. 본 논문에서는 소규모의 한국어 텍스트 데이터 분류 분석 성능 향상을 위한 증강 방법론을 제안한다. 1) 맞춤법 교정을 통한 데이터 증강 (DA-SC), 2) 형태소 분석 기반의 쉬운 데이터 증강 (EDA-POS), 3) 조건부 마스킹 언어모형 기반의 데이터 증강 (DA-cMLM)의 총 세 가지 방안을 제안한다. 실제 데이터 분석을 통해 본 논문에서 제안하는 증강 방법의 적용을 통해 분류 성능을 향상시킬 수 있음을 보인다.
목차
- Contents1 서론 12 관련 연구 52.1 유의어 대체 52.2 언어모형 기반의 데이터 증강 62.3 BERT: Bidirectional Encoder Representations from Transformers 73 한국어 증강 방법론 93.1 맞춤법 교정을 통한 데이터 증강 (DA-SC: Data Augmentationwith Spelling Correction) 93.2 형태소 분석 기반의 쉬운 데이터 증강 (EDA-POS) 113.3 조건부 MLM 기반의 데이터 증강 (DA-cMLM) 134 실제 데이터 분석 184.1 데이터셋 184.2 결과 195 결론 및 향후 과제 24