메뉴 건너뛰기
소속 기관 / 학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
고객센터 ENG
주제분류

논문 기본 정보

자료유형
학위논문
저자정보

(고려대학교, 고려대학교 대학원)

지도교수
정윤서
발행연도
저작권
고려대학교 논문은 저작권에 의해 보호받습니다.

이용수8

표지

초록· 키워드

상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지
정보가 잘못된 경우 알려주세요!
데이터 증강은 학습데이터의 변형을 통해 데이터의 크기 및 다양성을 늘리는 방법으로 과적합 규제화 수단으로 사용되고 있다. 활발한 연구가 이루어지고 있는 컴퓨터비전 영역과 달리 자연어처리 영역에서의 데이터 증강 관련 연구는 다소 제한적인 상황이다. 특히 한국어 데이터 관련 연구는 극히 적다. 본 논문에서는 소규모의 한국어 텍스트 데이터 분류 분석 성능 향상을 위한 증강 방법론을 제안한다. 1) 맞춤법 교정을 통한 데이터 증강 (DA-SC), 2) 형태소 분석 기반의 쉬운 데이터 증강 (EDA-POS), 3) 조건부 마스킹 언어모형 기반의 데이터 증강 (DA-cMLM)의 총 세 가지 방안을 제안한다. 실제 데이터 분석을 통해 본 논문에서 제안하는 증강 방법의 적용을 통해 분류 성능을 향상시킬 수 있음을 보인다.

목차

  1. Contents
    1 서론 1
    2 관련 연구 5
    2.1 유의어 대체 5
    2.2 언어모형 기반의 데이터 증강 6
    2.3 BERT: Bidirectional Encoder Representations from Transformers 7
    3 한국어 증강 방법론 9
    3.1 맞춤법 교정을 통한 데이터 증강 (DA-SC: Data Augmentation
    with Spelling Correction) 9
    3.2 형태소 분석 기반의 쉬운 데이터 증강 (EDA-POS) 11
    3.3 조건부 MLM 기반의 데이터 증강 (DA-cMLM) 13
    4 실제 데이터 분석 18
    4.1 데이터셋 18
    4.2 결과 19
    5 결론 및 향후 과제 24

최근 본 자료

전체보기