메뉴 건너뛰기
소속 기관 / 학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

(연세대학교, 연세대학교 일반대학원)

지도교수
송민
발행연도
저작권
연세대학교 논문은 저작권에 의해 보호받습니다.

이용수19

표지
AI에게 요청하기
추천
검색

초록· 키워드

상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지
정보가 잘못된 경우 알려주세요!
개체명인식은 자연어이해의 가장 중요한 작업 중 하나로 코퍼스에서 각 개체의 유형을 인식하는 작업이다. 텍스트에서 정보추출이나 지식획득을 목표로 할 때에 본문에서 개체명을 식별 및 추출하여 카테고리화하는 과정을 거치면 텍스트를 다양한 목적에 적용할 수 있도록 구조화시킬 수 있다. 개체명 인식을 수행하는 방법에는 규칙 기반부터 딥 러닝 기반 시스템에 이르기까지 다양한 접근 방식이 있다. 그 중에서도 딥 러닝 기반 접근 방식이 주류를 차지하고 있으며 많은 개체명인식 실험에서 state-of-the-art의 성능을 보여주고 있지만, 일부 측면에서는 비용이 꽤 많이 든다는 특징이 있다. 특히 딥러닝 기반 방식은 데이터 양이 모델의 성능과 직결되기 때문에 어노테이션과 데이터 수집에 많은 인력과 시간을 필요로 한다. 영어와 중국어 같은 일부 주요 언어의 경우에는 고품질 개체명인식 시스템을 구성하기에 충분한 양의 어노테이션 데이터셋과 모델이 존재한다. 그러나 이러한 데이터와 모델의 부재로 한계를 겪고 있는 언어들도 여전히 존재한다. 최근에는 의료 분야에서 데이터의 디지털화로 환자 건강정보를 전자문서 형태로 포함하는 전자건강기록 데이터에 대한 수요와 공급이 모두 증가하고 있다. 이러한 변화와 개체명 인식 기술을 통해 의료 분야의 디지털 데이터를 약물 부작용의 감지, 진단의 분류 등을 포함한 수많은 응용 분야로 확장하고 적용시킬 수 있다. 다만 한국어 의료 개체명인식 분야의 경우 공개된 의료 데이터나 사전 훈련된 모델의 부재로 활용 및 응용연구개발에 어려움을 겪고 있다. 본 연구에서는 의사소견서를 사용하여 개체명인식 작업에 사용될 수 있는 어노테이션 데이터를 구성하고 이를 개체명인식 및 추출 작업에 적용함으로써 다양한 실험과 분석을 시도하고 가장 적합한 모델을 고찰한다. 본 논문은 한국어 전자건강기록 데이터로 진행되는 첫 의학 개체명 추출 연구가 될 것이며 향후 한국어 의료 개체명 인식 및 추출 연구에 참고 및 도움이 될 수 있다.

목차

  1. Table of Content
    Acknowledgements iv
    List of Tables iv
    List of Figures v
    Abstract vi
    1. Introduction 1
    2. Related Works 4
    2.1. Named Entity Recognition (NER) 4
    2.2. NER in Clinical Domain 6
    2.2.1. Clinical Dataset for NER task 6
    2.2.2. NER approaches in Clinical domain 8
    3. Discussion on Clinical Named Entity Recognition 10
    3.1. Unstructured free text format 10
    3.2. Lack of domain-specific annotated corpus and NER model in certain language 12
    3.3. Unclear and nested entities 12
    4. Dataset 13
    5. Annotation 13
    5.1. Annotation guidelines 14
    5.2. Inter-Annotator Agreement (IAA) 15
    5.3. Entity Types 17
    5.4. Annotation corpus statistics and Results 18
    6. Experiment 20
    6.1. BERT-based Approaches 20
    6.1.1. BERT 20
    6.1.2. RoBERTa 21
    6.1.3. ELECTRA 22
    6.2. Experiment metrics 22
    6.3. Experiment settings 24
    7. Result 27
    7.1. Result of experiments 27
    7.2. Analysis on predicted data 30
    8. Conclusion 34
    References 36
    Abstract in Korean 39

최근 본 자료

전체보기