인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학위논문
- 저자정보
- 지도교수
- 송민
- 발행연도
- 2023
- 저작권
- 연세대학교 논문은 저작권에 의해 보호받습니다.
이용수19
초록· 키워드
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
개체명인식은 자연어이해의 가장 중요한 작업 중 하나로 코퍼스에서 각 개체의 유형을 인식하는 작업이다. 텍스트에서 정보추출이나 지식획득을 목표로 할 때에 본문에서 개체명을 식별 및 추출하여 카테고리화하는 과정을 거치면 텍스트를 다양한 목적에 적용할 수 있도록 구조화시킬 수 있다. 개체명 인식을 수행하는 방법에는 규칙 기반부터 딥 러닝 기반 시스템에 이르기까지 다양한 접근 방식이 있다. 그 중에서도 딥 러닝 기반 접근 방식이 주류를 차지하고 있으며 많은 개체명인식 실험에서 state-of-the-art의 성능을 보여주고 있지만, 일부 측면에서는 비용이 꽤 많이 든다는 특징이 있다. 특히 딥러닝 기반 방식은 데이터 양이 모델의 성능과 직결되기 때문에 어노테이션과 데이터 수집에 많은 인력과 시간을 필요로 한다. 영어와 중국어 같은 일부 주요 언어의 경우에는 고품질 개체명인식 시스템을 구성하기에 충분한 양의 어노테이션 데이터셋과 모델이 존재한다. 그러나 이러한 데이터와 모델의 부재로 한계를 겪고 있는 언어들도 여전히 존재한다. 최근에는 의료 분야에서 데이터의 디지털화로 환자 건강정보를 전자문서 형태로 포함하는 전자건강기록 데이터에 대한 수요와 공급이 모두 증가하고 있다. 이러한 변화와 개체명 인식 기술을 통해 의료 분야의 디지털 데이터를 약물 부작용의 감지, 진단의 분류 등을 포함한 수많은 응용 분야로 확장하고 적용시킬 수 있다. 다만 한국어 의료 개체명인식 분야의 경우 공개된 의료 데이터나 사전 훈련된 모델의 부재로 활용 및 응용연구개발에 어려움을 겪고 있다. 본 연구에서는 의사소견서를 사용하여 개체명인식 작업에 사용될 수 있는 어노테이션 데이터를 구성하고 이를 개체명인식 및 추출 작업에 적용함으로써 다양한 실험과 분석을 시도하고 가장 적합한 모델을 고찰한다. 본 논문은 한국어 전자건강기록 데이터로 진행되는 첫 의학 개체명 추출 연구가 될 것이며 향후 한국어 의료 개체명 인식 및 추출 연구에 참고 및 도움이 될 수 있다.
목차
- Table of ContentAcknowledgements ivList of Tables ivList of Figures vAbstract vi1. Introduction 12. Related Works 42.1. Named Entity Recognition (NER) 42.2. NER in Clinical Domain 62.2.1. Clinical Dataset for NER task 62.2.2. NER approaches in Clinical domain 83. Discussion on Clinical Named Entity Recognition 103.1. Unstructured free text format 103.2. Lack of domain-specific annotated corpus and NER model in certain language 123.3. Unclear and nested entities 124. Dataset 135. Annotation 135.1. Annotation guidelines 145.2. Inter-Annotator Agreement (IAA) 155.3. Entity Types 175.4. Annotation corpus statistics and Results 186. Experiment 206.1. BERT-based Approaches 206.1.1. BERT 206.1.2. RoBERTa 216.1.3. ELECTRA 226.2. Experiment metrics 226.3. Experiment settings 247. Result 277.1. Result of experiments 277.2. Analysis on predicted data 308. Conclusion 34References 36Abstract in Korean 39