메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

최성욱 (연세대학교, 연세대학교 대학원)

지도교수
김우주
발행연도
2021
저작권
연세대학교 논문은 저작권에 의해 보호받습니다.

이용수45

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
텍스트 데이터의 양, 다양성, 중요성이 폭발적으로 증가함에 따라 텍스트로부터 효과적으로 정보를 추출하는 방법론에 대한 연구가 요구되고 있다. 정보 추출은 수작업 시 많은 시간과 노력이 소요되는 고도의 작업이 필요한 문제로써 이를 극복하고자 딥러닝 기반의 자동으로 정보를 추출하는 기술에 대한 연구가 선행되고 있다.
또한 딥러닝 기반 정보 추출 기술은 다양한 영역에서 생성된 문서를 대상으로도 활용 가능하다. 특히 법률 도메인에서 인공지능 기술을 적용하는 리걸테크 분야가 확장되면서 법률 문서로부터 중요한 정보를 자동으로 추출하는 방법론에 대한 연구가 이루어지고 있다. 따라서 본 연구에서는 비정형 문서인 웹 문서뿐만 아니라 정형 문서인 계약서를 대상으로 범용적인 정보 추출 방법론을 제안한다.
기존 정보 추출 연구에서는 문법 정보 및 언어 규칙을 기반으로 문장에 대한 정보를 수작업으로 설계한 후 정보 추출을 수행했다. 이런 특징은 데이터가 바뀌는 경우 새로 추가적인 정보를 설계해야한다는 한계점으로 작용했다. 또한 기존의 연구는 Triplet <개체, 관계, 개체>의 형태로 이루어진 정보를 문장으로부터 추출할 때 한정된 관계의 집합에 대해서만 정보 추출이 가능한 경우가 대부분이었다.
따라서, 본 연구에서는 추가적인 정보를 필요로 하지 않는 효과적인 정보 추출 방법론을 제안하고 정보 추출 성능 향상을 위한 연구를 진행한다. 대용량 말뭉치를 사전학습한 언어모델 BERT 기반의 단어 및 문장 인코더를 사용해 문장 내 각 단어 간의 관계를 효과적으로 반영한 임베딩을 추출하고 의존 구문 분석 결과를 그래프로 변환하여 Graph2vec 알고리즘을 통해 문장의 문법을 대표하는 그래프 임베딩을 추출한다. 추출한 정보는 모델의 입력으로 사용되며 그 동안 수작업으로 만든 각 단어의 문법적인 정보를 대체하는 역할을 했다.
또한 본 연구에서는 정보 추출 연구를 시퀀스 태깅 모델로 해결하며 관계의 집합을 제한하지 않아도 효과적인 정보 추출 성능을 확보했다. 추가적으로 모델에 Attention Mechanism을 적용하여 정보 추출 시 문장 내 중요한 정보에만 집중하도록 했다. 실험결과, 한국어 위키피디아, 네이버 지식백과, 네이버 뉴스로 제한한 비정형 문서와 근로계약서, 비밀유지계약서, 소프트웨어계약서가 포함된 정형 문서에서 기존의 정보추출모델보다 성능이 향상함을 입증했다.

목차

등록된 정보가 없습니다.

최근 본 자료

전체보기

댓글(0)

0