인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 발행연도
- 2021.8
- 수록면
- 17 - 26 (10page)
- DOI
- 10.14801/jkiit.2021.19.8.17
이용수
초록· 키워드
본 논문에서는 복수의 자동 언어 분석기와 언어규칙을 활용하여 반자동으로 한국어 형태 및 구문 부착 말뭉치를 구축하는 방법을 제안한다 약 억 천만 토큰 규모의 한국어 원시말뭉치를 대상으로 한국전자통신연구원과 울산대의 형태 및 구문 분석기를 이용하여 자동으로 분석하였고 자동 형태소 분석 결과를 언어규칙 및 예제기반으로 정규화한 후에 두 분석기의 결과가 동일한 문장을 추출하였다 이후 자동 구문분석 결과의 일관성 오류를 수정한 후 분석결과를 비교하여 최종적으로 약 8,300,000문장 81,500,000토큰 규모의 대용량 형태 및 구문 부착 말뭉치를 CoNLL-U 형식으로 구축하여 CitHub에 공개하였다. 형태소 부착 말뭉치에 대한 수작업 평가에서 토큰 기준 99.12%문장 기준 92.00%의 정확도를 보였으며 구문부착 말뭉치의 경우 LAS와 UAS 모두 토큰 기준 98.00% 이상의 정확도를 보였다.
#Korean morpho-syntactically annotated corpus
#raw corpus
#morpho-syntactic analyzer
#CoNLL-U format
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- 요약
- Abstract
- Ⅰ. 서론
- Ⅱ. 관련 연구
- Ⅲ. KCC 원시말뭉치
- Ⅳ. 반자동 말뭉치 구축 단계
- Ⅴ. 결론
- References