AI 기반의 한국어 학습자 말하기 숙달도 자동 평가 모델 개발 연구 : 학습자 어휘 사용 양상을 기반으로 :A study on the development of AI-based model for automatic assessment of Korean learners’ speaking proficiency

허원진

자료유형: 학위논문

저자정보: 허원진 (한국외국어대학교, 한국외국어대학교 대학원)

지도교수: 김재욱

발행연도: 2024

저작권: 한국외국어대학교 논문은 저작권에 의해 보호받습니다.

이용수19

초록· 키워드

학습자의 수준을 정확하게 평가하고 적절한 단계의 교육을 제공하는 것은 외국어를 학습의 첫 단계로 매우 중요하다. 기존의 한국어 학습자 수준 평가 방식은 대부분 사람에 의한 주관적인 평가에 의존하고 있으며 이러한 방식은 객관성을 확보하기 어렵고, 평가자의 피로도가 높으며 시간 및 비용이 많이 소요되어 대규모 평가에는 적합하지 않다는 한계가 있다. 또한 기관마다 다른 채점 구인과 방식을 활용하고 있어 기관에 따라 같은 학습자더라도 다른 수준으로 판별되기도 한다. 따라서 기존 연구들은 중요 구인을 파악하고 정량화된 구인들을 통해 학습자의 수준을 평가하고자 노력하였다. 하지만 이러한 연구들도 방법론적인 측면에서 통계적인 분석 방식에 의존하고 있다는 점에서 한계가 있다. 관련 연구들은 대체로 단일 구인의 분석에 치중하거나, 몇 가지 구인을 조합하여 분석하는 경우가 많으나, 통계적 분석만으로는 구인 간의 복잡한 상호작용을 충분히 고려할 수 없기 때문이다. 이는 구인 간의 상호작용이 언어 능력을 평가하는 데 미치는 영향을 제대로 반영하지 못함으로써, 학습자의 실제 능력과는 다른 평가 결과를 얻을 수 있다. 이에 최근에는 머신 러닝 기법을 기반으로 다양한 구인 간의 복잡한 비선형적 관계를 반영한 자동 평가에 관한 연구가 활발히 진행되고 있다.
본 연구는 대규모, 객관적 말하기 평가의 필요성과 머신 러닝을 활용한 자동 평가 시스템 개발의 중요성을 인식하고, 한국어 학습자의 어휘 사용 양상을 분석하여 그들의 한국어 능력 수준을 자동으로 예측하는 모델을 개발하는 것을 목표로 한다. 이를 위해 국립국어원에서 구축한 대규모 한국어 학습자 구어 말뭉치를 활용하였고, 각 학습자가 사용한 어휘의 다양도와 정교도를 분석하였다. 특히, 학습자가 사용하는 어휘의 급수별 빈도와 분포를 기반으로 어휘 사용의 정교도를 평가하고, 이를 통해 학습자의 언어 숙달도를 예측하고자 하였다.
이를 위해 첫 번째 단계에서는 한국어 학습자의 숙달도에 영향을 미치는 어휘적 특성이 무엇인지 식별하기 위해 다양한 어휘적 지표들에 관한 선행 연구를 조사하고 어휘의 다양성, 어휘의 정교도, 어휘의 복잡성 등을 측정할 수 있는 자질(특성, Feature)들을 선정하여 한국어 학습자의 구어 말뭉치에서 데이터를 추출하였다. 본 연구에서 활용한 데이터는 국립국어원에서 공개한 대규모 한국어 학습자 말뭉치(구축 기간: 2015년 5월 ~ 2022년 12월)로 다양한 한국어 학습자의 언어 사용 패턴을 파악할 수 있는 기초 자료가 된다. 해당 말뭉치의 전체 표본 수는 형태 주석 말뭉치를 기준으로 26,763개에 해당하며 본 연구에서는 이 중 3,594개의 구어 말뭉치를 활용하여 실험을 진행하였다. 우선 학습자의 말뭉치 데이터에서 어휘 사용 양상을 분석하기 위해 다양한 언어 자질을 선정하였다. ‘전체 어휘 구현 수 및 유형 수’, ‘내용어의 구현 수 및 유형 수’, ‘문장의 개수’와 같이 단순히 어휘의 사용 수를 산정한 데이터를 기반으로 어휘의 다양도를 측정하고 ‘n급 어휘 유형 수 및 빈도’와 같이 국제통용 한국어 표준 교육과정 내의 특정 급수에 해당하는 어휘를 사용한 정도를 산정하여 어휘의 정교도를 측정하였다. 또한 ‘어휘 밀도’와 ‘문장 당 어휘 구현 수’ 데이터를 수집하여 학습자가 발화한 텍스트의 복잡성을 살펴보고자 하였다. 총 10가지 종류의 언어 자질을 선정하였고, 선정한 언어 자질을 기반으로 가장 정확도가 높게 나오는 최적의 특성 조합을 선정하여 예측 모델의 예측 정확도를 최대화하고, 불필요한 언어 자질을 제거하여 모델의 학습 성능을 향상시키고자 하였다. 또한 학습자의 수준을 예측하는 과정에서 가장 영향력이 있는 자질을 식별함으로써 어휘 사용 양상 기반의 자동 평가를 개발할 때 수집 혹은 분석되어야 할 중요한 데이터가 무엇인지에 대한 정보를 얻고자 하였다.
선정한 언어 자질을 바탕으로 본 연구에서는 대규모 한국어 학습자의 말뭉치 데이터를 머신 러닝 모델에 학습시켜 예측 모델을 구축하였다. 이 과정에서 어휘 다양도와 정교도, 복잡도 등을 측정하는 자질 간의 관계가 비선형적일 수 있음을 가정하고 이를 밝히기 위해 선형 모델과 비선형 모델을 모두 적용하여 비교 분석하였다. 로지스틱 회귀를 활용한 선형 모델의 경우, 가장 성능이 높게 나온 특성 조합의 정확도가 46.92%로 모델이 학습자의 수준을 예측하는 데 있어 올바르게 예측한 비율이 50%에도 미치지 못하는 것을 확인하였다. 따라서 선형 모델은 학습자 데이터에 완벽하게 최적화되었다고 보기에는 미흡한 부분이 있어 추가적인 개선을 통해 예측력을 높이는 작업이 필요하다고 판단하였다. 이에 본 연구에서는 ‘랜덤 포레스트’, ‘XG 부스트’, ‘인공 신경망’과 같은 비선형 알고리즘을 활용하여 수준별 어휘의 사용 빈도, 사용 어휘의 다양성, 문장 당 어휘 구현 수 등 다양한 언어 자질 간의 상호작용을 종합적으로 분석하여 예측 모델의 정확도를 높이고자 하였다. 이러한 알고리즘들은 자질 간의 비선형적 관계를 탐지하고 모델링하는 능력이 뛰어나 학습자의 언어 사용 능력에 대해 통계적 분석에 비해 정확하게 예측할 수 있다. 실험 결과 세 가지 알고리즘 중 XG 부스트를 활용한 예측 모델이 정확도는 73.45%로 가장 높게 나타났다. 선형 알고리즘에 비해 비선형 알고리즘의 성능이 월등히 높은 것으로 나타나 XG 부스트와 같은 비선형 알고리즘이 복잡한 어휘 사용 데이터의 패턴을 효과적으로 분석하고 예측하는 데 특히 우수함을 보인다는 것을 알 수 있었다. 이를 통해 언어 교육과 평가 분야에서 머신 러닝 기술의 활용 가능성을 확인하였다. 또한 최적의 언어 자질 조합을 찾기 위해 선정한 10개의 언어 자질을 기반으로 가능한 1,023가지의 자질 조합을 모두 비교하여 가장 성능이 좋은 조합을 찾았습니다. 그 결과, ‘전체 어휘 구현 수, 전체 어휘 유형 수, 문장 개수, 내용어 유형 수, n급 어휘 유형 수, 어휘 밀도1(구현 수 기준), 문장 당 어휘 구현 수’를 포함한 XG 부스트 기반의 예측 모델의 성능이 가장 높은 것으로 나타났다.
나아가 본 연구에서는 특성 중요도 분석과 설명 가능 인공지능(eXplainable AI, XAI)을 활용하여 예측 모델이 학습자의 수준을 예측하는 과정에서 중요하게 작용한 언어 자질을 목록화하고 분석하였다. 가장 성능이 높게 나타났던 XG 부스트 기반 모델의 특성 중요도 분석 결과, 4급 어휘 사용 횟수, 3급 어휘 사용 횟수와 같이 중급 어휘 사용 횟수가 가장 높은 중요도 값을 가지는 것으로 나타났다. 그 뒤를 이어 문장 개수, 6급 어휘 사용 횟수, 5급 어휘 사용 횟수가 중요한 것으로 나타나 고급 어휘의 활용도와 전체적인 문단 구성 능력이 학습자의 수준을 예측하는 데 있어 중요하게 작용한 것을 알 수 있었다.

Accurately assessing a learner''s proficiency and providing appropriate instruction is crucial in the initial stages of learning a foreign language. Current methods for evaluating Korean language learners predominantly rely on subjective human assessments, which are difficult to standardize and impractical for large-scale evaluations due to evaluator fatigue, time constraints, and high costs. Additionally, varying grading schemes and methods across institutions lead to inconsistent performance assessments for the same learner. Consequently, research has attempted to identify and quantify critical skills for evaluating learner proficiency. However, these studies are methodologically limited, primarily relying on statistical analyses that fail to capture the complex interactions between skills. This oversight can result in misleading assessments of a learner''s true abilities.
Recent advancements in machine learning offer promising alternatives by reflecting the intricate, non-linear relationships between various skills. Recognizing the need for large-scale, objective speaking assessments, this study aims to develop an automated system for predicting Korean language proficiency by analyzing learners'' vocabulary usage. Utilizing a comprehensive corpus of spoken Korean provided by the National Language Institute of Korea, this research evaluates vocabulary sophistication and variety to predict language mastery.
The initial step involved reviewing previous studies to identify lexical indicators that measure lexical diversity, sophistication, and complexity. Data were extracted from a large-scale Korean language learner corpus (May 2015 - December 2022), consisting of 26,763 samples, with 3,594 spoken language samples selected for this study. Various linguistic features were analyzed, including the number and types of vocabulary used, the frequency of vocabulary corresponding to specific proficiency levels, lexical density, and the number of lexical items per sentence. A total of ten linguistic qualities were selected, and the optimal combination was determined to maximize the prediction model''s accuracy by eliminating unnecessary features.
To develop the prediction model, a machine learning approach was employed, comparing linear and non-linear models. The linear model, using logistic regression, achieved an accuracy of 46.92%, indicating the need for improvement. Therefore, non-linear algorithms such as Random Forest, XG Boost, and Artificial Neural Networks were applied to better capture the interactions between linguistic features. The XGBoost model demonstrated the highest accuracy at 73.45%, highlighting the superiority of non-linear algorithms in analyzing complex lexical data. In this study, Random Forest, Artificial Neural Network, and XG Boost algorithms were utilized to determine the optimal feature combination. We evaluated all 1,023 possible combinations derived from 10 selected features. The XG Boost model, incorporating the features of total number of lexical tokens, total number of lexical types, number of sentences, number of content word types, number of level-n lexical types, lexical density (based on the number of tokens), and number of lexical tokens per sentence, achieved the highest performance.
Further analysis using feature importance and eXplainable AI (XAI) techniques identified key linguistic qualities influencing the prediction model. The number of intermediate-level vocabulary words, sentence count, and advanced vocabulary usage emerged as significant predictors of learner proficiency. These findings underscore the potential of machine learning in enhancing language teaching and assessment, providing more accurate and objective evaluations of learners'' language abilities.

#자동 채점 #학습자 숙달도 #머신 러닝 #설명 가능 인공지능 #언어 자질 #언어 평가

1. 서론 1
1.1 연구 배경과 목적 1
1.2. 선행 연구 7
1.2.1. 어휘 숙달도 측정 관련 연구 7
1.2.2. 자동 채점 관련 연구 12
1.3. 논문 구성 20
2. 이론적 배경 22
2.1. 언어 학습과 어휘 숙달도 22
2.1.1. 어휘 학습과 어휘 능력 22
2.1.2. 어휘 사용 양상의 분석과 어휘 숙달도 측정 24
2.2. 머신 러닝 34
2.2.1. 지도 학습 35
2.2.2. 설명 가능 인공지능 36
3. 연구 방법 40
3.1. 데이터 선정 41
3.2. 데이터 전처리 47
3.2.1. 결측치 처리 48
3.2.2. 이상치 탐지 및 처리 49
3.2.3. 데이터 정규화 및 표준화 53
3.2.4. 데이터 변환 55
3.2.5. 불균형 데이터 처리 66
3.3. 특성 생성과 엔지니어링 69
3.3.1. 특성 생성 69
3.3.2. 파생 변수 생성 71
3.3.3. 특성 분석 및 선정(Feature Analysis & Selection) 75
3.4. 예측 모델 설계 및 학습 76
3.4.1. 머신 러닝 모델 구축 절차 76
3.4.2. 예측 모델 선정 79
3.4.3. 예측 모델 정의 93
3.4.4. 분석 환경 구축 94
3.4.5. 예측 모델 검증 97
3.4.6. 예측 모델 해석 방안 102
4. 자동 평가 모델 개발 105
4.1. 언어 자질 분석(Feature Analysis) 105
4.1.1. 언어 자질별 데이터 분포 분석 105
4.1.2. 파생 변수별 데이터 분포 분석 116
4.2. 예측 모델 학습 123
4.3. 최적 모델 개발을 위한 언어 자질 조합 선정 128
4.3.1. 선형 모델 학습 기반의 특성 선정 130
4.3.2. 비선형 모델 학습 기반의 특성 선정 132
4.4. 채점 모델 검증 결과 141
4.4.1 랜덤 포레스트 모델 예측 결과 142
4.4.2. 인공 신경망 모델 예측 결과 144
4.4.3. XG 부스트 모델 예측 결과 146
4.4.4. 오분류 된 데이터 분석 147
4.4.5. 결과 요약 155
4.5. 채점 모델 해석 결과 157
4.5.1. 특성 중요도 분석 결과 157
4.5.2. SHAP 분석 결과 158
5. 결론 173
5.1. 연구 요약 173
5.2. 논의 및 제언 176
참고문헌 180
ABSTRACT 195

최근 본 자료

전체보기

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

초록· 키워드

목차

최근 본 자료

댓글(0)