금융시장 환경이 점차 오프라인에서 온라인 비대면으로 이동함에 따라 기존의 객관적 정형 정보에 기반한 소비자 행동 예측 방법은 점차 정확성을 잃어가고 있다. 이에 따라 최근 들어 주관적 비정형 정보의 중요성이 빠르게 주목 받고 있다. 본 연구는 P2P 대출시장에서 주관적 비정형 정보의 하나인 차입자의 언어 표현 정보가 실제 대출상환에 미치는 영향을 분석하였다. 이를 위해 국내 최초이자 최대 P2P 대출 플랫폼인 머니옥션에 2007년 4월 18일부터 2016년 2월 21일까지 등록된 대출신청 자료 42,335건을 웹크롤링을 이용해 추출하였다. 이 중 대출신청 취소 건, 대출 실패 건, 만기 미도래 건들을 제외하고 상환 시점이 도래한 4,800개의 대출자료를 이용해 순서형 로짓 분석을 실시하였다. 각각의 대출자료에서 대출목적 및 상환계획과 관련해 차입자가 입력한 텍스트를 한국어 언어심리 분석 프로그램인 KLIWC(Korean Linguistic Inquiry and Word Count)를 이용해 분석함으로써 언어 표현 정보와 관련된 다섯 가지의 설명변수(단어수, 재정상태표현, 인과관계표현, 자기활동표현, 감정상태표현)를 추출하였다. 차입자의 인구통계 정보, 재무/신용 정보 및 대출신청 정보와 관련된 13가지 변수는 통제변수로 설정하였다. 그리고 언어 표현 정보의 차입자의 상환결과에 대한 예측력을 분석하기 위해서 10겹 교차검증방법(10-fold cross validation method)을 통해 모형을 검증하였다. 본 연구는 차입자의 대출상환 실적이 단어수, 재무상태 표현, 인과관계 표현 등의 차입자의 언어 표현 정보에 의해 중요하게 영향을 받고 있음을 밝혔다. 구체적으로 단어수의 경우 차입자가 대출신청 시 작성한 텍스트에 단어수가 많은 대출신청 건일수록 상환결과가 우수한 것으로 나타났다. 또한 전체 텍스트 정보 중에서 차입자의 재무상태나 인과관계와 관련된 표현의 비중이 높은 대출신청 건일수록 상환결과가 우수한 것으로 나타났다. 이에 더해 차입자의 상환결과에 대한 예측력 분석에 있어서 인구통계 정보, 재무/신용 정보, 대출신청 정보와 함께 차입자의 언어 표현 정보를 추가할 경우 상환결과에 대한 예측력을 더욱 높일 수 있음을 밝혔다. 이러한 연구결과는 이제까지 차입자의 신용평가에서 주로 다루어졌던 인구통계, 재무/신용, 대출신청 정보등 객관적 정형 정보에 더해서 언어 표현 정보라는 주관적 비정형 정보를 추가하여 종합적으로 고려할 경우 차입자의 대출상환에 대한 좀 더 정교한 신용평가 모형을 개발할 수 있다는 점을 시사한다. 이는 결과적으로 대부분 비전문가인 일반 개인들로 이루어진 P2P 대출시장 참여자들이 차입자의 신용도 평가에 있어서 좀 더 현명한 결정을 할 수 있도록 도움을 줄 것이다.
Market environment moving toward online non-face-to-face situation makes the prediction of consumer behavior based mainly on typical objective information to be faulty more and more, highlighting the importance of atypical subjective factors. This article investigates the effect of borrower’s language use, a sort of important atypical information, on loan repayment performance in P2P lending market, one of the prime example of rapidly changing market environments. To do this, ordered logit models are adopted and 42,335 loan listings data were gathered by using a web crawling program on Moneyauction from the 18th April, 2007 to the 21st February, 2016 and then 4,800 fully matured loans were extracted for analysis, except cancelled, unfunded listings and fully funded loans which were not reached at maturity yet. Each textual description of the all selected sample listings were investigated in order to construct several explanatory variables, which were used to analyze the relationship of borrower’s language use with repayment performance in P2P lending. In order to focus on borrower’s language use, five factors representing borrower’s language use were treated as explanatory variables, while the other 13 factors about borrower’s demographic, financial, and loan request information were set to control variables. Next, the model validation was performed based on stratified 10-fold cross validation method. This was in order to compare the predictive power of above ordered logit models in two different conditions: one using only control variables and the other handling explanatory variables together. This article suggests that larger numbers of words in loan description improve loan repayment performance. The research results also indicate that borrowers who more frequently use of words related to financial situation or causal relationship show better repayment performance. Comparing to previous study, these results identify differences between the factors affecting on funding probability and the factors affecting actual repayment performance. Through the predictive analytics, this article shows the role of borrower’s language use on the improvement of predictive power of his/her loan repayment performance. The weighted Cohen’s kappa (κ), the predictive performance measure, is meaningfully higher in the model containing language variables than in the model excluding them.