이 연구에서는 말뭉치 언어학의 관점에서 논의될 수 있는 한국어의 확장된 어휘 단위의 하위 층위들을 종합적인 관점에서 조망하는 것을 주된 목적으로 한다. 이와 함께 한국어 확장된 어휘 단위의 하위 범주들이 언어학의 논의 내에서 갖는 개별적 의의와 범주 상호간의 의의를 논의하고자한다.
전통적인 관점에서 단어 단위를 넘어서는 언어 표현에 대한 논의는 의미적 비합성성의 원리를 충족하는 특이한 구 단위로서의 관용표현을 주요 대상으로 삼았으며, 대체로 그러한 특이한 구 단위는 문법 규칙의 제약을 받지 않는 예외적 단어로 취급되었다. 이와 달리 말뭉치 언어학에서는 언어 자료에서 나타나는 빈도를 기반으로 하여 빈번하게 함께 사용되는 언어 단위들을 논의 대상으로 삼고, 언어 사용에서 중요한 지위를 갖는 표현으로서의 의의를 부여한다. 이러한 확장된 어휘 단위는 구체적인 어형, 추상적 문법 범주, 의미적 맥락 등과 같이 다양한 층위의 요소들이 구성요소를 이루고 있으며, 그에 따라 유관하지만 이질적인 별개의 범주로서 말뭉치 언어학의 연구 대상이 되고 있다. 확장된 어휘 단위는 그것을 추출하는 방법론적 특성에 따라 크게 두 갈래로 나눌 수 있는데, 하나는 공기 분석의 방법론을 통해 주로 두 개의 구성성분 사이의 관계에 초점을 두며, 연어, 의미적 선호, 연접범주, 의미적 운율 등을 포함한다. 다른 하나는 N-GRAM 분석법을 통해 둘 이상의 구성성분으로 이루어진 단어 연쇄(n-gram)를 주요 대상으로 삼으며, 하나 이상의 자유 슬롯을 포함하는 피프레임(phrase frame, p-frame), 스킵그램(skip-gram) 등으로 확장되기도 한다.
말뭉치 언어학은 그 동안 특정 어형이나 단어의 개별적인 사용 양상을 기술하는 데 장점이 있는 것으로 인식되어 왔고, 이것은 곧 그 이상의 추상적 차원에 대한 기술에 있어서 한계를 갖는 것으로 인식되기도 했다. 그러나 공기분석에서 보다 구체적인 속성을 갖는 구성성분 간의 관계에 해당하는 연어에서부터, 보다 추상적인 속성을 갖는 구성성분 사이의 관계에 초점을 두는 의미적 운율에 이르기까지 연구 대상을 포괄할 수 있으며, 그에 따라 단어에 대한 기술을 넘어, 문법 범주와 의사소통적 맥락과의 연결될 수 있는 접점을 제시할 수 있다. 또한, 구성성분의 수를 보다 확장하는 엔그램(N-GRAM) 분석법을 도입함으로써, 보다 긴 언어 단위의 형성에 확장된 어휘 단위가 기여하는 양상을 확인할 수 있다는 것을 알 수 있다. 이와 함께 전체 언어 사용에서 확장된 어휘 단위가 얼마나 기여하는지를 일관된 기준으로 평가할 수 있음을 알 수 있다.
말뭉치 자체의 오류, 컴퓨터를 활용한 자연 언어 처리에서 유연성 적용의 한계 등으로 인한 말뭉치 언어학의 방법론적 한계는 언어 분석 결과에 대한 의심을 갖게 하기도 하지만, 보다 세련된 분석 방법론에 대한 끊임없는 추구는 언어 사용의 설명력을 강화하는 데 기여할 수 있다는 기대를 갖게 한다.
The purpose of this study is twofold. First, it investigates a hierachy to which a Korean speaker/writer makes use of Extended Lexical Units(ELUs), that is, what its distribution is, by taking a corpus-driven approach. Second, it examines the significance of ELUs’ each subcategories and their interface. A main subdivision can be made between two extraction methods: co-occurrence analysis and N-GRAM analysis.
Co-occurrence analysis can make four lower subcategories of some ELUs, which are collocation of the lexical level, semantic reference of the semantic level, colligation of the grammatical level, and semantic prosody of the pragmatic level. It is able to be operated between a more concrete dimension and a more abstract dimension. N-GRAM is a methodological term which allows for the extraction of recurrent continuous sequences of two or more words, that is, n-gram. Phrase-frame(p-frame) is a special category of being extracted recurrent sequences by N-GRAM analysis, which consist of sequences containing one or more free slots. As the increase in number of ELUs’ constituents increase, collocation of lexical level is related with n-gram, and semantic reference of semantic level is related with p-frame.
Corpus linguistics has been recognized as having advantage to be able to describe various usage of certain word-form or word, and the same time, it has been recognized as having limits to describe more abstract dimensions. The variable subcategories of ELUs, however, can cover all the dimensions from the lexial to the contextual. Indeed, by adapting N-GRAM analysis methodology, we can identify how ELUs contribute to constitute longer linguistic units, and how many it contribute to whole language use.