의사결정나무는 데이터마이닝에서 사용되는 대표적인 방법으로 모형의 결과가 도식적으로 표현되어 해석과 예측이 쉬운 장점이 있다. 의사결정나무는 대부분 반응변수의 형태가 연속형 또는 범주형 중에 이항 또는 다항일 때 흔히 사용되었다. 또한, 대부분 알고리즘은 CART처럼 전체탐색 방법을 이용하여 분리 변수를 선택하기 때문에 계산 시간이 많이 소요되고, 분류 가능 경우의 수가 많은 변수를 선호하는 경향이 있다. 본 논문에서는 반응변수가 계수인 경우에 의사결정나무 알고리즘을 제안한다. 계수형 자료에 적합한 포아송 모형과 과분산 문제가 있을 경우에 적합한 음이항 모형을 기본으로 이용하고, 잔차 분석을 통한 빠르고 부당한 선호 현상이 없는 분류 선택 방법을 제안한다. 본 논문에서 전체탐색 방법의 문제점과 우리가 제안한 방법의 우수성을 모의실험을 통해 검증한다. 마지막으로 실제 자료를 이용하여 실용성을 보인다.
Decision tree is the representative tool for data mining. It is easy to interpret and predict its results because it can be expressed as a diagram. Decision trees usually have been used for continuous and binomial (or multinomial) responses. Most algorithms select split variables utilizing exhaustive search like CART, so they require a lot of computing time and unduly tend to prefer to select variables with more possible splits. In this paper, we propose a decision tree algorithm for count data. Poisson and negative binomial models are employed as a basic model and the faster and unbiased split algorithm is proposed. We investigate the unbiasedness of the variable selection algorithm through a simulation study and demonstrate it with a real example.