인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 발행연도
- 2026.5
- 수록면
- 825 - 836 (12page)
- DOI
- 10.6109/jkiice.2026.30.5.825
이용수
초록· 키워드
데이터 불균형 문제는 소수 범주 관측치가 현저히 적게 분포하는 현상으로, 금융사기 탐지·의료 진단 등 소수 범주의 정확한 식별이 중요한 실무 영역에서 기계학습 분류모델이 다수 범주에 편향되는 주요 원인이다. 기존 기법의 한계로, SMOTE(Synthetic Minority Over-sampling Technique) 계열은 이상치에 민감하고 GAN(Generative Adversarial Networks) 기반 기법은 이질적 소수 분포에서 모드 붕괴가 발생하기 쉽다. 본 연구는 가우시안 혼합 모델(GMM, Gaussian Mixture Model) 군집화와 조건부 정형 데이터 GAN인 CTGAN(Conditional Tabular GAN)을 결합한 G-CTGAN을 제안하며, GMM으로 소수 범주를 동질적 하위 군집으로 분해한 후 각 군집에 독립적으로 CTGAN을 적용하여 비현실적 샘플 생성을 억제하고 모드 붕괴를 완화한다. 경기도 지방세 악성 체납자 데이터(351,942건, 소수 범주 비율 6.8%) 실험에서 G-CTGAN은 랜덤 포레스트 및 LightGBM 기준 각각 AUC(Area Under the ROC Curve) 0.7622, 0.7464로 최고 성능을 달성하였으며, 4개 공개 벤치마크 데이터셋에서도 금융 신용 및 인사 관리 도메인에서 일관된 성능 우위를 확인하였다.
#데이터 불균형
#오버샘플링
#가우시안 혼합 모델
#분류분석
#CTGAN
#class imbalance
#classification
#Gaussian mixture model
#oversampling
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- Ⅳ. 실험 및 결과
- Ⅴ. 공개 벤치마크 데이터셋을 활용한 일반화 검증
- Ⅵ. 결론
- REFERENCES
- 요약
- ABSTRACT
- Ⅰ. 서론
- Ⅱ. 본론
- Ⅲ. G-CTGAN 방법론