인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
개인구독
소속 기관이 없으신 경우, 개인 정기구독을 하시면 저렴하게
논문을 무제한 열람 이용할 수 있어요.
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
논문 기본 정보
- 자료유형
- 학술저널
- 저자정보
- 저널정보
- 한국자료분석학회 Journal of The Korean Data Analysis Society Journal of The Korean Data Analysis Society Vol.27 No.5
- 발행연도
- 2025.10
- 수록면
- 1,501 - 1,515 (15page)
- DOI
- 10.37727/jkdas.2025.27.5.1501
이용수
초록· 키워드
딥러닝은 영상·자연어 처리 분야에서 혁신적 성과를 거두었으나, 전자의무기록(EMR)과 유전체 검사 결과처럼 표 형식(Tabular)으로 저장되는 의생물학 데이터 영역에서는 여전히 그래디언트 부스팅 계열의 전통적 머신러닝(ML)이 주류로 활용된다. 본 연구는 공개 의생물학 데이터 5종(표본 수 303~212,691건, 수치·범주형 변수 혼합)에 대해 동일 전처리와 Optuna 기반 하이퍼파라미터 탐색을 적용하고, XGBoost, LightGBM, CatBoost 3개의 ML 모델과 ResNet, FT-Transformer, TabNet, Tab-Transformer 4개의 딥러닝 모델의 분류 성능과 계산 효율성을 체계적으로 평가한다. 실험 결과, 1만 표본 미만의 소·중규모 데이터 세트에서는 ML 모델이 일관되게 높은 성능과 빠른 학습 속도를 보였으며, 최대 25.2%p 높은 정확도를 달성하였다. 딥러닝 모델은 대용량 표본(20만 이상)에서 ML 모델과 대등하거나 근소 우위를 보였으나, feature 수 증가에 따른 계산 복잡도 급증으로 효율성이 현저히 저하되었다. 특히 소규모 데이터에서 딥러닝 모델의 효율성은 0.002-1.15 범위로 변동성이 컸으나, 트리 기반 모델(특히 LightGBM, XGBoost)은 안정적으로 높은 효율성을 유지하였다. 결론적으로, 소·중규모 의생물학적 Tabular 문제에는 그래디언트 부스팅 기반 ML 모델이 여전히 안전한 선택이며, 수십만 이상 표본과 충분한 연산 자원이 확보될 경우 Transformer 계열 DL 모델이 제한적이나마 성능 이득을 제공할 수 있음을 확인하였다.
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- 요약
- 1. 서론
- 2. 관련 문헌 고찰
- 3. 모델링 방법론
- 4. 연구 데이터
- 5. 실험
- 6. 결론 및 논의
- References
- Abstract
참고문헌
참고문헌 신청최근 본 자료
UCI(KEPA) : I410-151-26-02-094296432