메뉴 건너뛰기

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
(중앙대학교) (중앙대학교) (중앙대학교)
저널정보
한국자료분석학회 Journal of The Korean Data Analysis Society Journal of The Korean Data Analysis Society Vol.27 No.5
발행연도
수록면
1,501 - 1,515 (15page)
DOI
10.37727/jkdas.2025.27.5.1501

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
이 논문의 연구방법이 궁금하신가요?
🏆
연구결과
이 논문의 연구결과가 궁금하신가요?
AI에게 요청하기
추천
검색
질문

초록· 키워드

딥러닝은 영상·자연어 처리 분야에서 혁신적 성과를 거두었으나, 전자의무기록(EMR)과 유전체 검사 결과처럼 표 형식(Tabular)으로 저장되는 의생물학 데이터 영역에서는 여전히 그래디언트 부스팅 계열의 전통적 머신러닝(ML)이 주류로 활용된다. 본 연구는 공개 의생물학 데이터 5종(표본 수 303~212,691건, 수치·범주형 변수 혼합)에 대해 동일 전처리와 Optuna 기반 하이퍼파라미터 탐색을 적용하고, XGBoost, LightGBM, CatBoost 3개의 ML 모델과 ResNet, FT-Transformer, TabNet, Tab-Transformer 4개의 딥러닝 모델의 분류 성능과 계산 효율성을 체계적으로 평가한다. 실험 결과, 1만 표본 미만의 소·중규모 데이터 세트에서는 ML 모델이 일관되게 높은 성능과 빠른 학습 속도를 보였으며, 최대 25.2%p 높은 정확도를 달성하였다. 딥러닝 모델은 대용량 표본(20만 이상)에서 ML 모델과 대등하거나 근소 우위를 보였으나, feature 수 증가에 따른 계산 복잡도 급증으로 효율성이 현저히 저하되었다. 특히 소규모 데이터에서 딥러닝 모델의 효율성은 0.002-1.15 범위로 변동성이 컸으나, 트리 기반 모델(특히 LightGBM, XGBoost)은 안정적으로 높은 효율성을 유지하였다. 결론적으로, 소·중규모 의생물학적 Tabular 문제에는 그래디언트 부스팅 기반 ML 모델이 여전히 안전한 선택이며, 수십만 이상 표본과 충분한 연산 자원이 확보될 경우 Transformer 계열 DL 모델이 제한적이나마 성능 이득을 제공할 수 있음을 확인하였다.
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지
정보가 잘못된 경우 알려주세요!

목차

  1. 요약
  2. 1. 서론
  3. 2. 관련 문헌 고찰
  4. 3. 모델링 방법론
  5. 4. 연구 데이터
  6. 5. 실험
  7. 6. 결론 및 논의
  8. References
  9. Abstract

참고문헌

참고문헌 신청

최근 본 자료

전체보기
UCI(KEPA) : I410-151-26-02-094296432