의생물학 Tabular 데이터에서 딥러닝과 전통적 머신러닝의 성능 비교

Q: 이 논문에서 정의한 Tabular 데이터란 무엇인가?

Tabular 데이터는 수치형과 범주형 변수가 복합적으로 얽혀 있는 정형적인 표 형식의 데이터를 의미한다. 의료·생명과학 분야에서는 전자의무기록(EMR), 검사 결과, 생활 습관 정보 등이 이에 해당하며, 임상 의사결정 과정에서 핵심 근거 자료로 활용된다. 이러한 데이터는 변수 간 상호작용이 복잡한 특성을 가진다.

Q: 의생물학 Tabular 데이터 분석 시 데이터 규모에 따른 모델 선택 기준은 무엇인가?

연구 결과, 1만 표본 미만의 소·중규모 의생물학 Tabular 데이터에서는 그래디언트 부스팅 기반 머신러닝 모델이 일관되게 우수한 성능과 효율성을 보인다. 반면, 20만 이상의 대규모 데이터와 충분한 연산 자원이 확보될 경우에만 FT-Transformer나 TabNet과 같은 딥러닝 모델이 제한적인 성능 이득을 제공할 수 있다.

송채린; 이나현; 곽일엽

doi:10.37727/jkdas.2025.27.5.1501

추천

검색

질문

자료유형: 학술저널

저자정보: 송채린 (중앙대학교) 이나현 (중앙대학교) 곽일엽 (중앙대학교)

저널정보: 한국자료분석학회 Journal of The Korean Data Analysis Society Journal of The Korean Data Analysis Society Vol.27 No.5

발행연도: 2025.10

수록면: 1,501 - 1,515 (15page)

DOI: 10.37727/jkdas.2025.27.5.1501

이용수

📌

연구주제

📖

연구배경

🔬

연구방법: 이 논문의 연구방법이 궁금하신가요?

🏆

연구결과: 이 논문의 연구결과가 궁금하신가요?

초록· 키워드

딥러닝은 영상·자연어 처리 분야에서 혁신적 성과를 거두었으나, 전자의무기록(EMR)과 유전체 검사 결과처럼 표 형식(Tabular)으로 저장되는 의생물학 데이터 영역에서는 여전히 그래디언트 부스팅 계열의 전통적 머신러닝(ML)이 주류로 활용된다. 본 연구는 공개 의생물학 데이터 5종(표본 수 303~212,691건, 수치·범주형 변수 혼합)에 대해 동일 전처리와 Optuna 기반 하이퍼파라미터 탐색을 적용하고, XGBoost, LightGBM, CatBoost 3개의 ML 모델과 ResNet, FT-Transformer, TabNet, Tab-Transformer 4개의 딥러닝 모델의 분류 성능과 계산 효율성을 체계적으로 평가한다. 실험 결과, 1만 표본 미만의 소·중규모 데이터 세트에서는 ML 모델이 일관되게 높은 성능과 빠른 학습 속도를 보였으며, 최대 25.2%p 높은 정확도를 달성하였다. 딥러닝 모델은 대용량 표본(20만 이상)에서 ML 모델과 대등하거나 근소 우위를 보였으나, feature 수 증가에 따른 계산 복잡도 급증으로 효율성이 현저히 저하되었다. 특히 소규모 데이터에서 딥러닝 모델의 효율성은 0.002-1.15 범위로 변동성이 컸으나, 트리 기반 모델(특히 LightGBM, XGBoost)은 안정적으로 높은 효율성을 유지하였다. 결론적으로, 소·중규모 의생물학적 Tabular 문제에는 그래디언트 부스팅 기반 ML 모델이 여전히 안전한 선택이며, 수십만 이상 표본과 충분한 연산 자원이 확보될 경우 Transformer 계열 DL 모델이 제한적이나마 성능 이득을 제공할 수 있음을 확인하였다.

#의생물학 데이터 #Tabular 데이터 #머신러닝 #딥러닝 #벤치마킹 #Biomedical Data #Tabular Data #Deep Learning #Benchmarking

참고문헌

참고문헌 신청

최근 본 자료

전체보기

UCI(KEPA) : I410-151-26-02-094296432

배경 및 목적
대상 및 방법론
분석 및 수행
결과 및 의의

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

초록· 키워드

AI가 분석한 연구 핵심

이 논문의 한줄 요약

이 논문의 연구방법

목차

참고문헌

함께 읽어보면 좋을 논문

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

댓글(0)