메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
신창용 (고려대학교) 고영훈 (고려대학교) 유연호 (고려대학교) 양경식 (고려대학교) 유혁 (고려대학교)
저널정보
한국통신학회 한국통신학회논문지 한국통신학회논문지 제49권 제10호
발행연도
2024.10
수록면
1,377 - 1,385 (9page)
DOI
10.7840/kics.2024.49.10.1377

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
최근 거대 언어 모델(GPT, LLaMA, PaLM 등)은 의학, 교육, 금융, 법학, 마케팅 등 다양한 분야에서 활발히 활용되고 있다. 이러한 모델들은 매우 많은 매개변수를 지니고 있어 여러 GPU를 활용해야만 모델을 로드하고 추론을 수행할 수 있다. 추론 서비스를 운영하는 클러스터나 클라우드의 시스템 관리자에게는 주어진 GPU와 네트워크 자원을 최대한 효율적으로 사용하면서 많은 사용자 요청에 빠르게 응답하는 것이 매우 중요하다. 이를 위해 현재의 거대 언어 모델 추론 시스템은 다양한 병렬화 및 최적화 전략을 사용하고 있다. 본 논문은 LLM의 추론과정에서 병렬화, 최적화 전략, 및 배치 사이즈의 변화에 따른 추론 시간, 예측 정확도, GPU 통신량과 GPU 메모리 점유량을 상세히 프로파일링하고 분석한다. 특히, 본 연구는 GPU에 대한 엄밀한 자원 측정을 위해 프로파일러를 새롭게 개발하여 사용한다. 프로파일링 및 분석 결과, 본 연구는 배치 사이즈가 증가하면 병렬화 전략에 의해 GPU 통신량이 증가하여 비효율성을 초래할 수 있음을 관측한다. 반면, GPU 메모리 측면에서는 배치 사이즈가 커질수록 메모리를 더 적극적으로 활용하나, 물리 메모리 크기를 초과하여 메모리 부족(out-of-memory)이 발생하는 특정 임계점이 존재함을 확인한다. 이러한 관측은 향후 LLM의 효율적인 추론 시스템을 설계하는 데 필요한 중요한 기반이 될 것으로 기대된다.

목차

요약
ABSTRACT
Ⅰ. 서론
Ⅱ.거대 언어 모델의 추론 시스템 구성
Ⅲ. 기존 연구의 한계
Ⅳ. 자원 사용량 프로파일링 방법 및 분석 결과
Ⅴ. 결론
References

참고문헌 (17)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-151-25-02-091072391