인문학
사회과학
자연과학
공학
의약학
농수해양학
예술체육학
복합학
지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
초록· 키워드
최근 들어 대규모 언어 모델(LLM)을 중심으로 범용 인공지능(AI)의 성능이 빠르게 발전하면서 AI 시스템의 안전성이 중요한 문제로 부각되고 있다. 기존의 안전성 평가 방법은 레드팀, 안전성 벤치마크, 거부 정책 등 다양한 접근을 활용하고 있으나, 모델이 특정 출력을 생성하는 내부 원인이나 잠재적 위험을 충분히 설명하기에는 한계가 있다. 최근, 이러한 AI 시스템의 한계를 보완하기 위해 기계적 해석가능성(MI) 기반 안전성 연구가 주목받고 있다. MI는 신경망 내부의 활성화 값, 가중치, 어텐션 패턴 등 모델의 계산 과정을 상세 분석함으로써 모델 행동의 원인을 이해하려는 접근이다. 본 논문에서는 MI의 개념과 주요 방법론을 정리하고, 활성화 값 분석 및 스티어링, 활성화 값 패칭, 분산 정렬 탐색(DAS), 희소 오토인코더, 중간 표현 분석과 같은 대표적인 MI 기법을 소개한다. 또한 창발적 오정렬과 페르소나 벡터 사례를 통해 MI가 모델 성향 변화, 잠재적 오정렬, 안전성 모니터링과 같은 AI 안전성 문제를 분석하는 데 활용될 수 있음을 논의한다. 마지막으로 MI 기반 분석이 미세조정에 따른 성향 변화 진단, 배포 단계 모니터링, 안전성 감사 및 정책 연계에 기여할 수 있는 가능성을 살펴보고, 확장성, 신뢰성 검증, 안전성과 보안의 통합과 같은 향후 연구 과제를 제시한다.
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지정보가 잘못된 경우 알려주세요!
목차
- 요약
- Ⅰ. 서론
- Ⅱ. 범용 AI 안전성과 MI
- Ⅲ. MI 핵심 기술
- Ⅳ. MI 기반 AI 안전성 적용 가능성
- Ⅴ. 고찰 및 향후 연구 과제
- Ⅵ. 결론
- 참고문헌