메뉴 건너뛰기
소속 기관 / 학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
(조선대학교) (조선대학교) (조선대학교)
저널정보
한국정보보호학회 정보보호학회지 정보보호학회지 제36권 제2호
발행연도
수록면
29 - 35 (7page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
이 논문의 연구방법이 궁금하신가요?
🏆
연구결과
이 논문의 연구결과가 궁금하신가요?
AI에게 요청하기
추천
검색
질문

초록· 키워드

최근 들어 대규모 언어 모델(LLM)을 중심으로 범용 인공지능(AI)의 성능이 빠르게 발전하면서 AI 시스템의 안전성이 중요한 문제로 부각되고 있다. 기존의 안전성 평가 방법은 레드팀, 안전성 벤치마크, 거부 정책 등 다양한 접근을 활용하고 있으나, 모델이 특정 출력을 생성하는 내부 원인이나 잠재적 위험을 충분히 설명하기에는 한계가 있다. 최근, 이러한 AI 시스템의 한계를 보완하기 위해 기계적 해석가능성(MI) 기반 안전성 연구가 주목받고 있다. MI는 신경망 내부의 활성화 값, 가중치, 어텐션 패턴 등 모델의 계산 과정을 상세 분석함으로써 모델 행동의 원인을 이해하려는 접근이다. 본 논문에서는 MI의 개념과 주요 방법론을 정리하고, 활성화 값 분석 및 스티어링, 활성화 값 패칭, 분산 정렬 탐색(DAS), 희소 오토인코더, 중간 표현 분석과 같은 대표적인 MI 기법을 소개한다. 또한 창발적 오정렬과 페르소나 벡터 사례를 통해 MI가 모델 성향 변화, 잠재적 오정렬, 안전성 모니터링과 같은 AI 안전성 문제를 분석하는 데 활용될 수 있음을 논의한다. 마지막으로 MI 기반 분석이 미세조정에 따른 성향 변화 진단, 배포 단계 모니터링, 안전성 감사 및 정책 연계에 기여할 수 있는 가능성을 살펴보고, 확장성, 신뢰성 검증, 안전성과 보안의 통합과 같은 향후 연구 과제를 제시한다.
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지
정보가 잘못된 경우 알려주세요!

목차

  1. 요약
  2. Ⅰ. 서론
  3. Ⅱ. 범용 AI 안전성과 MI
  4. Ⅲ. MI 핵심 기술
  5. Ⅳ. MI 기반 AI 안전성 적용 가능성
  6. Ⅴ. 고찰 및 향후 연구 과제
  7. Ⅵ. 결론
  8. 참고문헌

참고문헌

참고문헌 신청

최근 본 자료

전체보기