메뉴 건너뛰기

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
(이화여자대학교) (연세대학교) (홍익대학교) (동국대학교) (성균관대학교)
저널정보
대한전자공학회 대한전자공학회 학술대회 2024년도 대한전자공학회 추계학술대회 논문집
발행연도
수록면
870 - 874 (5page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
이 논문의 연구방법이 궁금하신가요?
🏆
연구결과
이 논문의 연구결과가 궁금하신가요?
AI에게 요청하기
추천
검색
질문

초록· 키워드

In Knowledge-Based Visual Question Answering (KB-VQA), which requires external knowledge for accurate question answering, significant advancements have been made through the use of Large Language Models (LLMs). BLIP-2, a popular multimodal LLM, employs a single-layer Q-Former for visual feature extraction and cross-modal interactions but faces challenges with complex reasoning tasks.
To overcome these limitations, we propose integrating the Multimodal Co-Attention Network (MCAN), which uses a multi-layered approach to enhance the interaction between visual and textual inputs. Additionally, we introduce Question-Aware Prompts during fine-tuning, combining Answer Candidates with confidence scores and Answer-Aware Examples from past cases. This improves the model's ability to interpret questions accurately and generate more contextually appropriate answers.
Experimental results on KB-VQA datasets show a 6.9% improvement in accuracy compared to baseline models, demonstrating the effectiveness of our approach in handling complex multimodal reasoning tasks.
상세정보 수정요청해당 페이지 내 제목·저자·목차·페이지
정보가 잘못된 경우 알려주세요!

목차

  1. Abstract
  2. I. 서론
  3. II. 본론
  4. Ⅲ. 실험
  5. Ⅳ. 결론 및 향후 연구 방향
  6. 참고문헌

참고문헌

참고문헌 신청

최근 본 자료

전체보기