🌃 VLM

Unified Hallucination Detection for Multimodal Large Language Models (ACL 2024 main)

MINAIR 2025. 8. 21. 00:39

Paper


https://arxiv.org/abs/2402.03190

 

Unified Hallucination Detection for Multimodal Large Language Models

Despite significant strides in multimodal tasks, Multimodal Large Language Models (MLLMs) are plagued by the critical issue of hallucination. The reliable detection of such hallucinations in MLLMs has, therefore, become a vital aspect of model evaluation a

arxiv.org

 

Introduction


existing hallucination detection approach의 문제점

  • task singularity: 특정 태스크만 다룸 (e.g., image captioning만 다루고 T2I는 무시) 
  • limited hallucination categories: object level만 다룸. scene-text, factual level은 무시
  • incomplete granularity: response의 전체를 보기보다 response의 각 claim을 쪼깬 평가가 필요함

Construction of MHaluBench


hallucinatory example collection

  • I2T generation: MSCOCO, TextVQA images를 mPLUG-Owl, LLaVA, MiniGPT-4에게 입력으로 주어 caption text를 생성하도록 함
  • T2I generation: DrawBench, T2I-CompBench의 caption을 ChatGPT에게 입력으로 주어 더 구체적인 정보를 담도록 refine함. refined caption을 DALL-E2와 DALL-E3에게 입력으로 주어 caption에 맞는 image를 생성하도록 함

segment and claim extraction

  • ChatGPT를 이용해 I2T의 경우 text output을, T2I의 경우 user queries를 segment/claim으로 쪼갬

human annotation and agreement

  • 본 벤치마크의 annotation은 image-text가 서로에게 혹은 world knowledge와 충돌하는지 아닌지의 여부임. 따라서 hallucinatory 또는 non-hallucinatory로 라벨링됨 (annotate됨) 
  • I2T의 경우, given image + 쪼개진 generated claims가, T2I의 경우, 쪼개진 claims + generated image가 human annotators에게 주어지고, human annotators가 각각 쪼개진 claims가 hallucinate되었는지 아닌지를 판단함 (3명의 annotator끼리 cross-validation을 진행했을 때, 그 척도인 Fleiss's Kappa = 0.82 정도로 높은 agreement 정도를 보임)
  • 전체 response 중 하나의 claim이라도 hallucinate되었으면 전체 response가 hallucinate되었다고 라벨링됨

UNIHD: Unified Hallucination Detection Framework for MLLMs


MHaluBench는 prompt + image + caption + human annotation (hallucinate or not)으로 이루어진 벤치마크임. 

UNIHD는 MHaluBench를 이용해 모델의 hallucination를 detect하는 framework!! 즉 human annotation이랑 align하는 hallucination detection 결과를 내야 함. (detector powered by GPT-4V or Gemini) I2T의 경우엔 prompt + image가 입력으로 들어가고 GPT-4V or Gemini를 이용해 caption을 claims로 쪼갠 뒤 tool assignment, evidence generation을 통해 hallucinate인지 아닌지 detect. T2I의 경우엔 prompt + caption이 입력으로 들어가고 DALL-E를 이용해 image를 생성한 뒤, caption을 claims으로 쪼갠 뒤 tool assignment, evidence generation을 통해 hallucination인지 아닌지 detect. 

 

1. Essential Claim Extraction

  • GPT-4V or Gemini로 하여금 모델의 generation (I2T: text output, T2I: user query)를 claim으로 쪼갬

2. Autonomous Tool Selection Via Query Formulation

  • 쪼개진 각 claim이 이를 평가/검증할 수 있는 적절한 tool에 매칭되어야 함
  • GPT-4V/Gemini에게 각 claim에 적절한 평가/검증 query를 생성하라고 함 (e.g., claim1은 attribute-oriented question과 object-oriented inquiry를 통한 검증이 필요함. scene-text와 fact에 대한 검증은 필요 x)

3. Parallel Tool Execution

  • 각 tool을 parallel하게 실행시켜서 각 claim을 검증함
  • object-oriented tool: open-set object detection model grounding DINO를 사용해 image의 위치 정보를 반환
  • attribute-oriented tool: GPT4V or Gemini를 이용해 step 2에서 생성된 query에 대한 답 반환
  • scene-text-oriented tool: MAERec를 이용해 scene-text의 위치 정보를 반환 
  • fact-oriented tool: Serper Google Search API를 이용해 fact 체크 결과를 반환

4. Hallucination Verification with Rationales

  • image, claim list, evidence from tool을 GPT-4V or Gemini에게 comprehensive prompt로 주어 hallucination인지 아닌지 판단하도록 함
  • hallucination type: object, attribute, scene-text, fact