202509论文研读-Hidden in Plain Sight: Evaluation of the Deception Detection Capabilities of LLMs in Multimodal Settings

作者:Md Messal Monem Miah, Adrita Anika , Xi Shi, Ruihong Huang

来源:ACL 2025

单位:Texas A&M University,Amazon

发表日期:2025.8

背景

欺骗检测意义重大但本质困难,人类判别准确率仅略高于随机猜测(约 54%)。研究者试图用语言学特征、音频特征、面部微表情等自动化线索来辅助判别。

近年 LLM 在语言理解、情感/事实验证等任务上显示强大能力;LMM也在理解音/视频和文本等方面崛起。本文系统评估了不同类型模型在多模态欺骗检测任务中的性能。

论文贡献

1、首次系统性研究大语言模型与多模态大模型在欺骗检测中的表现,涵盖文本数据集(OpSpam)、实验室环境视频数据集(MU3D)、以及真实法庭审讯数据集(RLTD)。
2、比较了传统深度学习基线(如RoBERTa、CNN、LSTM)、开源LLM(LLaMA、Gemma)、商用LLM(GPT-4o)、以及多模态模型(GPT-4o多模态、LLaVA等)的性能,形成一个较为全面的评估。
3、探索了不同实验设置,包括:直接标签预测与事后推理生成、随机与相似性示例选择、few-shot 与 zero-shot 提示,以及是否使用思维链提示。
4、发现并揭示了当前模型的短板:LMM 在捕捉视频里的细粒度非语言特征时表现不佳,甚至不如传统的视觉神经网络。

实验过程

1、数据集:

数据集类型内容标签
RLTD庭审视频121个视频有罪/无罪
MU3D人际对话320个视频喜欢/不喜欢
OpSpam在线评论1600条酒店评论欺骗/真实

2、评估模型:

文本LLMs:LLaMA3.1-8B, Gemma2-9B, GPT-4o
多模态LMMs:
视频+文本:LLaVA-NeXT-Video, Qwen2VL
音频+文本:MERaLiON-AudioLLM, Qwen2-Audio

3、实验设置

基线模型:RoBERTa(文本)、BiLSTM+Attention、CNN、PECL(多模态)
提示策略:
零样本 vs 少样本(2/4/6/8/10个样本)
直接输出标签 vs 先生成标签再生成推理(post-hoc reasoning)
辅助特征:
非语言手势(RLTD)
视频摘要(LLaVA生成)
音频摘要(Qwen2-Audio生成)
微调:使用LLaMA-Factory对开源模型进行微调

实验结果

总结