一. 背景
以GPT-3-175B为例,大模型的训练目标容易激励其生成高模仿的错误答案,如下图所示。根据缩放准则,这个问题无法通过扩大规模来解决。现有的问答基准也无法覆盖到此幻觉。
二. 创新
- 提出了一个新的测试基准:TruthfulQA,填补了现有问答基准中缺乏对模型真实性评估的空白。
- 在零样本设定下测试了不同规模大小和不同提示下测试的大语言模型,人类评估这些模型在TruthfulQA上答案的真实性。
- 微调GPT-3模型,使其能够自动评估答案的真实性,并取得了90-96%的准确率。
三. 算法与实现
- 构建数据集
- 作者从多个领域(如健康、法律、阴谋论等)中选择问题,并通过实验确定哪些问题容易导致模型生成虚假陈述。
- 真理判断标准:类似于维基百科和科学文摘所使用的标准。
- 模型评估
- 在不同模型族(如GPT-3、GPT-Neo/J、GPT-2和T5)中,最大的模型通常不真实,这种“反向缩放”趋势与NLP中的大多数任务形成对比。
- 评估标准:
- 真实性:拒绝回答问题、表达不确定或者给出真实但不相关的答案
- 信息丰富性:答案与问题潜在的相关性
3. 自动化评估
(1)引入了人类评估和自动化评估
(2)设计了新的度量标准GPT-judge,这是一个经过微调的GPT-3-6.7B模型
(3)测试模型在TruthfulQA问题的同义句上的表现,验证如果一个问题导致模仿性虚假陈述,那么其同义句是否也会导致相同的虚假陈述。总体上,模型在同义句问题上的真实性评分没有显著变化。特别是,最大的GPT-3和GPT-Neo/J模型在同义句上的表现仍然比它们的较小版本差。
4. 改进
排除掉扩大模型的方法后,可以尝试
(1)扩大模型规模再结合其他技术(如提示工程或微调)。
(2)提示GPT-3诚实作答
(3)选择示范真实性的例子进行微调,或者通过从人类反馈中进行强化学习进行微调
四. 总结与对齐
- 结论一:为了开发真实的模型,本文提出了一套衡量真实性的基准和工具:TruthfulQA专注于测量模仿性谎言,且具有通用性和专用性。
- 结论二:在零样本上评估大型语言模型,如今大模型的真实性远远不如人类且具有反向缩放性,因此提出并验证了扩大模型规模再结合其他技术(如提示工程或微调)等改进方法。
- 启发一:本文确定了同义句测试模型的必要性,即模型在不同语法结构或表述方式下依然准确。所以可以用同义句来测试模型的鲁棒性。
- 启发二:可以开发新的评估指标或基准,专门检测模型生成的回答是否真实,并区别于表面上看似正确但实际错误的回答。