202407 论文研读-TruthfulQA Measuring How Models Mimic Human Falsehoods

一. 背景

以GPT-3-175B为例，大模型的训练目标容易激励其生成高模仿的错误答案，如下图所示。根据缩放准则，这个问题无法通过扩大规模来解决。现有的问答基准也无法覆盖到此幻觉。

构建数据集
- 作者从多个领域（如健康、法律、阴谋论等）中选择问题，并通过实验确定哪些问题容易导致模型生成虚假陈述。
- 真理判断标准：类似于维基百科和科学文摘所使用的标准。
模型评估
- 在不同模型族（如GPT-3、GPT-Neo/J、GPT-2和T5）中，最大的模型通常不真实，这种“反向缩放”趋势与NLP中的大多数任务形成对比。

3. 自动化评估

（1）引入了人类评估和自动化评估

（2）设计了新的度量标准GPT-judge，这是一个经过微调的GPT-3-6.7B模型

（3）测试模型在TruthfulQA问题的同义句上的表现，验证如果一个问题导致模仿性虚假陈述，那么其同义句是否也会导致相同的虚假陈述。总体上，模型在同义句问题上的真实性评分没有显著变化。特别是，最大的GPT-3和GPT-Neo/J模型在同义句上的表现仍然比它们的较小版本差。

4. 改进

排除掉扩大模型的方法后，可以尝试

（1）扩大模型规模再结合其他技术（如提示工程或微调）。

（2）提示GPT-3诚实作答

（3）选择示范真实性的例子进行微调，或者通过从人类反馈中进行强化学习进行微调

经过微调的GPT-judge模型能够预测人类对真实性的评价，验证准确率为90-96%

结论一：为了开发真实的模型，本文提出了一套衡量真实性的基准和工具：TruthfulQA专注于测量模仿性谎言，且具有通用性和专用性。
结论二：在零样本上评估大型语言模型，如今大模型的真实性远远不如人类且具有反向缩放性，因此提出并验证了扩大模型规模再结合其他技术（如提示工程或微调）等改进方法。
启发一：本文确定了同义句测试模型的必要性，即模型在不同语法结构或表述方式下依然准确。所以可以用同义句来测试模型的鲁棒性。
启发二：可以开发新的评估指标或基准，专门检测模型生成的回答是否真实，并区别于表面上看似正确但实际错误的回答。