来源:IEEE BigData
作者:Patrick Y. Wu, Jonathan Nagler等
单位:American University、New York University
发表时间:2025 年 2月
一、研究背景
- 社会科学中的文本评分问题:
在政治科学、传播学等社会科学领域,文本评分(text scoring)是一项核心任务,其目标是根据文本内容推测文本在某个隐含维度上的“立场”或“强度”。
- 常见应用场景包括:
- 判断政党言论的立场
- 测量公众舆情中的极化趋势
- 追踪短文本(如推文)中的情绪表达变化
2. LLM 赋能下的机遇与挑战:
LLM已拥有丰富的语言与概念知识,可借助 prompt 进行零样本或少样本学习
LLM 直接生成数值打分或标签不透明、难解释
对于复杂任务(如推文中细微情绪),需要更精细的推理机制
这篇论文提出了一种新的文本评分框架:CGCoT(Concept-Guided Chain-of-Thought),通过专家设计的概念引导prompt,引导LLM生成结构化分析,结合成对比较与概率建模,实现低标注成本、强概念对准、适用于短文本的高解释性文本评分。
二、CGCoT框架
CGCoT方法:通过专家设计的概念引导prompt,引导LLM生成结构化分析,结合成对比较与概率建模
- 步骤一:概念拆解
对每条文本(如推文),使用 LLM 回答一系列专家设计的引导问题(prompt):
以“对共和党的厌恶”为例,prompt 包括:
请总结该推文的主要内容
推文的批评对象是共和党还是民主党?
是否表达了对该对象的厌恶、指责或负面情绪?
根据上述回答,是否明确表达了对该党派的负面评价?
得到的“结构化描述”即为该文本的概念特定展开(Concept-Specific Breakdown)
- 步骤二:成对比较
将两条文本的结构化描述拿给 LLM 比较,提问例如:
“以下哪条 Tweet 更表达出对共和党的厌恶?描述 1 还是描述 2?如都差不多,请回答‘Tie’。”
为了提升准确率:
先用 GPT 回答 + 理由说明
再用简洁 prompt 解析其结论(”Tweet 1″ or “Tweet 2” or “Tie”)
通过 step-by-step 引导,让 LLM 发挥模式识别优势而非直接评分
- 步骤三:得分建模
通过 Bradley-Terry 模型转化为可排序的量化分数:
- 每次比较结果构成一个“胜负记录”(谁更具目标概念)
- 使用Bradley-Terry 模型对这些“比赛结果”建模,求解每条文本的“能力值”λ
- 该 λ 即为最终的 CGCoT 概念评分,可 rescale 至 [0, 1] 区间
只用极小量手标样本用于 prompt 开发,后续评分全自动化
三、实验
- 有效性验证

实验任务:
从政治推文中评估“对共和党/民主党厌恶”强度,验证 CGCoT 的评分是否符合人类常识。
评估方式:
人工选取代表性推文,看 CGCoT 得分排序是否符合直觉。
结果:
CGCoT 分数顺序与人类直觉高度一致,展示出良好的语义感知能力与概念对准能力
- 与其他无监督方法的对比实验
方法 | 内容 |
Wordfish(经典无监督) | 基于词频构建维度,用于估计文本在某个方向上的“位置” |
GPT 直接做 pairwise(无 prompt 拆解) | GPT-3.5 直接比较原始 tweet 文本 |
CGCoT | 用 prompt 引导生成结构化分析 + pairwise + 建模 |

Spearman’s ρ 是一种非参数相关性度量,用于衡量两个变量在排序上的一致性。常用于判断“模型评分排序是否与人类标注排序一致”。
结论:结构化 prompt + pairwise 是性能提升关键。单纯使用 GPT 或词频模型效果有限。
- 与监督学习模型(RoBERTa-Large)的比较

- 对比设置:
- RoBERTa-Large:用 3,000 条人工标注 tweet 精调的分类模型
- CGCoT:只用 ~200 条手标 tweet 来开发 prompt,评分全自动完成
- 用 CGCoT 分数的平均值做阈值,生成 0/1 二值预测标签(是否表达厌恶)
四、总结与综合对其思考
(一)论文核心内容
- Prompt引导结构化分解:用专家设计的 prompt 将文本内容沿抽象概念(如“厌恶”)分解成多步结构化描述;
- LLM成对比较(pairwise):比较任意两条结构化描述,判断哪条更强;
- Bradley-Terry建模:通过一系列胜负关系,估算每条文本的“概念强度得分”;
- 高效+少样本:只需极少人工标注即可完成精准评分,并可用于分类或排序
(二)综合对其思考
- 论文中有使用逻辑分步引导的Prompt链式设计,迁移到推荐中可以将产品对比分解为多轮 Prompt 逻辑链,让 LLM 模拟“用户决策过程”。
- 将用户目标转化为“多维概念结构”,依次判断每个维度的比较逻辑:营养评分 → 场景适配性 → 安全成分 → 整体偏好
- 构建“结构化产品信息视图”用于比较,将每个候选产品用 LLM 生成结构化描述,统一比较信息的维度。