202505论文研读-The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators

作者:Tzu-Heng Huang, Catherine Cao, Vaishnavi Bhargava等

单位:University of Wisconsin-Madison
来源:arXiv
发表日期:2025.2

一、背景动机

1.传统使用大语言模型(LLM)直接生成标签的方式成本高昂,每条数据都需调用一次模型接口,难以适应大规模标注需求。

2.现有模型生成的标签结果不可解释、不可追踪且不易扩展,一旦标签标准或任务变化,需要重新调用模型重新标注。

3.程序化标注逻辑尚未被充分利用,将模型生成的思路转化为可复用、可审计的代码程序,有潜力在成本控制、可维护性和标注一致性上带来重大改进。

二、核心内容

系统整体架构:

1.LLM生成标注程序

2.弱监督聚合

3.模态扩展与泛化能力

Alchemist 在图像任务中的处理流程如上所示,通过语言模型提取语义概念,用图像模型提取图像特征,计算相似度后作为程序输入,实现低成本的复杂模态标注

三、实验评估

不同提示策略下,使用 GPT-3.5、GPT-4 和 Claude 3 所生成的标注程序在各数据集上的性能对比

在不同数据集上,随着所收集的标注程序数量增加,标签模型性能(F1-score 或 Accuracy)逐步提升,验证多样性策略的有效性。

四、总结思考

论文总结:

核心方法:本文提出了一种低成本、高可控性的自动标注系统 Alchemist,将标签生成任务转化为程序生成任务。通过 LLM 生成可复用的标注程序,并结合弱监督方法融合多程序输出,实现了高质量伪标签的生成。实验表明,Alchemist 在多个文本与图像任务中性能优越,平均成本降低约 500 倍,部分任务准确率提升 12.9%。

优势总结:

1.大幅降低 API 调用成本,适用于大规模标注任务
2.程序可复用、可审计,增强标签生成的可控性
3.弱监督融合机制提升标签质量与一致性
4.支持多模态任务扩展,具备良好的泛化能力

启发思考:

1.标签程序结构化:Alchemist 将标签逻辑封装为可执行程序,实现了从“标签结果”向“标签逻辑表达”的范式转变,具备可解释、可复用、可组合的优势。
2.多程序+弱监督机制借鉴价值:利用多个标注视角建构标签判断体系,再通过标签模型进行融合,契合软标签对多源共识和稳定性的需求。
3.知识输入结构化趋势:该框架反映了“先建标签逻辑,再提供标签信息”的流程,对构建结构化、可控的知识输入接口具有启发意义。