作者:王 婷等
单位:中国农业科学院农业信息研究所,北京 100081等
来源:智慧农业(中英文)Smart Agriculture
发表时间:2023 年 12 月
一、应用背景
1、当前背景:
乡村振兴战略的提出,对农业现代化和技术推广提出了新的要求。
农业技术普及是实现乡村全面振兴的关键因素。
2、现有研究局限:
传统农业技术推广存在”供需矛盾”,科研成果与市场需求不匹配。
“大水漫灌式”的推广方式无法满足农户个性化、精准化的需求。
3、结论:
因此,本论文构建基于人工智能大模型技术的果蔬农技知识智能问答系统。通过系统提供即时、精准的农业知识服务,解决农户在生产中遇到的实际问题。促进农业知识的高效传播,提高农户对新技术的接受度和应用能力。
二、知识需求分析
1、采用问卷调查方式,明确草莓种植户在果蔬农技知识方面的需求,为智能问答系统的设计提供依据。
2.调研内容分为:种植户基本特征和技术需求类型。
3.技术需求类型分类:
良种技术:增加产量和提高品质的良种技术需求
病虫害防控技术:对病虫害的诊断与防治技术的需求
节本高效栽培技术:降低成本同时保证产量的栽培技术
省工机械技术:减少人工劳动的机械技术
贮运及加工技术:草莓的储存、运输和加工技术。
4、技术获取途径:
大部分种植户主要依靠自己摸索和模仿其他种植户生产。
少数种植户通过政府农技推广站或媒体获得技术知识。
种植户对农业技术有强烈的需求,但目前获取途径有限,需要更有效的知识传播方式。
构建基于大模型技术的果蔬农技知识智能问答系统创新农业技术推广模式。
调研结果 | ||
93.3%的种植户需要增加产量的良种技术。 | 91.3%的种植户需求是病虫害防控技术。 | 种植户对节本高效栽培技术的需求也较高 |
三、问答大模型构建
1.实现步骤:
高质量训练语料构建:机器与人工标注结合、伪标签生成与校对以及形成关键词和检索式来形成小样本高质量标注语料。
大模型选择与微调策略:模型性能比较、选择最优模型以及采用”优质语料+预训练大模型+微调”的研究思路来提高模型的灵活性和准确性。
2、微调方法详解:
知识实体识别微调:
方法:使用Lora微调方法,只对部分重要参数进行微调。
优势:减少训练时间和资源消耗,同时保持模型性能。
知识问答微调:
方法:采用Prompt-tuning方法,通过设计输入提示优化模型输出。
优势:适应各种下游任务,提高模型的灵活性和准确性。
随着大模型在各个领域的应用不断增加,很多研究表明大模型生成的文本存在不遵循原文或者不符合事实的现象,称之为大模型幻觉问题。
主要包括:【信息冲突】【无中生有】【信息不匹配】
针对大模型幻觉问题,分别从数据和模型两个方面进行了微调优化:
数据方面 | 模型方面 |
采用标注语料去重和人工剔除可能导致幻觉的数据 | 采用检索增强生成 (RetrievalAugment‐ed Generation,RAG) 方法增强大模型对领域知识的理解和生成能力。 |
其中对于RAG 技术具体的实现过程:
①构建外部知识库。基于维基百科等数据源形成针对知识问答的外部知识源。
②构建知识向量库。创建文本块向量的索引,以实现知识库内容的快速搜索。
③向量检索。通过近似最近邻检索等方法在知识向量库中查找最相近的文本块向量,获取与用户查询内容最相关的知识片段。
④答案生成。基于Prompt,使得大模型结合用户查询内容和检索到的知识片段给出问题答案
四、结果分析
1.知识实体识别结果
本研究采用精准率 (Pre) 和召回率(Recall) 作为评价知识实体识别的性能指标:
得出结论:Lora微调后,所有测评模型在所有知识主题下的精准率都有明显提高,大部分召回率都有所提高。
- 而精准率提升的幅度和微调语料的数量有关,所以会出现相同模型在不同知识主题下的精准率得到不同程度提升的情况。
- 由于模型参数的优化,在模型识别的命名实体中正确识别的比例更大,识别的实体数量相对会有所减少,于是会造成召回率升高幅度小于精准率升高幅度,甚至相比微调前降低的现象。
2.农技知识问答结果分析
本研究通过指标幻觉率和语义相似度定量评估大模型提供答案的质量和大模型幻觉问题的严重程度,并对比分析了大模型在“微调+优化”前后的表现性能。
- 蓝色条形代表“微调+优化”前的幻觉率/语义相似度;橙色条形代表“微调+优化”后的幻觉率/语义相似度。
- 由“微调+优化”效果分析后得出结论:promp-tuning微调和 RAG 技术优化后,所有测评模型的幻觉率都大幅度降低,语义相似度都明显提高。
五、应用实践
以ChatGLM 对问题“大拱棚半促成草莓栽培有什么特点”的回复为例,说明大模型在微调前后性能表现的变化:
- 微调前:ChatGLM在提供的答案中介绍了一些扩展知识,都是在大拱棚半促成栽培方式下草莓栽培需要注意的问题,但却导致答案中存在“避重就轻,重点丢失”的问题。
- 微调后:ChatGLM 提供的答案首先概括介绍“大拱棚半促成草莓栽培”及其优点,然后对比分析“露地促成栽培”和“半促成栽培”的不同,相比之前的回复,对应问题更具有针对性,质量得到明显提升。
六、总结与思考
1.论文核心内容
- 利用 Baichuan2-13B-Chat、 ChatGLM2-6B、 Llama-2-13B-Chat、ChatGPT这4种已有的预训练大模型,构建知识实体识别和知识问答两种农业领域大模型,形成果蔬农技知识智能问答系统。
- 在知识实体识别任务中,通过精准率和召回率对比分析了4种大模型的性能表现。
- 在知识问答任务中,采用了数据优化、检索增强生成技术等大模型幻觉缓解策略,通过幻觉率和语义相似度两种指标定量分析了大模型幻觉现象和缓解策略使用的有效性,并通过具体问答案例对比分析了微调前后大模型回复质量的变化。
2.综合对其思考
可以改进的地方:
- 持续探究如何能够改进大模型存在性能不稳定的问题。
- 研究中使用了小样本高质量标注语料,可以考虑扩大数据集的规模和多样性来进一步提高模型的泛化能力。
可以收获的地方:
- 学习到可以通过哪些方式去分析大模型的性能表现,比如本研究中利用到的精准率和召回率。
- 进一步了解RAG这个技术在问答系统中起到的作用以及对整个系统的优化点。
- 认识到对于问答系统的整个搭建流程以及整个架构。