作者:顾静秋,郭旺,朱华吉,郝鹏,吴华瑞 .
单位:北京市农林科学院信息技术研究中心,农业农村部数字乡村技术重点实验,国家农业信息化工程技术研究中心,北京 100097
来源:中国农业大学学报,2025,30(07):218-229.
1.背景
动植物新品种是农业高质量发展的核心资源,我国动植物新品种资源信息服务存在以下突出问题。1.信息不对称,多数农户难以获取适合自身区域的新品种信息;2.更新滞后,品种数据平均延迟更新周期6.8个月;3.冷启动问题,大量新品种无历史数据,难以推荐到合适用户。
2.主要贡献
- 构建Siamese BERT相似度模型,结合语义编码与领域词典,实现新品种与历史品种之间的语义相似匹配。
- 引入用户兴趣模型,基于CNN和注意力机制融合用户静态属性、行为数据及品种特征,提升推荐精准度。
- 首先识别与新品种相似的历史品种,再基于用户兴趣模型定位潜在感兴趣用户,设计了两步推荐策略。
- 显著缓解了冷启动问题,支持对无历史数据的新品种和新用户进行有效推荐。
3.方法
论文基于深度学习框架,构建了品种特征识别模型,用于挖掘新品种与历史品种之间的特征关联关系。在此基础上,结合用户的基础信息与行为数据,以及动植物新品种的品种特性、地理分布、产业类型等元数据信息,构建了用户兴趣建模机制。通过训练神经网络,学习用户对品种资源的关注偏好。最终,提出一种“相似品种推荐+历史用户匹配”的两步推荐策略,为农业用户提供个性化的动植物新品种推荐服务。

步骤一:相似品种推荐。
首先收集动植物品种的文本信息,包括描述、标签和属性等内容,并使用预训练的 BERT 模型对这些文本进行编码,获取品种的语义表示。接着,构建基于 Siamese BERT 的文本相似度模型,该模型采用参数共享的孪生网络架构,分别对两个品种的文本表示进行编码。通过提取 BERT 输出中的 [CLS]
标记向量,捕捉文本的全局语义特征,并计算两个品种特征向量之间的余弦相似度作为最终相似度得分。当有新品种加入时,利用该模型对其文本信息进行编码,生成对应的特征向量,并实时更新至向量库中。

步骤二:用户兴趣建模。
基于用户的静态属性数据(如身份、地域、行业等)和行为数据(如浏览、点赞、评论等),提取用户的基本属性特征与行为特征。同时采集动植物品种资源信息,提取其属性特征(如品种类型、适用区域、产量等)。在此基础上,构建用户与品种之间的关联矩阵,其中行表示用户,列表示品种,矩阵中的每个元素反映用户对该品种的偏好程度或关联强度。随后,设计并训练神经网络模型,将用户静态特征、行为特征与品种属性特征作为模型输入,输出用户与特定品种之间的匹配评分,用于预测用户对新品种的兴趣程度,为后续推荐提供依据。

4.实验
4.1实验设置
数据来源:中国农技推广平台,包含10000条用户数据和320个2023年新品种。
冷启动集:320个无历史行为新品种、曝光<50次。
4.2实验结果

本研究提出的两步推荐算法在各项评估指标上均优于对比方法,整体性能表现优异。特别是在准确率、召回率和 F1 值等关键指标上优势显著,表明该方法在动植物新品种推荐任务中具有较高的推荐精度和良好的用户满意度。
为验证模型对冷启动问题的处理效果,设计了两组对比实验:
- 新品种冷启动测试:选取2023年新审定的320个无历史行为的品种作为测试集,模型首推准确率达到 68.5%,明显优于传统协同过滤方法的 42.3%。同时,AUC仅下降 5.7%,远低于传统方法的 15.2% 降幅,表明模型具备较强的新品种推荐能力。
- 新用户模拟测试:对500名用户随机屏蔽历史行为,仅基于静态属性进行推荐。用户在前3次交互后推荐准确率提升至 72.1%,显著优于基线方法的 53.4%。尽管初始准确率为 61.2%,仍有一定优化空间,可能与农业用户的地域特征有关。
综合结果表明,该两步推荐算法在新品种推荐场景中表现突出,具备良好的冷启动适应能力。
4.3消融实验

为评估模型各核心组件对推荐性能的贡献,本文设计了四项消融实验,实验结果表明:
- BERT 文本编码对模型影响最大,去除后准确率下降 7.5%,F1 值明显下降,说明其在提取品种上下文语义信息中发挥关键作用。
- Siamese BERT 网络在相似品种匹配中效果显著,去除后准确率降至 85.4%,特别对难以区分的品种样本影响明显。
- CNN 兴趣建模模块虽为次要模块,但去除后准确率仍下降 2.8%,表明其在捕捉用户兴趣与品种特征的深层关系方面具有重要作用。
- 注意力机制影响相对较小,F1 值下降 2.2%,但仍能提升特征匹配精度,尤其是在用户偏好建模中具有辅助价值。
综上,BERT 编码与 Siamese 结构是推荐模型的核心组成,CNN 网络有助于增强用户兴趣建模,注意力机制则优化了特征聚合与匹配精度。两步推荐算法整体展现出对新品种冷启动问题的出色适应能力,并能基于多维用户特征实现更加个性化、精准的推荐。
5.论文总结
本文提出了一种结合 Siamese BERT 网络与多层 CNN 网络的动植物新品种资源两步推荐算法。该方法首先通过 Siamese BERT 实现品种间的语义相似度计算,在此基础上利用多层 CNN 网络对用户的品种兴趣进行建模,从而实现更精准的个性化推荐。实验结果表明,该方法在 AUC、准确率、召回率和 F1 值等多个评估指标上均显著优于现有主流推荐算法,特别是在处理新品种冷启动问题和建模用户兴趣动态变化方面表现出卓越性能。与传统方法相比,本研究方案能够更有效地挖掘新品种特性,适应用户兴趣的演化趋势,显著提升了推荐的准确性与个性化水平。尤其在冷启动场景下,该算法展现出较强的推荐能力与实际应用价值。