作者:Pengfei Zhou, Weiqing Min, Chaoran Fu, Ying Jin, Mingyu Huang, Xiangyang Li, Shuhuan Mei, and Shuqiang Jiang
单位:Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences
来源:A Cell Press journal-Patterns
时间:2025.05.09
链接:[FoodSky: A food-oriented large language model that can pass the chef and dietetic examinations]
一. 研究背景
食品和营养学直接影响到人类健康,但它涉及的知识量庞大且复杂,涵盖了食材成分、烹饪方法、营养搭配等多个层面,且因地域、文化差异而有极大多样性。如何有效地理解和应用这些知识,已成为推动健康饮食和烹饪创新的一个关键。
虽然大语言模型在多领域展示了强大的能力,但它们缺乏针对特定领域的深度理解,尤其在处理像食品、营养学这类专业领域的细粒度任务时,常常无法提供高质量的回答。传统模型往往在面对专业性强、知识密集的任务时,表现不佳。
当前需要一个专门设计的、能够理解和推理食品领域知识的模型。通过构建一个针对食品和营养的专用大语言模型,可以在食谱推荐、营养指导、饮食健康等领域提供精准且专业的服务。
二. 论文概要
本研究设计了一个专门的食品领域大语言模型——FoodSky,它能够理解和推理食品、烹饪以及营养相关的知识,并能在实际应用中提供准确的建议。通过构建一个专门的FoodEarth数据集,该数据集包括来自各大权威来源的大量食品和营养学知识,推动模型在该领域的深度学习。
作者在文中介绍到:FoodSky能够通过中国的厨师和营养师考试,展现出在食品领域的专业性,具备解决复杂任务的能力。

除此之外,本文还提出并实现了两种创新算法:
- TS3M(话题选择状态空间模型):通过将话题选择建模为一个状态空间问题,以增强模型对话题的理解。具体来说,TS3M使用一个状态空间模型(SSM)来选择任务相关的知识,并通过状态转换函数选择与当前任务最相关的话题。
- HTRAG(层次话题检索增强生成):通过外部知识库的引入,在生成过程中增强了信息的丰富性和上下文相关性。该算法通过分层次的话题检索来引导生成过程,从而提高生成的回答的质量。HTRAG将问题与外部知识库中的相关信息进行对接,生成更加精确、信息丰富的答案。
上述算法将在第三部分方法框架中详细阐述。
三. 方法框架
FoodSky模型概述:
- 数据集:FoodSky基于专门的FoodEarth数据集进行训练,聚焦于食品领域的任务。这一数据集汇集了食品、烹饪、营养等各方面的权威信息,确保了模型在食品领域的准确性。
- 架构:FoodSky采用了专为食品领域设计的算法(包括本文提出的TS3M和HTRAG算法),以提升语义理解和生成能力。

TS3M和HTRAG算法:
TS3M:
1.内容表示分支: 在内容表示分支中,输入的token化嵌入首先通过线性变换和卷积层进行处理。
(1)线性变换:内容表示分支的初始层将输入的token嵌入通过线性变换适配卷积操作:

(2)一维卷积操作:经过线性变换后,输入通过卷积操作(1D Conv)逐步调整,捕捉token之间的上下文关系:

2.话题状态表示分支:在话题状态表示分支中,TS3M通过状态空间模型来更新潜在状态,这有助于捕捉话题相关的信息。
(3)潜在状态更新:潜在状态的更新结合了之前的状态 h(t−1) 和当前输入的投影 x(t),如下所示:

(4)状态转移:潜在状态转移通过指数矩阵动态更新,确保潜在状态的平滑过渡:

(5)输出生成:更新后的潜在状态 h(t) 会通过线性变换得到输出表示 y(t),该输出包含了与当前话题相关的语义信息:

3.内容表示与话题状态表示的集成:内容表示和话题状态表示通过状态空间门控(Gate)操作结合,最终生成话题相关的输出。
(6)状态空间门控操作:通过状态空间门控操作,将内容表示和话题状态表示结合,生成最终输出话题序列:

4.话题指示符生成:生成的最终话题指示符通过最大池化(GMP)操作得到:

5.总训练目标TS3M的训练目标包含两部分损失函数,用于优化话题生成质量:

(7)下一个句子预测损失通过二进制交叉熵计算,用于优化生成的语言模型:

(8)话题层次损失确保生成的主题信息符合预期的层次结构:

HTRAG:
(1)话题检索:
HTRAG首先根据输入的指令生成话题指示符,然后使用该指示符在外部知识库中检索相关文档或信息。检索过程通过计算余弦相似度来进行,公式如下:

(2)检索与生成的结合:
一旦检索到与话题相关的信息,这些信息将与原始输入指令结合,通过以下公式进行融合:

(3)HTRAG的多阶段检索与集成:HTRAG采用分阶段的检索和集成机制,首先根据话题指示符进行检索,然后将检索到的知识与原始指令进行融合,以增强生成模型的能力。这使得生成的回答能够在多个领域(如食谱、营养学、食品安全等)提供丰富的信息和精准的答案。
四. 实验设计与评估
本文在开始实验之前进行了相应的数据集与基准设置:
- FoodEarth数据集:为了训练FoodSky,研究团队构建了一个专门的食品领域数据集——FoodEarth,该数据集汇集了来自多种权威来源的食品、烹饪和营养相关的知识。这些数据涵盖了食谱、营养学原理、食品安全等多个领域,保证了FoodSky在这些任务中的表现。
- CDE-12K基准数据集:为评估模型的实际表现,设计了CDE-12K基准数据集,该数据集包含来自中国厨师考试和营养师考试的多项选择问题。通过该数据集,评估模型在食品领域专业考试中的能力。
- FoodLongConv与FoodQA基准:用于评估模型在处理食品相关的长对话和问答任务中的表现
然后,本文主要进行了以下几个实验:
The zero-shot:在没有任何额外训练示例的情况下,直接让模型回答任务,以测试模型的通用性和基础能力。
实验结果:FoodSky-Qw-7B在厨师考试中达到了81.7%的准确率,在营养师考试中达到了88.0%;FoodSky-Qw-14B模型表现更好,在厨师考试中准确率达到83.3%,在营养师考试中为91.2%,总体准确率为87.3%;与其他模型相比,FoodSky的表现显著优于这些通用模型,特别是在面对食品相关任务时,FoodSky能更好地理解和生成准确的答案。
The few-shot:为每个任务提供少量的训练示例(5-shot),让模型在更少的样本下进行任务学习,从而评估模型的适应能力。
实验结果:在少-shot设置下,模型提供了少量示例(5-shot)进行任务学习,FoodSky的表现进一步提升;FoodSky-Qw-14B模型在少-shot设置下,厨师考试准确率为83.8%,营养师考试准确率为91.7%,总准确率为88.3%;其他模型在少-shot学习下也表现出一定程度的提升,但与FoodSky相比仍有差距。

对比实验:
(1)将FoodSky与其他通用大语言模型进行比较,评估其在食品领域任务中的能力及表现优势。
实验结果:FoodSky在各个主题类别上的表现:(1)饮食科学:FoodSky-Qw-14B在此类别上取得了89.5%的准确率,表现优秀。(2)食谱:FoodSky-Qw-14B取得了81.1%的准确率,表现较好。(3)健康饮食原则:FoodSky-Qw-14B在此类别上表现最佳,准确率达到91.2%。`

(2)不同模型在FoodLongConv基准测试中的性能对比实验和FoodSky-Qw-7B 与不同基线模型在 FoodQA 基准上的对比实验。
实验结果:在FoodLongConv基准测试中,FoodSky-Qw-7B表现优异,生成了高质量且符合上下文的长文本回答;在FoodQA基准测试中,FoodSky-Qw-14B生成了流畅、逻辑性强且专业的回答,表现远超其他模型。


消融实验:
(1)基准模型:FoodSky-CL-7B。
(2)去除TS3M:只使用HTRAG来生成响应,评估仅依赖外部知识库增强生成能力的效果。
(3)去除HTRAG:只使用TS3M来进行话题选择,评估仅依赖话题理解来生成响应的效果。
(4)TS3M + HTRAG:结合TS3M和HTRAG,作为最终的FoodSky模型,评估两者结合的效果。
实验结果:去除TS3M和HTRAG中的任意一个模块,都会导致性能下降;TS3M + HTRAG结合后的模型表现最优,准确率为62.9%,比其他版本提升了2.2%;TS3M通过提升对话题的理解能力,帮助模型准确选取关键信息;而HTRAG通过外部知识库提升了生成信息的丰富性和相关性。

从以上实验结果来看,FoodSky模型在食品领域的应用展示了强大的能力,特别是在面对食品相关考试、食谱推荐、健康饮食建议等任务时,有着出色的表现。
TS3M和HTRAG算法通过增强语义理解和生成的丰富性,使得FoodSky在处理复杂任务时具有显著优势。
消融实验表明,这两个算法对模型性能的提升至关重要,并且两者的结合在食品领域任务中发挥了最大的效果。
五. 对齐思考
- 技术创新——逻辑思维推理框架:结合TS3M和HTRAG中的话题建模与检索机制,食养通评分与评级功能可以通过对用户提供的饮食习惯、食品组成、营养信息进行层次化的推理,产生准确的健康评分。例如,针对高脂肪食物与低蛋白食物的组合,系统可以引导模型通过相关的营养学知识库,提供定制化的评分。
- 技术目标——专业手册公众服务:借鉴论文中处理“食品安全法”的思路,将食品健康手册转化为易于理解和应用的公众服务。
- 场景功能——食养通评分&评级功能:依据各个用户不同的自身情况进行动态调整仍是可做的一部分,但需要前置功能做的非常完善和稳定才可进行。