202509 论文研读-Healthy and Sustainable Meals Recommendation Exploiting Food Retrieval and Large Language Models

来源:ACM RecSys ’24
作者:Alessandro Petruzzelli等
单位:University of Bari Aldo Moro.
发表时间:2024 年 9月

一、研究背景

  1. 全球饮食面临的双重挑战:健康与可持续性
    当前全球食品工业虽然高效且多样化,提供了丰富的加工与新鲜食品选择,但整个农业与食品供应链对环境造成了巨大压力。食品生产过程中的土地使用、水资源消耗、碳排放等已成为全球环境问题的重要来源。
    与此同时,不健康的饮食结构(如高脂肪、高糖、高盐)导致慢性病发病率持续攀升。

2. 现有推荐系统的局限性
健康导向推荐系统:侧重于根据用户营养需求(如热量、脂肪、蛋白质等)推荐食谱,例如通过营养标签或食材替换实现,但这类系统常因过度约束营养指标而牺牲用户满意度。
可持续导向推荐系统(Sustainability-aware RSs):主要关注环境指标,如水足迹或碳足迹,但往往忽略营养健康维度,无法提供“综合最优解”。

核心问题:目前尚无成熟的推荐系统能同时兼顾“健康”与“可持续性”,而这正是现代消费者亟需的决策支持工具。
这篇文章提出:HeaSE(Healthy And Sustainable Eating)框架

二、HeaSE框架

  1. 数据预处理与可持续性评分构建

主数据集:HUMMUS(Health-aware User-centered recoMMendation and argUment-enabling dataset),包含超过50万条食谱,含详细营养成分(热量、脂肪、蛋白质等)及标签(如“早餐”、“意大利菜”等),但缺乏环境指标。
环境数据源:SU-EATABLE LIFE(SEL)数据库,提供3349种食材的碳足迹(CF)和937种食材的水足迹(WF)数据,按“组→拓扑→子拓扑→具体食材”四级结构组织。

2. 食材匹配与可持续性评分计算

数据清洗与标准化:去除SEL中食材名称的冗余词、标点,统一命名格式。
跨数据集匹配:使用Sentence-BERT(all-MiniLM-L6-v2)计算HUMMUS与SEL食材名称的语义相似度。
Ingredient Sustainability Score (ISS):
其中α=0.2, β=0.8,强调碳足迹对环境影响的主导作用。
Recipe Sustainability Score (RSS): 对食谱中所有食材按ISS降序排列,采用指数衰减加权求和,突出主要高影响食材:
​最终可持续性归一化得分(SuS):
得分越接近1,表示食谱越可持续。

  • 模块1:编码(Encoding)
  • 输入:用户提供的食谱名称(如“Cheddar Turkey Burgers”)。
  • 处理:
  • 若在数据集中找到名称相似度>99%的食谱,直接提取其宏量营养向量(Calories, Fat, Protein等8维)及标签。
  • 若未找到,使用预训练食谱Transformer模型(autotrain-recipes-2451975973)计算语义相似度,取Top-k相似食谱的营养向量均值作为“虚拟表示”。
  • 输出:该食谱在营养空间中的向量表示,用于后续相似性检索。
  • 模块2:检索(Retrieval)
  • 目标:从10万+食谱库中找出营养结构相似的候选替代品。
  • 方法:
  • 计算输入食谱与所有食谱的余弦相似度(基于8维营养向量)。
  • 仅保留与输入食谱至少共享一个标签(如“pasta”、“dinner”)的Top-100食谱,确保语义相关性。
  • 输出:100个营养相似、风格相近的候选食谱池。
  • 模块3:排序(Ranking)
  • 设计HeaSE Score(HS):
  • HS(R)=δ×SuS(R)+γ×WHO(R)
  • 其中δ=0.7, γ=0.3,强调可持续性略高于健康性(可调参)。
  • 排序逻辑:对100个候选食谱按HS降序排列,选出综合表现最优者。
  • 优势:相比单一指标排序,HS能避免“极端环保但营养贫乏”或“极健康但高碳排”的偏颇推荐。

模块4:选择(Selection)——LLM智能再排序

三、实验

推荐效果验证(不使用LLM):
即使输入已是“高健康”食谱,HeaSE仍能推荐出更可持续的替代方案(SuS +20.19%)。
对“未知食谱”表现稳健,证明框架泛化能力强。
案例展示(Table 3):
输入“Beef Stir-Fry” → 输出“Tofu Hot Wings”(HeaSE +104.8%)
输入“Chili Dog Casserole” → 输出“No-fuss Burgers”(HeaSE +119.23%)

LLM选择模块有效性验证
实验设置:从Top-10候选中,比较“原HeaSE排名第一” vs “GPT-3.5 Turbo重选第一”的平均提升。
LLM能小幅但稳定地超越传统排序,尤其在可持续性维度(+2.92%)。
证明LLM具备隐含知识(如“豆腐比牛肉环保”、“蒸煮比油炸健康”),能做出更符合人类价值观的决策。

四、总结与综合对其思考

(一)论文核心内容
HeaSE框架成功实现了“健康+可持续”双目标饮食推荐,其核心贡献包括:
构建首个融合营养与环境指标的食谱评分体系
设计检索+排序+LLM选择的端到端推荐流水线
实证验证LLM在食品推荐中的新兴潜力

(二)综合对其思考
这篇论文提供了“检索→排序→LLM选择”的成熟流水线,LLM只有重排作用,可以在此基础上结合RAG和知识图谱让 LLM 从“选择”到“可靠性有依据的解释”。
评分指标:论文用“百分比提升”来评估推荐效果,可沿用这种评估思想,评估比较对的有效性。
论文未建模用户个性化(如饮食限制、健康目标、口味偏好),论文注重大众层次的推荐,可以在此加入用户画像针对不同用户特征实现个性化推荐。