202603 论文研读-Comprehensive and Dedicated Metrics for Evaluating AI-Generated Residential Floor Plans

作者:Pengyu Zeng,Jun Yin,Yan Gao,Jizhizi Li

作者单位:Shenzhen International Graduate School, Tsinghua University, Shenzhen, China

来源:Buildings

时间:2025年5月15日

背景

随着 AI 在住宅平面生成中的应用越来越多,自动生成住宅平面可以显著提高设计效率、减少重复劳动、快速提供大量候选方案,但一个核心问题始终没有被很好解决——如何评价 AI 生成的住宅平面到底好不好。现有工作大多借用计算机视觉或图结构领域的通用指标,例如:

  • FID
  • PSNR
  • SSIM
  • IoU
  • GED

但作者指出,这些指标并不是为建筑平面设计的,存在明显缺陷:难以体现设计可解释性;不能充分反映房间数量是否符合需求;不能全面反映房间连接关系、位置朝向、几何特征。因此,论文要解决的核心问题是:为 AI 生成住宅平面建立一套更符合建筑领域需求的专用评价体系。

主要贡献

作者在论文中总结了三点主要贡献。

(1)提出专用评价框架 RFP-A

作者提出了 Residential Floor Plan Assessment(RFP-A),用于从建筑学角度系统评价 AI 生成住宅平面,既能评价准确性,也能评价多样性。

(2)提出更适合住宅平面的专用指标

作者基于原有 GED 和 IoU,设计了:

  • RFP-GED
  • RFP-IoU
    从而更好地评估:房间连接关系;房间位置;房间大小和形状。

(3)用新框架系统评测现有 6 个生成模型

论文用 RFP-A 对 6 个主流住宅平面生成模型做了系统比较,发现很多模型虽然传统指标不错,但实际生成结果并不满足建筑设计要求。

技术方法

RFP-GED

原始 GED 的问题有两个:

  1. 计算代价高
  2. 把“门连接”和“墙连接”视为同样重要,不符合住宅空间的实际语义。

为此,作者设计了 RFP-GED

  • 给门连接赋值 2
  • 给墙连接赋值 1
  • 无连接赋值 -1
  • 为每个房间构建修改代价矩阵
  • 按房间类型顺序计算差异并进行提前停止,以减少计算量。

RFP-IoU

原始 IoU 的问题是:

  • 对整体位置变化太敏感
  • 用 bounding box 时只能粗略比较面积,难以精细比较房间形状。

作者提出的 RFP-IoU 做法是:

  1. 先把住宅平面拆分成一个个房间
  2. 对同类房间做对齐,消除整体平移影响
  3. 分别计算对应房间的 IoU
  4. 最后对所有房间的结果求平均。

这个方法能更准确评估:

  • 房间大小差异
  • 房间形状差异
    同时避免由于整张平面图移动位置带来的误判。

实验分析

相关性分析

作者从 RPLAN 数据集 中采样了 100 万对设计样本,计算多种评价指标之间的 Pearson 相关系数,并分析各指标是不是在测量相同信息。

主要发现有:

  • FID 与其他指标几乎没有相关性,说明它很难有效反映住宅平面的核心特征
  • GED 与 RFP-GED 高相关,说明 RFP-GED继承了图结构比较能力
  • RFP-GED 与其他指标基本独立,说明它确实在评估“图连接”这一特定维度
  • RFP-IoU 与 IoU 有相关性,但 RFP-IoU更专注于几何特征
  • PSNR 与 SSIM 高度相关,说明它们本质上都在评估图像质量,而不是建筑空间质量。
  • 作者不仅说自己的指标更好,还证明了它们在信息维度上更独立、更有针对性。

计算效率分析

作者重点比较了 RFP-GED 与原始 GED 的效率。

单张图比较,在两种场景下,RFP-GED 都明显快于 GED。

多图分类比较,作者指出:

  • GED 复杂度是 O(L²)
  • RFP-GED 复杂度是 O(LlogL)

这说明 RFP-GED 在大规模评价时优势非常明显,非常适合“批量生成—批量筛选”的 AI 应用场景。

对 6 个生成模型的评测

作者把 6 个主流住宅平面生成模型按输入条件分成 4 类,并展示了它们生成出来的平面图长什么样。论文明确写到,这 6 个模型包括:
(1) 图输入:HouseGAN、HouseGAN++、HouseDiffusion;
(2) 房间约束输入:Graph2Plan;
(3) 自然语言输入:Tell2Design;
(4) 实例输入:FloorplanDiffusion。作者还说明,为保证比较公平,他们在三种户型需求下各生成了 1000 张平面图做评测。

第二张表给出了这 6 个模型在 RFP-A 和传统指标下的比较结果。最关键的发现是,只有 HouseDiffusion 和 FloorplanDiffusion 在三种任务下都保持了 90% 以上的房间数量准确率,说明扩散模型在满足设计要求方面明显优于 GAN 类模型。与此同时,不同模型在多样性维度上各有优势:FloorplanDiffusion 的图结构多样性最好,HouseDiffusion 的位置多样性最好,HouseGAN 的几何多样性最好,没有任何模型在所有维度都占优。

总结

这篇论文的核心价值在于:
它没有再去卷“生成模型”,而是转向了一个更基础但更关键的问题——如何评价 AI 生成住宅平面。作者提出的 RFP-A 将评价拆成房间数量、连接关系、位置朝向和几何特征四个层次,使得评价更全面、更可解释,也更适合建筑设计实际需求。

作者最终得出三点重要结论:

  1. RFP-A 比现有指标更适合住宅平面评价
  2. 扩散模型在生成准确率上明显优于 GAN 类模型
  3. 没有模型在所有多样性维度都表现最好,未来需要更全面的多模态生成模型。