202603 论文研读-Comprehensive and Dedicated Metrics for Evaluating AI-Generated Residential Floor Plans

作者：Pengyu Zeng，Jun Yin，Yan Gao，Jizhizi Li

作者单位：Shenzhen International Graduate School, Tsinghua University, Shenzhen, China

来源：Buildings

时间：2025年5月15日

背景

随着 AI 在住宅平面生成中的应用越来越多，自动生成住宅平面可以显著提高设计效率、减少重复劳动、快速提供大量候选方案，但一个核心问题始终没有被很好解决——如何评价 AI 生成的住宅平面到底好不好。现有工作大多借用计算机视觉或图结构领域的通用指标，例如：

FID
PSNR
SSIM
IoU
GED。

但作者指出，这些指标并不是为建筑平面设计的，存在明显缺陷：难以体现设计可解释性；不能充分反映房间数量是否符合需求；不能全面反映房间连接关系、位置朝向、几何特征。因此，论文要解决的核心问题是：为 AI 生成住宅平面建立一套更符合建筑领域需求的专用评价体系。

主要贡献

作者在论文中总结了三点主要贡献。

（1）提出专用评价框架 RFP-A

作者提出了 Residential Floor Plan Assessment（RFP-A），用于从建筑学角度系统评价 AI 生成住宅平面，既能评价准确性，也能评价多样性。

（2）提出更适合住宅平面的专用指标

作者基于原有 GED 和 IoU，设计了：

RFP-GED
RFP-IoU
从而更好地评估：房间连接关系；房间位置；房间大小和形状。

（3）用新框架系统评测现有 6 个生成模型

论文用 RFP-A 对 6 个主流住宅平面生成模型做了系统比较，发现很多模型虽然传统指标不错，但实际生成结果并不满足建筑设计要求。

技术方法

RFP-GED

原始 GED 的问题有两个：

计算代价高
把“门连接”和“墙连接”视为同样重要，不符合住宅空间的实际语义。

为此，作者设计了 RFP-GED：

给门连接赋值 2
给墙连接赋值 1
无连接赋值 -1
为每个房间构建修改代价矩阵
按房间类型顺序计算差异并进行提前停止，以减少计算量。

RFP-IoU

原始 IoU 的问题是：

对整体位置变化太敏感
用 bounding box 时只能粗略比较面积，难以精细比较房间形状。

作者提出的 RFP-IoU 做法是：

先把住宅平面拆分成一个个房间
对同类房间做对齐，消除整体平移影响
分别计算对应房间的 IoU
最后对所有房间的结果求平均。

这个方法能更准确评估：

房间大小差异
房间形状差异
同时避免由于整张平面图移动位置带来的误判。

实验分析

计算效率分析

作者重点比较了 RFP-GED 与原始 GED 的效率。

单张图比较，在两种场景下，RFP-GED 都明显快于 GED。

多图分类比较，作者指出：

GED 复杂度是 O(L²)
RFP-GED 复杂度是 O(LlogL)。

这说明 RFP-GED 在大规模评价时优势非常明显，非常适合“批量生成—批量筛选”的 AI 应用场景。

对 6 个生成模型的评测

作者把 6 个主流住宅平面生成模型按输入条件分成 4 类，并展示了它们生成出来的平面图长什么样。论文明确写到，这 6 个模型包括：
(1) 图输入：HouseGAN、HouseGAN++、HouseDiffusion；
(2) 房间约束输入：Graph2Plan；
(3) 自然语言输入：Tell2Design；
(4) 实例输入：FloorplanDiffusion。作者还说明，为保证比较公平，他们在三种户型需求下各生成了 1000 张平面图做评测。

第二张表给出了这 6 个模型在 RFP-A 和传统指标下的比较结果。最关键的发现是，只有 HouseDiffusion 和 FloorplanDiffusion 在三种任务下都保持了 90% 以上的房间数量准确率，说明扩散模型在满足设计要求方面明显优于 GAN 类模型。与此同时，不同模型在多样性维度上各有优势：FloorplanDiffusion 的图结构多样性最好，HouseDiffusion 的位置多样性最好，HouseGAN 的几何多样性最好，没有任何模型在所有维度都占优。

总结

这篇论文的核心价值在于：
它没有再去卷“生成模型”，而是转向了一个更基础但更关键的问题——如何评价 AI 生成住宅平面。作者提出的 RFP-A 将评价拆成房间数量、连接关系、位置朝向和几何特征四个层次，使得评价更全面、更可解释，也更适合建筑设计实际需求。

作者最终得出三点重要结论：

RFP-A 比现有指标更适合住宅平面评价
扩散模型在生成准确率上明显优于 GAN 类模型
没有模型在所有多样性维度都表现最好，未来需要更全面的多模态生成模型。