单位:Google Research
来源:CVPR
时间:2024
一、研究背景及意义
人脸个性化允许生成不同风格的特定人脸或人物的新图像。风格多样性归功于预训练扩散模型的强大先验,DreamBooth能够在不破坏模型先验的情况下将新主题植入模型,即便应用截然不同的风格,主题的本质和细节也会被保留。然而,DreamBooth有一些缺点:大小和速度。DreamBooth微调了扩散模型的 UNet 和文本编码器的所有权重,权重超过 1GB。本文旨在解决 DreamBooth 的大小和速度问题,同时保持模型的完整性、可编辑性和主题保真度。
二、研究思路及方法
本文贡献
(1)轻量级 DreamBooth (LiDB)—— 一种个性化的文到图模型,其中自定义部分的大小约为 100KB。
(2)新的 HyperNetwork 架构,利用轻量级 DreamBooth 配置,并在文到图扩散模型中为给定主题生成权重的自定义部分。
(3)提出了rank-relaxed微调技术,其中 LoRA DreamBooth 模型的秩在优化过程中被放松,以实现更高的主题保真度,允许使用HyperNetwork 初始化个性化模型的初始近似,然后使用rank-relaxed微调来近似高水平的主题细节。
方法
(1)轻量级DreamBooth(LiDB)
核心思想是进一步分解rank-1 LoRa残差的权重空间。将 LoRA 的 Down (A) 和 Up (B) 矩阵进一步分解为两个矩阵,其中辅助层用逐行正交向量随机初始化并被冻结,训练层被学习。

(2)用于文到图模型快速个性化的超网络
第 1 阶段:训练超网络以从人脸图像中预测网络权重,这样,如果将预测的权重应用于文到图扩散网络,则会从句子“a [v] face”中输出该人的脸。

(3)放松秩约束的快速微调
第2阶段:给定一张人脸图像,超网络预测网络权重的初始猜测,然后使用重建损失对其进行微调以增强保真度。在快速微调之前,将 LoRA 模型的秩从 r = 1 放宽到 r > 1。具体来说,将预测的 HyperNetwork 权重添加到模型的总体权重中,然后使用新的更高的秩执行 LoRA 微调,提供了更高的主题保真度权重更新。

三、结果

四、结论
本文提出了 HyperDreamBooth ——一种快速、轻量级的扩散模型主题个性化新方法。利用超网络为扩散模型生成轻量级 DreamBooth (LiDB) 参数,随后进行秩放松快速微调。在大约 20 秒内实现了人脸的个性化,比 DreamBooth 快 25 倍,且只需使用一张参考图像,具有与 DreamBooth 相同的质量和风格多样性。此外,模型比普通的 DreamBooth 模型小 10,000 倍。
五、思考
使用rank-1 LoRA 权重空间内使用随机正交不完全基进一步分解权重,同时,在快速微调之前将 LoRA 模型的秩从 r = 1 放宽到 r > 1。这将减少权重数量且显著放大输出主题的保真度。