滚动新闻

华为研究院推出DiffFit,高效微调大型扩散模型

  机器学习中最重要的挑战之一是对复杂的概率分布进行建模。扩散概率模型 DPM 旨在学习逐渐破坏信息的明确定义的随机过程的逆过程。

  图像合成、视频制作和 3D 编辑是去噪扩散概率模型 (DDPM) 已显示出其价值的一些领域。由于其较大的参数大小和每个图像的频繁推理步骤,当前最先进的DDPM会产生很高的计算成本。实际上,并非所有用户都能获得足够的财务手段来支付计算和存储成本。因此,研究为单个应用程序有效定制公开可用的、大型的、预先训练的扩散模型的策略至关重要。

  华为诺亚方舟实验室研究人员的一项新研究使用扩散变压器作为基础,并提供DiffFit,这是一种用于大型扩散模型的简单有效的微调技术。最近的NLP(BitFit)研究表明,调整偏差项可以微调下游任务的预训练模型。研究人员希望调整这些有效的调整策略来生成图像。他们首先立即应用 BitFi,为了提高特征缩放和泛化性,他们将可学习的比例因子合并到模型的特定层,默认值为 1.0,并进行了特定于数据集的调整。实证结果表明,在整个模型中包括战略位置对于提高弗雷切特起始距离(FID)分数至关重要。

  BitFit,AdaptFormer,LoRA和VPT只是团队使用和比较超过8个下游数据集的一些参数高效微调策略。关于可训练参数的数量和FID权衡,结果表明DiffFit的性能优于其他技术。此外,研究人员还发现,他们的DiffFit策略可以很容易地用于微调低分辨率扩散模型,使其能够以低廉的成本适应高分辨率图像制作,只需将高分辨率图像视为与低分辨率图像不同的领域。

  DiffFit 优于 ImageNet 512×512 上先前最先进的扩散模型,从预训练的 ImageNet 256×256 检查点开始,仅对 DIT 进行了 25 个周期的微调。DiffFit 在 FID 方面优于原始的 DiT-XL/2-512 模型(具有 640M 可训练参数和 3M 迭代),而只有大约 0 万个可训练参数。它还需要减少 9% 的训练时间。

  总体而言,DiffFit旨在通过为图片制作中的参数高效微调建立简单而强大的基线,深入了解较大扩散模型的有效微调。