2023年8月2日,英伟发布的论文披露了一种名为 Perfusion 的「文生图」模型的个性化学习技术,一种新的文本到图像个性化方法。 每个概念只有100KB的模型大小,训练大约4分钟,Perfusion 可以创造性地描绘个性化对象。
Perfusion 技术是由 NVIDIA 和以色列的特拉维夫大学合作研发的。Perfusion 技术可以帮助自由创造生成更加个性化的物体,实现更生动的结果,具有更好的提示匹配性,并且不易受原始图像背景特征的影响。
它允许它们的外观发生重大变化, 在保持其身份的同时,使用一种我们称为“钥匙锁定”的新机制。 Perfusion还可以将单独学习的概念组合成单个生成的图像。 最后,它能够在推理时控制视觉对齐和文本对齐之间的权衡,只需一个经过训练的模型即可覆盖整个帕累托前沿。
通俗一点的解释就是,它将图像生成模型内的注意力机制分成两部分 : 位置部分和内容部分。位置部分决定画什么物体,内容部分决定物体的外观样式。
「密钥机制」固定住位置部分,不让物体随意变化,比如特定泰迪熊的位置与所有修改后的泰迪熊一致。同时,内容部分允许物体的外观自由变化,比如给泰迪熊凭空换一套装扮。
此外,Perfusion 技术在文生图的过程中,可以选择控制物体的变化程度,可以更像原物也可以更符合用户的描述语。历史记录生成的几个物体还可以组合放在同一张图像里。
Perfusion可以轻松创建吸引人的图像。通常,仅使用8个种子就可以生成几个良好的图像样本。
目前英伟达仅在官网公布了Perfusion 的研究论文,具体的代码演示将很快推出,届时用户文生图的功能需求也会有更加多元化的选择。
Perfusion 论文原文:https://arxiv.org/abs/2305.01644
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容