Emu Edit & Emu Video, Meta 宣布推出全新AI图像和视频视频编辑工具

AIBetas消息，11月16日，Meta宣布为 Facebook 和 Instagram 推出两款基于 AI 的图像编辑工具——Emu Edit & Emu Video，适用领域包括照片和视频。Meta表示，这是一项基于纯文本指令的受控图像编辑的新研究，实用基于扩散模型的文本到视频生成的方法。

Emu Video: 一种简单分解的方法用于高质量视频生成

通过利用Meta的Emu模型，利用Emu Video提出了一种基于扩散模型的文本到视频生成的简单方法。这是一个统一的视频生成任务架构，可以响应多种输入：仅文本，仅图像，以及文本和图像。过程分为两个步骤：首先，根据文本提示生成图像，然后根据文本和生成的图像生成视频。这种“分解”的或分割的视频生成方法能够有效地训练视频生成模型。

与之前需要深层级联模型的工作（例如，Make-A-Video需要五个模型）不同，Meta最先进方法简单易实施，仅使用两个扩散模型生成512×512分辨率、四秒长、每秒16帧的视频。在人类评估中，与之前的工作相比，视频生成被强烈偏好——实际上，基于质量和对文本提示的忠实度，这个模型分别被96%和85%的受访者偏好于Make-A-Video。同时表示，同一个模型可以根据文本提示“动画化”用户提供的图像，相较于之前的内容有很大的改善。

Emu Edit: 通过识别和生成任务进行精确的图像编辑

Emu Edit能够通过指令进行自由形式编辑，涵盖了诸如局部和全局编辑、移除和添加背景、颜色和几何变换、检测和分割等任务。当前的方法通常在各种编辑任务上过度修改或表现不佳。Meta认为，主要目标不应该仅仅是产生一个“可信”的图像。相反，模型应该专注于精确地只改变与编辑请求相关的像素。与今天许多生成性AI模型不同，Emu Edit精确地遵循指令，确保与指令无关的输入图像中的像素保持不变。例如，当在棒球帽上添加文字“Aloha!”时，帽子本身应保持不变。

据介绍，Emu Edit在执行详细编辑指令方面有巨大潜力，为了训练模型，Meta表示开发了一个包含1000万合成样本的数据集，每个样本包括一个输入图像、一个要执行的任务描述和一个目标输出图像。表示这是迄今为止同类中最大的数据集。

Emu Edit和Emu Video采用相同的基础模型，不过，Meta 公司并未透露何时发布这两款工具，仅表示目前仅用于基础研究。