使用生成式人工智能模型制作的视觉特效 — 包括图像补全、对象移除、自动旋转描图和基于扩散模型的合成,自2024年起兴起。
人工智能视觉特效(AI VFX)是利用生成式人工智能模型进行创建或处理的视觉特效的总称。与基于 Nuke 或 After Effects 等合成软件的传统 VFX 不同,这里使用的是扩散模型、Vision Transformer 和前馈神经网络,可以作为独立工具或集成到非线性编辑(NLE)软件的插件。
流程位置
人工智能视觉特效主要应用于后期制作。典型任务包括:移除对象(如吊杆、收音麦克风、反射)、抠像主体后的内绘(Inpainting)、无需手动逐帧绘制的 rotoscoping、无需绿幕的背景替换、对现有素材进行重新打光、以及为整个序列进行风格迁移。
工具 2026
- Runway Gen-4 / Gen-4.5 — 参考到视频、多镜头序列、原生音频生成。
- Wonder Dynamics (Autodesk Flow Studio) — 无标记身体追踪 + 自动角色替换。
- Meta SAM 3 — 抠像、从图像/视频生成 3D 对象,可通过 Playground 免费获取。
- Beeble Switch X — 生成式重新打光 + 背景交换,保持主体一致性。
- Netflix VOID — 开源对象移除,具备物理感知能力,Apache-2.0 协议。
- NVIDIA Lyra 2.0 — 单张图像生成可步行 3D 世界,HuggingFace 上提供开放权重。
- Topaz Video AI — 放大、帧插值、稳定化作为预编辑步骤。
- DaVinci Resolve 21 — 在编辑页面中内置八个新的 AI 工具(重塑器、语音生成、智能搜索)。
- Adobe Firefly Video Editor — 基于文本的编辑、生成式音效、色彩模式。
现场实践
最重要的变化不是工具本身,而是现场的拍摄规范。如果背景将在后期替换,那么灯光连续性就必须更严格,而不是更宽松。主体的打光应与后期的合成背景相匹配,否则最终效果会像绿幕抠图一样生硬。摄影指导(DPs)现在会提前考虑后期人工智能视觉特效的工作流程来规划关键场景,而不是等到后期才考虑。
实践技巧
- 始终拍摄参考帧 — 即使是那些后期将被完全替换的素材。在打光设置中拍摄一个 5 秒的参考,可以节省后期数小时的工作。
- 音频素材同样重要:在人工智能背景交换时,房间的底噪(Room-Tone)和背景人声(Walla)常常被遗忘,导致声音连续性出现问题。
- 帧率一致性是强制要求。人工智能工具在 24 帧/秒的影院标准下计算效果最好;混合使用 30/60/120 帧/秒会导致跟踪错误。
- 提前明确输出格式:1080p 适用于流媒体,4K-DCI 适用于影院母版。有些工具内部会以较低分辨率渲染然后放大 — 这在大屏幕放映时会暴露出来。
历史
2022 年是前奏 — Stable Diffusion 使 Photoshop 插件中的内绘功能变得流行。2023 年,Runway Gen-2 成为首个可量产的视频工具,随后是 Pika 1.0。2024 年标志着进入好莱坞流程:工业光魔(Industrial Light & Magic)采纳了 Wonder Dynamics,ARRI 将人工智能模块集成到其工作流程工具中,而 OpenAI 的 Sora 演示则将文本到视频(Text-to-Video)推向了主流讨论。2025 年,Sora 将会衰落(2026 年 4 月 26 日应用关闭),市场将围绕开源模型(Hunyuan、Wan 2.7、LTX-2)和闭源 API 高级服务(Veo 3.1、Kling 3.0、HappyHorse 1.0)进行重组。