动作捕捉

cgi animation vfx supervisor

用于捕获和数字记录演员或对象身体运动的技术。在动画或VFX中使用。

定义

动作捕捉（或MoCap）是一种实时数字捕捉和记录身体运动的技术。演员或动画角色会穿着一种特殊的服装，上面带有反光标记点，这些标记点会被红外敏感摄像头追踪。捕捉到的位置信息会被转换为数字骨骼数据，然后应用到 CGI 角色上。

如今，动作捕捉对于好莱坞大片中的数字角色至关重要，例如《阿凡达》、《奇幻森林》或漫威系列电影。该技术能够实现照片般逼真的动作动画，这是手工绘制无法企及的。

动作捕捉的类型

1. 基于光学标记的 MoCap（标准）

工作原理：

在身体上贴上反光标记点（直径 12-16 毫米）
红外摄像头捕捉每个标记点的三维位置
通过三角测量计算出精确的骨骼位置
实时计算可实现现场预览

设备：

12-32 个专业红外摄像头（OptiTrack, Vicon, Xsens）
反光标记点套装
带有标记点袋子的专用服装
实时追踪软件

优点：

最高精度（亚毫米级）
可同时捕捉多个演员
处理速度极快
可实现无限的运动范围

缺点：

昂贵（场地租赁：8-15K 欧元/天）
标记点遮挡（被身体部分挡住）是问题
专用服装不舒适
校准过程复杂

2. 惯性 MoCap（基于 IMU）

工作原理：

每个关节上都装有加速度计
无需外部摄像头
无线数据传输
可实现更低的延迟

示例： Xsens MVN, OptiTrack Geno

优点：

可在户外捕捉
无需设置摄像头
部署速度更快
比光学系统便宜

缺点：

随时间推移会出现漂移和噪声
精度不如光学系统
每次会话前都需要校准
每个套装价格昂贵（50-70K 欧元）

3. 无标记 / AI 驱动的 MoCap

工作原理：

深度学习算法从视频中识别身体关节
无需标记点或专用硬件
可在标准 GPU 上进行实时处理
越来越普及（OpenPose, MediaPipe, RunwayML）

优点：

便宜（软件每月 100-500 欧元）
实施速度快
无需专用设备
室内外均可

缺点：

精度较低（±5-10 厘米误差）
每次拍摄只能捕捉一个人
快速动作表现不佳
需要后期数据处理

4. 实时 / 直播 MoCap（流式传输）

工作原理：

实时追踪直接输入到 3D 引擎中
演员可以在实时监视器上看到自己的数字替身
可实现交互式表演
用于虚拟制作（LED 舞台）

示例：《曼达洛人》、《堡垒之夜表演捕捉》

优点：

为演员提供实时反馈
导演可以实时进行调整
减少返工
实时预演

缺点：

极其昂贵（100K-200K 欧元/天）
技术复杂
需要专业人才
技术容错度有限

标记点放置：标准骨骼

标准的 MoCap 骨骼通常有 40-70 个标记点：

头部：
├── 头顶
├── 前额
├── 后脑勺
└── 颈部

脊柱：
├── 脊柱 1（底部）
├── 脊柱 2（中部）
├── 脊柱 3（顶部）
└── 锁骨 L/R

左臂：
├── 肩部 L
├── 肘部 L
├── 手腕 L
├── 手 L
└── 手指 L [1-5]

右臂：
└── （相同）

骨盆：
├── LHIP（左髋）
├── RHIP（右髋）
└── 骨盆后部

左腿：
├── 膝盖 L
├── 脚踝 L
├── 脚趾 L
└── 脚跟 L

右腿：
└── （相同）

MoCap 工作流程

第一阶段：前期制作

捕捉会话前：

场景规划和动作设计
标记点放置定义
摄像头设置和校准
服装适配和尺码选择
演员简报

第二阶段：捕捉（在工作室）

准备（30 分钟）：
├── 演员穿上 MoCap 服装（含设备重达 30 公斤）
├── 标记点粘贴和检查
└── 摄像头校准（T 姿势和 A 姿势）

录制（4-6 小时）：
├── 录制片段
├── 实时质量控制检查
├── 标记点遮挡时重新录制
└── 片段之间进行 T 姿势作为参考

捕捉后（30 分钟）：
├── 数据验证
├── 文件传输和备份
└── 设备清洁

第三阶段：后期处理（2-4 周）

原始捕捉数据
├── 标记点空隙填充（缺失帧的插值）
├── 抖动减少和光滑处理
├── 骨骼拟合（标记点 → 骨骼转换）
├── 缩放和 T 姿势归一化
├── 动作图创建
└── FBX/EXR 导出用于动画

技术规格

光学追踪系统（行业标准）

精度： ±2-5 毫米 RMS 误差
延迟： 2-4 帧（以 24fps 计算为 83-166 毫秒）
捕捉帧率： 120-240fps（用于降采样到 24fps）
工作空间： 4 米 x 4 米至 20 米 x 20 米（可通过阵列扩展至任意大小）
摄像头数量： 通常为 12-32 个
刷新率： 120Hz 或 240Hz

数据格式和大小

一次 8 小时的会话，50 个标记点，120fps：
├── 原始数据：约 50-80 GB（专有格式）
├── 骨骼数据：约 2-5 GB（FBX/BVH）
├── 动作图：约 500MB-1GB
└── 存档备份：150-200 GB（冗余）

MoCap 中的问题与解决方案

问题 1：标记点遮挡

现象： 标记点被身体部位遮挡，追踪系统丢失位置

解决方案：

通过软件进行标记点空隙填充（插值）
增大标记点之间的物理距离
增加摄像头数量（冗余视线）
手动清理问题区域

清理成本： 后期制作时间增加 30-50%

问题 2：抖动和噪声

现象： 标记点由于摄像头噪声或反射而“抖动”

解决方案：

基于软件的抖动减少（Butterworth 滤波器）
手动关键帧校正
提高捕捉帧率进行降采样
更高质量的标记点（反射特性）

问题 3：肩膀弹出 / 万向锁

现象： 由于数学奇异性导致肩膀出现不自然的旋转

解决方案：

使用四元数（Quaternion）进行旋转（而非欧拉角）
骨骼系统中的求解器约束
手动动画处理关键帧
高阶插值

问题 4：手指运动

现象： 难以追踪每只手上的 5 个手指（标记点密度大）

解决方案：

使用专用手部追踪摄像头（单独）
带有手指标记点的特制手套
半自动手部动画
通常需要手动后期处理（80% 的镜头）

MoCap 与手工动画对比

方面	MoCap	手工动画
真实感	自然	风格化
速度	快（1 天捕捉）	慢（1-2 周）
成本	前期投入高	持续投入高
控制力	有限	最大化
特效	困难	容易
微调	大量清理	最少
循环和重复	简单	复杂

著名的 MoCap 制作

阿凡达（2009）：为蓝色纳美人进行了 60 天的 MoCap
霍比特人（2012）：安迪·瑟金斯在片场实时扮演咕噜
奇幻森林（2016）：通过 MoCap 动物实现真人电影外观
复仇者联盟：无限战争（2018）：灭霸使用实时 MoCap
曼达洛人（2019）：在 LED 体积内进行实时 MoCap

MoCap 中的演员表演

效果好的方面：

大范围、清晰的动作
肢体语言和姿态
通过动作传达情感
与其他 MoCap 演员的互动
动态动作序列

困难的方面：

细微的微表情
手指的细微动作
眼神交流（通常单独拍摄）
服装的互动
逼真的物体抓取

动作捕捉的未来

当前趋势：

实时 AI 辅助标记点遮挡处理
无标记系统越来越好（RunwayML, OpenPose 2.0）
流媒体制作中的实时 MoCap
混合方法（光学 + IMU 结合）
基于云的后期处理

参见

CGI – 数字角色与环境
动画 – 数字创建运动
VFX 监督 – 质量控制
虚拟制作 – 片场实时 MoCap

继续浏览词典

定义

动作捕捉的类型

1. 基于光学标记的 MoCap（标准）

2. 惯性 MoCap（基于 IMU）

3. 无标记 / AI 驱动的 MoCap

4. 实时 / 直播 MoCap（流式传输）

标记点放置：标准骨骼

MoCap 工作流程

第一阶段：前期制作

第二阶段：捕捉（在工作室）

第三阶段：后期处理（2-4 周）

技术规格

光学追踪系统（行业标准）

数据格式和大小

MoCap 中的问题与解决方案

问题 1：标记点遮挡

问题 2：抖动和噪声

问题 3：肩膀弹出 / 万向锁

问题 4：手指运动

MoCap 与手工动画对比

著名的 MoCap 制作

MoCap 中的演员表演

效果好的方面：

困难的方面：

动作捕捉的未来

参见

相关术语

理解视觉语言，估算制片预算，连接剧组。