人机对话语音 + 实时文本转写,可用于 ASR 训练与端到端语音对话模型。
画面描述 + 配音、商品讲解 + 商品图等图文对照素材。
直播解说、教学视频、采访等需要画面与人声紧密对齐的场景。
三模态同步采集,用于虚拟人、情感识别、人机交互训练。
图像 + 多语言文本描述对(含细粒度场景标签),可用于 CLIP / VL 模型。
指令 + 多模态输入 + 期望输出,按客户对齐准则定制收集。
设备级时间码触发,多模态对齐误差 ≤ 16ms,远超软件时间戳。
统一记录设备 ID、起止时间戳、地点(脱敏)、参与人 ID 等元数据。
支持多摄像头 / 多麦克风 / 雷达 / IMU 等异构传感器统一标定。
多模态采集授权书覆盖肖像、声纹、动作等多重权利项。
| 项目 | 规格 |
|---|---|
| 同步精度 | 硬件时间码 ≤ 16ms(典型 5-10ms) |
| 对齐元数据 | JSONL 记录每帧 / 每段的设备 ID、时间戳、参与人 ID |
| 输出结构 | 资产文件夹 + manifest.json(含全部资产路径与时间戳) |
| 大模型对齐数据 | JSONL 多模态指令 + 期望输出对(按客户对齐准则) |
| 图文对照 | image + caption(中 / 英 / 多语种可选) |
| 交付方式 | 私有云 / OSS / 物理介质 / SFTP |