同一支团队、同一套规范,覆盖语音算法训练所需的全部标注形态。
普通话、方言、小语种逐字精准转写,含数字归一化、标点恢复、口语词处理与角色标注。
句、词、音素三级切分,时间戳对齐精度 ≤ 30ms。支持 VAD、静音段去除与 force-alignment。
声母 / 韵母 / 声调标注,含轻声、儿化、变调、多音字消歧,TTS 训练专用规范可定制。
停顿层级(PW / PPH / IPH)、重音、语速、语调、语气标注,TTS 自然度与情感语音必备。
多人语音分离、说话人识别(SID)、声道分配、角色标签、重叠语音处理,会议 / 客服 / 访谈通吃。
环境噪声、设备噪声、信噪比分级;喜怒哀乐惧厌惊中性 8 类情感及强度,支持自定义情感体系。
多麦阵列、回声消除、远场拾音、车舱噪声、低信噪比样本精校。
关键词时间戳对齐、误唤醒样本筛选、负样本采集与标注。
多说话人注册 / 验证样本,跨设备、跨信道、跨时长声纹建模。
逐字精校 + 标点 + 数字归一化 + 角色标签,端到端 ASR 模型直接喂入。
韵律标注、音素切分、力度标注,专为高自然度 TTS / 声音克隆设计。
中、英、日、韩、东南亚多语种语料标注与对齐。
八大方言区 + 普通话各级口音分级标注,方言 ASR 专项。
多轮对话切分、意图槽位联动、情感升级识别样本。
| 规格项 | 能力描述 |
|---|---|
| 转写规范 | 逐字精确(默认) / 语义合并 / 客户自定义口语词处理规则 |
| 时间戳精度 | 字级 / 词级 / 音素级,对齐误差 ≤ 30ms |
| 输出格式 | TextGrid / JSON / TXT / SRT / LAB / CTM |
| 采样率支持 | 8k / 16k / 22.05k / 44.1k / 48k Hz,单声道与多声道 |
| 语言覆盖 | 普通话 + 8 大方言 + 中英混读 + 多语种小语种 |
| IAA 一致性 | ≥ 0.86(多人标注间);TTS 韵律一致性 ≥ 0.90 |
| 交付准确率 | ≥ 98% 不达标整批返工 |
语音标注的边界往往出现在停顿、口语词、儿化、情感临界点。我们用一级自检 + 二级抽检 + 三级全检 + 终审复核的四级闭环,把易错样本压在交付之前。
作业人员逐条听音回放,对齐 SOP,问题样本当场返工。
项目组长按比例抽检 + IAA 实时统计,差异样本进入复议。
独立质控团队全检关键字段,不达标批次整批退回返工。
交付前对边界与歧义样本最终把关,对齐客户验收口径。