首页/服务能力/数据标注/语音标注

数据标注 · 语音

让机器听懂每一个发音 · 语音精标全栈

从逐字转写到音素级时间戳、从韵律标注到说话人分离，覆盖 ASR / TTS / 声纹 / 唤醒词 / 命令词 / 车载远场全场景的语音数据生产线。AI 预转写 + 人工精校 + 三级质检 + 终审，输出可直接进入训练管线的高质量语料。

转写高一致性目标

8 大方言支持

ASR / TTS 双向

三级质检 + 终审

免费试标 → 预约方案咨询

六大核心标注品类

从转写到声纹 · 一条产线打通

同一支团队、同一套规范，覆盖语音算法训练所需的全部标注形态。

语音转写

普通话、方言、小语种逐字精准转写，含数字归一化、标点恢复、口语词处理与角色标注。

普通话
粤语
川渝
东北
闽南
吴语
客家
晋语

语音切分

句、词、音素三级切分，时间戳对齐精度 ≤ 30ms。支持 VAD、静音段去除与 force-alignment。

句级
词级
音素级
VAD

拼音标注

声母 / 韵母 / 声调标注，含轻声、儿化、变调、多音字消歧，TTS 训练专用规范可定制。

声母韵母
声调
轻声
儿化
变调

韵律标注

停顿层级（PW / PPH / IPH）、重音、语速、语调、语气标注，TTS 自然度与情感语音必备。

停顿层级
重音
语速
语调

说话人分离

多人语音分离、说话人识别（SID）、声道分配、角色标签、重叠语音处理，会议 / 客服 / 访谈通吃。

多人分离
SID
声道
角色

噪声 + 情感标注

环境噪声、设备噪声、信噪比分级；喜怒哀乐惧厌惊中性 8 类情感及强度，支持自定义情感体系。

环境噪声
SNR
8 类情感
情感强度

场景覆盖

训练 / 评测 / 上线 · 全链路语音数据

远

远场 / 车载语音

多麦阵列、回声消除、远场拾音、车舱噪声、低信噪比样本精校。

唤

命令词 / 唤醒词

关键词时间戳对齐、误唤醒样本筛选、负样本采集与标注。

纹

声纹识别

多说话人注册 / 验证样本，跨设备、跨信道、跨时长声纹建模。

ASR 训练

逐字精校 + 标点 + 数字归一化 + 角色标签，端到端 ASR 模型直接喂入。

TTS 录音

韵律标注、音素切分、力度标注，专为高自然度 TTS / 声音克隆设计。

语

语种识别

中、英、日、韩、东南亚多语种语料标注与对齐。

音

口音 / 方言

八大方言区 + 普通话各级口音分级标注，方言 ASR 专项。

智

智能客服

多轮对话切分、意图槽位联动、情感升级识别样本。

标注规格

规范明确 · 验收口径可对齐

规格项	能力描述
转写规范	逐字精确（默认） / 语义合并 / 客户自定义口语词处理规则
时间戳精度	字级 / 词级 / 音素级，对齐误差 ≤ 30ms
输出格式	TextGrid / JSON / TXT / SRT / LAB / CTM
采样率支持	8k / 16k / 22.05k / 44.1k / 48k Hz，单声道与多声道
语言覆盖	普通话 + 8 大方言 + 中英混读 + 多语种小语种
IAA 一致性	≥ 0.86（多人标注间）；TTS 韵律一致性 ≥ 0.90
交付准确率	≥ 98% 不达标整批返工

四级质检闭环

三级质检 + 终审 · 把关到每一帧音频

语音标注的边界往往出现在停顿、口语词、儿化、情感临界点。我们用一级自检 + 二级抽检 + 三级全检 + 终审复核的四级闭环，把易错样本压在交付之前。

一级自检

作业人员逐条听音回放，对齐 SOP，问题样本当场返工。

二级抽检

项目组长按比例抽检 + IAA 实时统计，差异样本进入复议。

三级全检

独立质控团队全检关键字段，不达标批次整批退回返工。

终审 Final Review

交付前对边界与歧义样本最终把关，对齐客户验收口径。