数据标注 · 语音

让机器听懂每一个发音 · 语音精标全栈

从逐字转写到音素级时间戳、从韵律标注到说话人分离,覆盖 ASR / TTS / 声纹 / 唤醒词 / 命令词 / 车载远场全场景的语音数据生产线。AI 预转写 + 人工精校 + 三级质检 + 终审,输出可直接进入训练管线的高质量语料。

转写高一致性目标
8 大方言支持
ASR / TTS 双向
三级质检 + 终审

新增俄语大模型训练数据专项

承接俄语语音采集、转写、切分、说话人、时间戳、意图、情绪、噪声标注、质检与训练数据包交付。俄罗斯本地人工 + 国内数据处理团队,服务 LLM、ASR、多语种客服和车载语音模型。

六大核心标注品类

从转写到声纹 · 一条产线打通

同一支团队、同一套规范,覆盖语音算法训练所需的全部标注形态。

语音转写

普通话、方言、小语种逐字精准转写,含数字归一化、标点恢复、口语词处理与角色标注。

  • 普通话
  • 粤语
  • 川渝
  • 东北
  • 闽南
  • 吴语
  • 客家
  • 晋语

语音切分

句、词、音素三级切分,时间戳对齐精度 ≤ 30ms。支持 VAD、静音段去除与 force-alignment。

  • 句级
  • 词级
  • 音素级
  • VAD

拼音标注

声母 / 韵母 / 声调标注,含轻声、儿化、变调、多音字消歧,TTS 训练专用规范可定制。

  • 声母韵母
  • 声调
  • 轻声
  • 儿化
  • 变调

韵律标注

停顿层级(PW / PPH / IPH)、重音、语速、语调、语气标注,TTS 自然度与情感语音必备。

  • 停顿层级
  • 重音
  • 语速
  • 语调

说话人分离

多人语音分离、说话人识别(SID)、声道分配、角色标签、重叠语音处理,会议 / 客服 / 访谈通吃。

  • 多人分离
  • SID
  • 声道
  • 角色

噪声 + 情感标注

环境噪声、设备噪声、信噪比分级;喜怒哀乐惧厌惊中性 8 类情感及强度,支持自定义情感体系。

  • 环境噪声
  • SNR
  • 8 类情感
  • 情感强度
场景覆盖

训练 / 评测 / 上线 · 全链路语音数据

远场 / 车载语音

多麦阵列、回声消除、远场拾音、车舱噪声、低信噪比样本精校。

命令词 / 唤醒词

关键词时间戳对齐、误唤醒样本筛选、负样本采集与标注。

声纹识别

多说话人注册 / 验证样本,跨设备、跨信道、跨时长声纹建模。

A

ASR 训练

逐字精校 + 标点 + 数字归一化 + 角色标签,端到端 ASR 模型直接喂入。

T

TTS 录音

韵律标注、音素切分、力度标注,专为高自然度 TTS / 声音克隆设计。

语种识别

中、英、日、韩、东南亚多语种语料标注与对齐。

口音 / 方言

八大方言区 + 普通话各级口音分级标注,方言 ASR 专项。

智能客服

多轮对话切分、意图槽位联动、情感升级识别样本。

标注规格

规范明确 · 验收口径可对齐

规格项能力描述
转写规范逐字精确(默认) / 语义合并 / 客户自定义口语词处理规则
时间戳精度字级 / 词级 / 音素级,对齐误差 ≤ 30ms
输出格式TextGrid / JSON / TXT / SRT / LAB / CTM
采样率支持8k / 16k / 22.05k / 44.1k / 48k Hz,单声道与多声道
语言覆盖普通话 + 8 大方言 + 中英混读 + 多语种小语种
IAA 一致性≥ 0.86(多人标注间);TTS 韵律一致性 ≥ 0.90
交付准确率≥ 98% 不达标整批返工
四级质检闭环

三级质检 + 终审 · 把关到每一帧音频

语音标注的边界往往出现在停顿、口语词、儿化、情感临界点。我们用一级自检 + 二级抽检 + 三级全检 + 终审复核的四级闭环,把易错样本压在交付之前。

L1

一级自检

作业人员逐条听音回放,对齐 SOP,问题样本当场返工。

L2

二级抽检

项目组长按比例抽检 + IAA 实时统计,差异样本进入复议。

L3

三级全检

独立质控团队全检关键字段,不达标批次整批退回返工。

F

终审 Final Review

交付前对边界与歧义样本最终把关,对齐客户验收口径。

语音标注作业现场

把样本音频丢给我们 · 24 小时内回试标 + 质检报告

提交 5-20 条样本音频,附标注规范或参考样例,我们 24 小时内回传带质检报告的试标结果。