首页/服务能力/数据采集/语音数据采集

数据采集 · 语音

为 ASR / TTS / 语音交互交付高保真采集语料

面向语音识别、语音合成、语音唤醒、声纹识别、多轮对话系统的全场景采集服务。覆盖普通话、八大方言、二十余种全球小语种与车载 / 家居 / 会议 / 户外等真实声学环境，从录音棚到移动端众包灵活组合。

中外多语种与主流方言

录音棚级保真

全场景覆盖

全流程合规

免费试采 → 预约方案咨询

六大采集子类

覆盖语音采集全谱系

按语种、人群属性、声学场景与任务类型拆分子类，可单独或组合采集。

普通话采集

面向标准 ASR / TTS 训练的高质量普通话语料，覆盖朗读、对话、远场、近场多种录音距离。

标准朗读
日常对话
远场
近场

方言采集

覆盖中国主要方言区，按发音人地域、年龄、性别均衡分布，支持方言识别与方言 TTS 训练。

粤语
四川话
东北话
河南话
陕西话
上海话
客家话
闽南语

小语种采集

面向出海产品、跨境业务与多语言大模型，覆盖东亚、东南亚、欧洲、中东等区域主流语种。

英语
日语
韩语
泰语
西班牙语
阿拉伯语
俄语

场景语音

在真实声学环境下录制，覆盖车载、家居、会议室、安静与嘈杂场景，可定制特定底噪。

车载
家居
会议室
嘈杂
安静

人声属性

按年龄段、性别、地域、口音、情感与语速分层采集，确保模型对人群多样性的覆盖。

年龄
性别
地域
口音
情感
语速
声线

专用语音

面向特定语音任务的专项语料，支持任务定制话术、唤醒词清单与多人对话脚本。

声纹
唤醒词
命令词
多轮对话
多人对话

四种采集方式

录音棚 · 众包 · 云录 · 实地灵活组合

根据保真度、规模、场景与预算自由组合，单一项目可同时使用多种方式。

专业录音棚

高保真、低噪声、标准化声学环境，音频工程师全程把控，适合 TTS 与高质量 ASR。

移动端众包

覆盖广、扩量快、成本可控，依托十万级采集资源网络覆盖全国与海外主要采集场景。

StudioNEXT 云录制

云端远程录制系统，对接专业发音人，统一管理脚本、试听、复录与质检流程。

线下实地采集

实验室、道路、车内、家庭、商场等真实场景，按客户设备清单与采集脚本现场执行。

交付规格

音频格式、采样率、信噪比可按需定制

规格按项目要求一对一约定，下表为默认能力范围。

规格项	说明
音频格式	WAV / MP3 / FLAC / PCM，无损与有损可选
采样率	16 kHz / 44.1 kHz / 48 kHz，按 ASR / TTS 任务匹配
单条时长	3 秒 ~ 30 分钟，支持长对话与短命令词分别约束
信噪比	≥ 25 dB（录音棚） / ≥ 15 dB（实地与众包）
交付方式	私有云 / OSS 对象存储 / 物理介质（脱敏后）
元数据	说话人 ID、场景标签、设备型号、时间戳、采集地点

典型使用场景

从识别到合成 · 覆盖语音 AI 全链路

ASR

语音识别训练

普通话、方言、小语种与场景化识别模型训练语料

TTS

音色库构建

单人多小时高保真录制，支持情感、风格分层

KWS

唤醒词训练

自定义唤醒词清单与命令词集，覆盖远近场

VPR

声纹库

分性别、年龄、地域的均衡声纹样本库