按语种、人群属性、声学场景与任务类型拆分子类,可单独或组合采集。
面向标准 ASR / TTS 训练的高质量普通话语料,覆盖朗读、对话、远场、近场多种录音距离。
覆盖中国主要方言区,按发音人地域、年龄、性别均衡分布,支持方言识别与方言 TTS 训练。
面向出海产品、跨境业务与多语言大模型,覆盖东亚、东南亚、欧洲、中东等区域主流语种。
在真实声学环境下录制,覆盖车载、家居、会议室、安静与嘈杂场景,可定制特定底噪。
按年龄段、性别、地域、口音、情感与语速分层采集,确保模型对人群多样性的覆盖。
面向特定语音任务的专项语料,支持任务定制话术、唤醒词清单与多人对话脚本。
根据保真度、规模、场景与预算自由组合,单一项目可同时使用多种方式。
高保真、低噪声、标准化声学环境,音频工程师全程把控,适合 TTS 与高质量 ASR。
覆盖广、扩量快、成本可控,依托十万级采集资源网络覆盖全国与海外主要采集场景。
云端远程录制系统,对接专业发音人,统一管理脚本、试听、复录与质检流程。
实验室、道路、车内、家庭、商场等真实场景,按客户设备清单与采集脚本现场执行。
规格按项目要求一对一约定,下表为默认能力范围。
| 规格项 | 说明 |
|---|---|
| 音频格式 | WAV / MP3 / FLAC / PCM,无损与有损可选 |
| 采样率 | 16 kHz / 44.1 kHz / 48 kHz,按 ASR / TTS 任务匹配 |
| 单条时长 | 3 秒 ~ 30 分钟,支持长对话与短命令词分别约束 |
| 信噪比 | ≥ 25 dB(录音棚) / ≥ 15 dB(实地与众包) |
| 交付方式 | 私有云 / OSS 对象存储 / 物理介质(脱敏后) |
| 元数据 | 说话人 ID、场景标签、设备型号、时间戳、采集地点 |