按使用任务拆分类型,可单类采集,也可组合成完整训练集。
面向客服机器人、聊天助手与人机交互模型的对话语料,覆盖单轮与多轮场景。
按行业知识体系组织的垂直文本,可用于行业大模型微调、垂直问答与抽取任务。
面向翻译、出海产品与多语言大模型,提供平行语料与对照标签。
面向特定 NLP 任务的专项文本,包括舆情、摘要、纠错与指令微调样本。
按题材、行业、语言筛选签约作者,按统一规范撰写与互审,适合高质量样本。
面向公开数据来源进行授权审核、去重、去毒、脱敏与结构化重组。
对接客户真实业务文本(客服记录、知识库等),按规范脱敏后形成专属语料集。
覆盖东亚、东南亚、欧洲与中东的多语言协作者,支持平行翻译与本地化撰写。
按项目要求定义字段、编码与去重规则,支持百万级样本批量交付。
| 规格项 | 说明 |
|---|---|
| 文件格式 | JSONL / CSV / TXT / Markdown |
| 编码 | UTF-8 / GBK 可选,统一 BOM 策略 |
| 字段定义 | 自定义元数据:题材、语种、来源、长度、难度、版本 |
| 去重 / 脱敏 | 默认开启相似度去重与敏感信息脱敏 |
| 长文本 | 支持 100K+ token 长样本,适配长上下文模型 |
| 交付方式 | 私有云 / OSS 对象存储 / 物理介质(脱敏后) |