数据标注 · 文本

为 NLP / 大模型精标结构化语义

从基础语言学标注到大模型 SFT / RM 偏好对,覆盖 NLP 全任务体系。八大垂直行业语料团队 + 双盲一致性 ≥ 0.86,把零散文本转化为可直接训练的结构化数据。

NER F1 ≥ 0.92
大模型 SFT / RM 专属团队
8 行业垂直语料
多语言支持
六大标注品类

从词法句法到大模型对齐

从最底层的语言学标注,到大模型 SFT / RM / 偏好对齐,统一团队、统一规范。

基础标注

中文分词、词性标注(POS)、句法分析、依存关系,覆盖现代汉语 + 古文 + 网络文本。

  • 分词
  • 词性
  • 句法
  • 依存

命名实体识别 NER

人名、地名、机构名、时间、金额、型号、产品、专业术语,行业自定义实体体系无上限。

  • 通用实体
  • 嵌套实体
  • 关系抽取
  • 事件抽取

情感分析

正面 / 负面 / 中性三分类,含细粒度强度、方面级情感(ABSA)、立场识别、讽刺识别。

  • 三分类
  • 细粒度
  • 方面级
  • 立场

意图与槽位

多轮对话意图分类、槽位填充、上下文消解、指代消解、对话状态跟踪,智能客服 / 助手专项。

  • 意图分类
  • 槽位填充
  • 多轮上下文
  • 指代消解

分类 / 摘要 / 纠错

文本分类、相似度判定、抽取式 / 生成式摘要、语法纠错、校对、改写、平行语料对齐。

  • 分类
  • 相似度
  • 摘要
  • 纠错

大模型专用

SFT 监督样本、RM 奖励模型偏好对、RLHF / DPO 偏好排序、安全 / 幻觉治理、平行语料对齐。

  • SFT
  • RM
  • DPO 偏好
  • 安全治理
8 行业垂直语料

专业团队 · 专业术语 · 专业规范

不同行业的术语体系完全不同,我们用对应行业背景的标注团队,从源头保证术语一致性。

金融

财报、研报、招股书、舆情、合规文本,金融实体与事件抽取。

法律

合同条款、判决书、案由抽取、法条引用、法律实体与关系。

医疗

电子病历、影像报告、医学文献、药品 / 疾病 / 症状实体体系。

政务

政策文件、办事指南、12345 工单、政务实体与意图。

教育

题库标注、知识点抽取、学科树挂载、作答评分。

电商

商品属性抽取、评论挖掘、SKU 归一化、品类树挂载。

汽车

车机指令、用户手册、故障描述、零部件术语体系。

制造

工艺文档、设备型号、故障代码、巡检记录术语标准化。

标注规格

规范明确 · schema 可定制

规格项能力描述
输出格式JSONL / CoNLL / IOB2 / BRAT / BIO / Spans + 自定义
schema 定义客户自定义实体 / 关系 / 事件体系,支持嵌套与多层级
一致性指标双盲一致性 ≥ 0.86,关键字段全检
评估指标F1 / Precision / Recall / Accuracy / BLEU / ROUGE / 自定义
NER 准确度F1 ≥ 0.92 通用实体;行业实体可对齐客户基线
语言覆盖中、英、日、韩、东南亚多语种与小语种平行语料
大模型样本SFT / RM / DPO 偏好对、安全 / 幻觉评测、平行语料
四级质检闭环

双盲交叉 + 终审 · 杜绝主观偏差

文本标注最大的风险是主观差异——同一句话不同标注员的判定常出现 10-20% 的分歧。我们用双盲交叉 + 仲裁 + 终审,把分歧压在交付之前。

L1

双盲标注

同一样本由两名独立标注员盲标,自动比对差异。

L2

差异仲裁

差异样本进入仲裁队列,由资深标注员判定。

L3

三级全检

独立质控团队全检关键字段,IAA 不达标整批退回。

F

终审 Final Review

交付前对边界与歧义样本最终把关,对齐客户验收口径。

文本标注作业现场

大模型 SFT / RM 样本试标 · 24 小时内回报告

提交 5-20 条样本文本 + schema 或参考样例,我们 24 小时内回传带质检报告的试标结果。