首页/服务能力/数据标注/文本标注

数据标注 · 文本

为 NLP / 大模型精标结构化语义

从基础语言学标注到大模型 SFT / RM 偏好对，覆盖 NLP 全任务体系。八大垂直行业语料团队 + 双盲一致性 ≥ 0.86，把零散文本转化为可直接训练的结构化数据。

NER F1 ≥ 0.92

大模型 SFT / RM 专属团队

8 行业垂直语料

多语言支持

免费试标 → 预约方案咨询

六大标注品类

从词法句法到大模型对齐

从最底层的语言学标注，到大模型 SFT / RM / 偏好对齐，统一团队、统一规范。

基础标注

中文分词、词性标注（POS）、句法分析、依存关系，覆盖现代汉语 + 古文 + 网络文本。

分词
词性
句法
依存

命名实体识别 NER

人名、地名、机构名、时间、金额、型号、产品、专业术语，行业自定义实体体系无上限。

通用实体
嵌套实体
关系抽取
事件抽取

情感分析

正面 / 负面 / 中性三分类，含细粒度强度、方面级情感（ABSA）、立场识别、讽刺识别。

三分类
细粒度
方面级
立场

意图与槽位

多轮对话意图分类、槽位填充、上下文消解、指代消解、对话状态跟踪，智能客服 / 助手专项。

意图分类
槽位填充
多轮上下文
指代消解

分类 / 摘要 / 纠错

文本分类、相似度判定、抽取式 / 生成式摘要、语法纠错、校对、改写、平行语料对齐。

分类
相似度
摘要
纠错

大模型专用

SFT 监督样本、RM 奖励模型偏好对、RLHF / DPO 偏好排序、安全 / 幻觉治理、平行语料对齐。

SFT
RM
DPO 偏好
安全治理

8 行业垂直语料

专业团队 · 专业术语 · 专业规范

不同行业的术语体系完全不同，我们用对应行业背景的标注团队，从源头保证术语一致性。

金

金融

财报、研报、招股书、舆情、合规文本，金融实体与事件抽取。

法

法律

合同条款、判决书、案由抽取、法条引用、法律实体与关系。

医

医疗

电子病历、影像报告、医学文献、药品 / 疾病 / 症状实体体系。

政

政务

政策文件、办事指南、12345 工单、政务实体与意图。

教

教育

题库标注、知识点抽取、学科树挂载、作答评分。

商

电商

商品属性抽取、评论挖掘、SKU 归一化、品类树挂载。

车

汽车

车机指令、用户手册、故障描述、零部件术语体系。

造

制造

工艺文档、设备型号、故障代码、巡检记录术语标准化。

标注规格

规范明确 · schema 可定制

规格项	能力描述
输出格式	JSONL / CoNLL / IOB2 / BRAT / BIO / Spans + 自定义
schema 定义	客户自定义实体 / 关系 / 事件体系，支持嵌套与多层级
一致性指标	双盲一致性 ≥ 0.86，关键字段全检
评估指标	F1 / Precision / Recall / Accuracy / BLEU / ROUGE / 自定义
NER 准确度	F1 ≥ 0.92 通用实体；行业实体可对齐客户基线
语言覆盖	中、英、日、韩、东南亚多语种与小语种平行语料
大模型样本	SFT / RM / DPO 偏好对、安全 / 幻觉评测、平行语料

四级质检闭环

双盲交叉 + 终审 · 杜绝主观偏差

文本标注最大的风险是主观差异——同一句话不同标注员的判定常出现 10-20% 的分歧。我们用双盲交叉 + 仲裁 + 终审，把分歧压在交付之前。

双盲标注

同一样本由两名独立标注员盲标，自动比对差异。

差异仲裁

差异样本进入仲裁队列，由资深标注员判定。

三级全检

独立质控团队全检关键字段，IAA 不达标整批退回。

终审 Final Review

交付前对边界与歧义样本最终把关，对齐客户验收口径。