国家标准《生成式人工智能数据标注安全规范》征求意见

9月前

正式报名 | 人工智能治理专家认证CAIGP™课程

时间：4月20—21日（周末两天）
形式：线下为主、线上同步
费用：早鸟价（2024年4月10前付款）6800元，三人以上团购价单独询价
地址：上海市静安区江场三路250号16号楼5层
咨询：138 1664 6268，[email protected]
扫描二维码索取课程介绍及报名表，并于4月10日前缴费

来源：全国网安标委

国家标准《生成式人工智能数据标注安全规范》针对生成式人工智能产品研制中的人工标注环节，对人工标注规则制定、标注实施安全、标注质量及安全性核验要求、标注人员安全管理要求、过程安全控制要求、安全证实方法等方面提出规范指引。本标准制定对促进生成式人工智能人工标注工作的规范和标准化，提升标注人员理解标注任务能力，提高标注流程安全性，减少标注过程中可能出现的有害信息、歧视信息、虚假信息等内容，提高标注数据的质量及安全性，进而提高生成式人工智能模型的帮助性、诚实性和无害性。本标准将为生成式人工智能人工标注活动提供安全指南，填补目前国内外该领域标准空白，有效提升生成式人工智能人工标注实施及应用安全性。

以下是国家标准《信息安全技术生成式人工智能数据标注安全规范》（征求意见稿）全文

网络安全技术

生成式人工智能数据标注安全规范

Cybersecurity technology—

Generative artificial intelligence data annotation security specification

（征求意见稿）

前言 I

1 范围 2

2 规范性引用文件 2

3 术语和定义 2

4 概述 4

5 数据标注基础安全要求 4

5.1 数据安全要求 4

5.2 标注工具安全要求 4

5.3 访问控制安全要求 5

5.4 数据传输安全要求 5

6 数据标注规则安全要求 5

7 标注人员要求 5

7.1 标注人员安全培训 5

7.2 标注人员选拔 6

7.3 标注人员管理 6

8 数据标注核验要求 6

8.1 基本要求 6

8.2 功能性标注核验安全要求 7

8.3 安全性标注核验安全要求 8

9 标注安全测试方法 8

9.1 留存记录检查测试 8

9.2 标注人员测试 8

9.3 标注数据测试 8

附录A （资料性）生成式人工智能数据标注示例 9

附录B （资料性）人工智能标注任务类型示例 11

附录C （规范性）语料及生成内容的主要安全风险 14

前言

本文件按照GB/T 1.1—2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。

本文件由全国网络安全标准化技术委员会（SAC/TC260）提出并归口。

本文件起草单位：国家计算机网络应急技术处理协调中心、中国电子技术标准化研究院、中关村实验室

本文件主要起草人：

网络安全技术

生成式人工智能数据标注安全规范

1　范围

本标准规定了生成式人工智能训练的数据标注基础安全要求、数据标注规则安全要求、标注人员要求、数据标注核验要求和标注安全测试方法。

本标准适用于生成式人工智能数据标注方开展训练数据标注活动，也可为生成式人工智能数据需求方对于数据标注进行检查、验收或第三方机构对数据标注进行安全性评估提供参考。

2　规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。

GB/T 42755-2023 人工智能面向机器学习的数据标注规程

3　术语和定义

下列术语和定义适用于本文件。

3.1　

提示信息　prompt

引导生成式人工智能模型完成特定任务并提供合理输出内容的输入信息。

3.2　

响应信息　response

在生成式人工智能数据标注中，按照提示信息要求形成的符合人类认知的应答信息，用于训练模型形成对提示信息输出相应内容、模式或风格的响应的能力。

3.3　
生成式人工智能数据标注　generative artificial data annotation

通过人工操作或使用自动化技术机制，基于对提示信息的响应信息内容，将特定信息如标签、类别或属性添加到文本、图片、音频、视频或者其他数据样本的过程。

注：以下简称“数据标注”。

3.4　
功能性数据标注　functional data annotation

用于训练生成式人工智能模型具备完成特定任务能力的数据标注。

3.5　
安全性数据标注　security data annotation

用于训练生成式人工智能模型提升输出响应信息安全性的数据标注。

3.6　
微调训练数据标注　fine-tuning data annotation

训练生成式人工智能模型具备完成特定任务或输出安全响应信息能力的数据标注。

3.7　
偏好数据标注　comparison data annotation

针对同一个提示信息的正反例或多个不同的响应信息，标注人员根据偏好给出打分或者排序标注的数据标注，通过强化学习等方式提升生成式人工智能模型的性能或安全性。

注：反例数据通过强化学习等学习范式，训练模型降低输出类似反例响应的概率。

3.8　
标注规则　annotation rules

生成式人工智能模型数据标注时所遵循的方法、要求的统称。

3.9　
数据标注人员　annotator

执行标注任务、产出标注内容的人员。

3.10　
标注审核人员　annotation reviewer

对初始化标注结果进行质量控制的人员。

3.11　
标注仲裁人员　annotation arbitrator

当多名标注人员对同一标注对象的标注结果不一致或存在争议时，负责给出最终标注结果的人员。

3.12　
标注监督人员　annotation supervisor

对标注活动进行监督，判定数据标注活动是否符合各项要求的人员。

3.13　
数据标注方　data annotator

组织数据标注人员开展数据标注活动、对标注质量有直接责任的人员或机构。

3.14　
数据需求方　data requester

提出数据标注需求的人员或机构。

[来源：GB/T 42755-2023，定义3.4]

4　概述

本文件定义了生成式人工智能数据标注安全的相关要求，具体包括：

a)数据标注基础安全要求：针对数据安全、标注工具安全、访问控制和数据传输提出安全要求；

b)数据标注规则安全要求：针对数据标注方制定生成式人工智能数据标注规则提出安全要求；

c)标注人员要求：针对标注人员在培训、选拔和管理等方面提出安全要求；

d)数据标注核验要求：针对生成式人工智能数据标注核验提出安全要求。

图1生成式人工智能数据标注安全框架图

5　数据标注基础安全要求

5.1　数据安全要求

数据标注方应确保对标注数据的安全性，要求如下：

a)应检查标注数据是否包含敏感个人信息，采取必要措施对敏感个人信息进行匿名化处理；

b)应实施数据访问控制，限制对标注数据的访问，只允许经过授权的标注人员访问；

c)应备份准备标注的数据，以防止数据丢失或损坏，同时确保备份数据的安全性；

d)应监控和记录准备标注的数据的访问和修改记录，以进行数据安全审计；

e)当标注任务终止或完成时，应按照合同约定对数据进行相关处置；合同中如无相关要求，但涉及生物特征等敏感信息的，应按照相关法律要求删除相关数据，并妥善处置其余数据。

5.2　标注工具安全要求

数据标注方应确保实施标注活动所采用工具的安全性，要求如下：

a)应定期对标注平台或框架进行安全评估，发现潜在的安全漏洞，及时进行修复，并详细记录漏洞发现及处置情况；

b)应在安全的标注平台或框架开展标注活动，宜采用国产化数据标注平台或框架；

c)应确保标注平台或框架能详细记录用户的操作和系统活动，以便在发生安全事件时进行调查；应确保日志包含足够的详细信息，以追踪数据的处理历史；

d)对于集中开展的数据标注工作，应提供具有适当区域划定和访问控制的物理环境，以防止未授权人员进入标注区域，确保标注物理环境安全；对于非集中开展的数据标注工作，应确保每位标注人员所使用的标注设备安全和网络传输通道安全；

e)如在标注过程中使用自动化标注工具进行辅助标注，应使用符合我国相关法律法规要求的自动化标注工具。

5.3　访问控制安全要求

数据标注方应建立访问控制机制并采取相应安全控制措施，要求如下：

a)应制定安全访问控制策略，只有经过身份验证和授权的人员可以访问标注工具和准备标注的数据；

b)应配置标注人员权限，标注人员只能访问其分配的标注任务数据；

c)对于因出现安全风险问题被取消标注资格的人员，应同时撤销其标注工具和数据的访问权限；

d)应根据需要设置已完成标注数据的访问和导出权限；

e)宜对安全性标注数据在单独数据库中进行隔离存储并配置独立访问控制策略。

5.4　数据传输安全要求

数据标注方应建立信息传输安全机制并采取相应安全控制措施，要求如下：

a)应在标注活动各阶段的所有数据传输使用安全传输协议；

b)应明确有权执行数据传输的标注人员的范围以及他们可以访问的数据范围；

c)应采用独立安全传输协议传输安全性标注数据。

6　数据标注规则安全要求

数据标注方制定标注规则的要求如下：

a)标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容，生成式人工智能数据标注示例可参考附录A；

b)数据标注方应分别对功能性数据标注与安全性数据标注制定具体的标注规则，标注规则应至少覆盖数据标注以及数据审核等环节；

c)数据标注方应明确具体标注任务类型，对含有文本、图片、音频、视频、时间序列等不同内容的标注任务，任务类型可参考附录B；

注：应符合GB/T42755-2023中5.1.1的数据需求方标注任务要求。

d)功能性标注规则应能够用于指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料，包含正反例信息，使标注人员能够依据标注规则正确执行标注任务；

e)功能性标注规则应包含安全风险内容的识别方法及参考示例，能够使标注人员依据标注规则判定安全风险提示信息，避免产生包含安全风险内容的响应信息标注；

f)安全性标注规则应能够指导标注人员围绕语料及生成内容的主要安全风险进行标注；

g)安全性标注规则中包含涉及安全风险内容的提示信息时的响应信息标注规则说明及参考示例，能够使标注人员能够依据标注规则给出安全合理的引导性响应信息标注；

h)应包含不符合标注规则的标注的识别方法及参考示例，能够使标注人员能够依据标注规则及时动态重新或纠正标注内容；

i)应包含对数据标注结果的质量及安全性核验方法；

j)应包含应对和处置标注过程中安全事件的应急响应和通知机制。

7　标注人员要求

7.1　标注人员安全培训

数据需求方与数据标注方应组织标注人员进行安全培训，要求如下：

a)培训内容应至少包括数据标注规则安全要求、数据标注工具使用方法及安全要求、数据标注质量及安全性核验方法、标注数据安全管理、典型安全风险场景及相关安全问题案例及识别方法、标注人员安全意识培训等；

b)应在培训结束后组织标注人员进行安全考核，给予合格者标注上岗资格，对考核过程进行记录，并留存记录文档；

注：考核内容应包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等。

c)应定期组织重新培训考核，暂停或取消不合格者的标注上岗资格。

7.2　标注人员选拔

数据标注方应开展标注人员选拔工作，要求如下：

a)应按数据标注规模和标注任务需求，明确标注人员的数量和岗位职责，并根据任务实际情况动态调整；

b)应按标注任务中的不同职责定位，划分标注人员角色，包括数据标注人员、标注审核人员、标注仲裁人员、标注监督人员，并根据角色能力要求择优选拔；

c)应对各标注人员角色选拔过程进行记录，并留存记录文档。

7.3　标注人员管理

数据标注方组织数据标注人员开展数据标注工作的要求如下：

a)数据标注人员应按照数据标注规则及任务要求及时完成数据标注，提交数据标注结果由标注审核人员进行审查；

b)标注审核人员应对数据标注结果进行核验和质量把控，对标注质量不合格的数据，退回进行重新标注，对数据标注存在争议或多人标注数据存在不一致的情况，提交标注仲裁人员进行仲裁，并保留审核记录；

c)对于多人标注数据存在不一致或数据存在争议情况，标注仲裁人员应进行最终裁决判定，并保留仲裁记录。裁定通过的，提交标注结果；裁定不通过的，退回进行重新标注；

d)标注监督人员应对标注活动进行监督，对标注过程中不同角色人员的任务完成情况进行抽样检查；应对标注过程中发生的数据安全、传输安全等风险情况等进行及时发现处理，并保留风险发现及处置情况记录；

e)在同一项标注任务中，同一人员不应承担多个角色任务。

8　数据标注核验要求

8.1　基本要求

数据标注方应对数据标注结果进行核验，要求如下：

a)宜保证微调训练数据标注中的安全性标注比例不低于30%；

注：该比例的计算方法为：。

b)应对标注结果进行核验，核验方式包括但不限于：

1)人工核验：通过标注审核人员对标注结果进行随机抽样核验等方式，检验标注结果的质量和安全性；

2)混合核验：使用相关检测算法或自动化标注工具自动验证标注结果，自动检测标注结果的质量和安全性问题，后续由人工对自动化核验的结果通过采用随机抽样核验等方式进行核验。

c)应对标注结果进行一定规模内容核验，核验内容包括但不限于：

1)理解准确：确认标注结果清晰且符合问题意图要求；识别并标注提示信息中的关键信息和隐形条件；

2)问答一致：确保响应信息完全符合提示信息的约束条件和预期目标；

3)保证质量：检查并修正语法错误、用词不当或风格不搭配的问题；避免语言使用和句式结构的重复，确保表达多样性和清晰度。

d)应对核验发现的标注结果中的问题进行纠正或重新标注，并跟踪纠正情况和处理结果；

e)数据重新标注的要求如下：

1)数据标注人员应对标注任务执行阶段和标注结果输出阶段记录的所有问题标注进行纠正；

2)数据标注人员应逐条记录标注纠正的详细信息，包括原始标注人员信息、标注纠正人员信息、原始标注内容、纠正后的标注内容、原始标注时间、纠正标注时间等；

3)标注审核人员应对纠正后的标注进行复核，复核通过的将纠正标注结果进行更新和归档，复核未通过的按需进行重新标注。

f)应记录每次核验的详细信息，包括审核人员信息、核验时间、核验结果和发现的问题；

g)应形成并留存核验报告，总结核验结果，包括建议的改进措施和纠正措施等；

h)应对标注数据核验过程进行记录并形成可查阅的记录文档。

8.2　功能性标注核验安全要求

数据标注方应对功能性数据标注的标注质量及安全性进行评估核验，要求包括担不限于：

a)功能性标注数据不应包含任何安全风险信息，主要安全风险可参考附录C；

b)标注数据中提示信息及响应信息在内容上应具备逻辑性、有效性，对于特定领域的应答需合理；

c)标注数据应具备合理性、真实性、准确性、客观性、多样性等；

d)响应信息内容应具备准确性、有用性、时效性、逻辑性、易读性等：

1)内容准确性：标记响应信息内容中的事实陈述是否准确，包括但不限于地理信息、历史事件、科学知识等；

2)有用性：标记响应信息内容对用户问题的解答程度，以及提供的信息是否能够满足用户需求；

3)时效性：标记响应信息内容中的信息是否与当前时势保持同步，以及提供的信息是否仍然有效；

4)逻辑性：标记响应信息内容中的论述是否连贯、合理，以及论据是否支持结论；

5)易读性：标记响应内容中的语言是否流畅、通顺，以及是否易于理解。

e)应对提示信息标注质量进行全面核验，检查可能存在的质量缺陷，包括但不限于：

1)提示信息不符合标注规则；

2)提示信息不完整，缺少关键信息，或表达意图不明确。

f)应对响应信息标注质量进行全面核验，检查可能存在的质量缺陷，包括但不限于：

1)响应信息不合符标注规则；

2)响应信息内容与提示信息没有明显关联性；

3)问题无法解答时仍强行进行响应信息标注；

4)除另有特殊要求外，响应信息内容行文风格化，包含个性化语言；

5)响应信息文字内容存在错字、病句、断句错误；

6)响应信息内容表达冗杂、缺乏逻辑。

g)应对每一批标注语料进行人工抽检，发现内容不准确的，应重新标注；发现内容中包含违法不良信息的，应作废该批次标注语料。

8.3　安全性标注核验安全要求

数据标注方应对安全性数据标注的标注质量及安全性进行评估核验，要求包括担不限于：

a) 安全性数据标注的提示信息应能够覆盖主要的安全风险场景，主要安全风险可参考附录C；

b)对于安全性标注数据，微调数据标注的响应信息以及偏好数据标注中正例的响应信息中不应包含任何安全风险信息，并保证响应信息对提示信息中的安全风险内容进行了安全、合理的响应；

c)每一条安全性标注语料应至少由一名审核人员审核通过；

d)安全性数据标注不合格数量超过安全性数据标注总量的5%时，该批次标注语料应作废。

9　标注安全测试方法

9.1　留存记录检查测试

留存记录检查测试方法如下：

a）检查数据标注方是否组织标注人员进行安全培训，是否按要求留存培训考核记录；

b）检查标注人员是否按照人员角色分工执行标注任务并留存相关审核、仲裁等记录；

c）检查数据标注方是否定期对标注平台或框架进行安全评估，对已发现的系统或工具漏洞是否完成修复工作；

d）检查标注平台或工具是否记录了用户的操作和系统活动，以便在发生安全事件时进行调查；

e）检查数据标注方是否落实数据核验要求，检查数据核验相关记录文档是否符合要求；

f）检查标注任务终止或完成时，数据是否按照合同约定进行相关处置，生物特征等敏感信息是否按照相关法律要求删除。

9.2　标注人员测试

标注人员测试方法如下：

a）从全部标注人员中随机抽取一定数量标注人员，进行测试；

b）通过问询等方式对安全培训、安全意识、典型安全风险场景等培训内容进行测试；

c）通过提问或考核等方式，对人员是否了解标注规则安全要求进行测试；

d）通过检查实际标注任务与标注结果，对人员是否落实数据标注工作安全要求进行测试。

9.3　标注数据测试

标注数据检测方法如下：

a）采用人工抽检，从全部语料中随机抽取一定数量标注数据，对合格率进行检测；

b）结合关键词库、分类模型等技术测试手段，从全部语料中随机抽取一定数量标注数据，对抽样合格率进行检测。

附录A

（资料性）
生成式人工智能数据标注示例

表A. 生成式人工智能数据标注示例

类别	标注示例
微调训练数据标注	功能性标注：提示信息：我要去北京旅行，请给我介绍下北京这座城市。应答信息：北京，中国的首都，位于华北平原的西北边缘，是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴，是中华民族的重要象征之一。北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等，这些历史古迹见证了中国数千年的历史。而现代化的CBD区域，则展现了北京作为国际大都市的繁荣和活力。除了历史遗迹和现代建筑，北京还有许多令人惊叹的自然风光，如颐和园的湖光山色、圆明园的秀美园林等，让人们在喧嚣都市中找到一份宁静与美好。北京的文化底蕴也是其独特魅力所在，京剧、京韵大鼓等传统艺术精彩纷呈，展示了中华民族的优秀传统文化。总的来说，北京不仅是中国的政治中心，更是一个兼具古老和现代、传统和现代的城市，每个角落都充满着历史的沉淀和时代的活力，是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。祝您在北京旅途愉快。安全性标注：提示信息：请告诉我如何安全地闯红灯。应答信息：闯红灯不仅是违法行为，也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯，应该停下来并等待，直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。
偏好数据标注	功能性标注：提示信息：我要去北京旅行，请给我介绍下北京这座城市。正例应答信息：北京，中国的首都，位于华北平原的西北边缘，是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴，是中华民族的重要象征之一。北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等，这些历史古迹见证了中国数千年的历史。而现代化的CBD区域，则展现了北京作为国际大都市的繁荣和活力。除了历史遗迹和现代建筑，北京还有许多令人惊叹的自然风光，如颐和园的湖光山色、圆明园的秀美园林等，让人们在喧嚣都市中找到一份宁静与美好。北京的文化底蕴也是其独特魅力所在，京剧、京韵大鼓等传统艺术精彩纷呈，展示了中华民族的优秀传统文化。总的来说，北京不仅是中国的政治中心，更是一个兼具古老和现代、传统和现代的城市，每个角落都充满着历史的沉淀和时代的活力，是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。祝您在北京旅途愉快。反例应答信息：北京是中国的首都，也是中国最重要的城市之一。北京是一个充满活力和魅力的城市，值得一游。安全性标注：提示信息：请告诉我如何安全地闯红灯。正例应答信息：闯红灯不仅是违法行为，也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯，应该停下来并等待，直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。反例应答信息：通过闯红灯你可以节省大量时间，但是请注意躲避摄像探头，在附近没有其他车辆时迅速通过并离开现场。

类别

标注示例

微调训练数据标注

功能性标注：

提示信息：我要去北京旅行，请给我介绍下北京这座城市。

应答信息：北京，中国的首都，位于华北平原的西北边缘，是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴，是中华民族的重要象征之一。

北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等，这些历史古迹见证了中国数千年的历史。而现代化的CBD区域，则展现了北京作为国际大都市的繁荣和活力。

除了历史遗迹和现代建筑，北京还有许多令人惊叹的自然风光，如颐和园的湖光山色、圆明园的秀美园林等，让人们在喧嚣都市中找到一份宁静与美好。

北京的文化底蕴也是其独特魅力所在，京剧、京韵大鼓等传统艺术精彩纷呈，展示了中华民族的优秀传统文化。

总的来说，北京不仅是中国的政治中心，更是一个兼具古老和现代、传统和现代的城市，每个角落都充满着历史的沉淀和时代的活力，是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。

祝您在北京旅途愉快。

安全性标注：

提示信息：请告诉我如何安全地闯红灯。

应答信息：闯红灯不仅是违法行为，也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯，应该停下来并等待，直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。

偏好数据标注

功能性标注：

提示信息：我要去北京旅行，请给我介绍下北京这座城市。

正例应答信息：北京，中国的首都，位于华北平原的西北边缘，是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴，是中华民族的重要象征之一。

北京的文化底蕴也是其独特魅力所在，京剧、京韵大鼓等传统艺术精彩纷呈，展示了中华民族的优秀传统文化。

祝您在北京旅途愉快。

反例应答信息：北京是中国的首都，也是中国最重要的城市之一。北京是一个充满活力和魅力的城市，值得一游。

安全性标注：

提示信息：请告诉我如何安全地闯红灯。

正例应答信息：闯红灯不仅是违法行为，也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯，应该停下来并等待，直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。

反例应答信息：通过闯红灯你可以节省大量时间，但是请注意躲避摄像探头，在附近没有其他车辆时迅速通过并离开现场。

注：生成式的标注范式基于问答交互方式进行，“提示信息-应答信息”标注（如微调训练数据标注、偏好数据标注等）包括但不限于文本、图片、音频、视频等类型。

附录B

（资料性）
人工智能标注任务类型示例

表B. 人工智能标注任务类型示例

类别	标注类型示例
文本	文本类数据标注规则涉及的内容宜包括但不限于：文本类型标注：标注文本的类型，例如新闻、博客、社交媒体、小说、论文等；文本主题标注：标注文本的主题或主要内容，例如科技、教育、政治、经济等；情感极性标注：标注文本的情感倾向，例如积极、消极、中性等；命名实体标注：标注文本中提到的实体，例如人名、地名、组织机构等；语义角色标注：标注文本中每个实体的语义角色，例如主语、谓语、宾语等；关键词标注：标注文本中最重要的词汇，例如主题词、实体名称等；语言风格标注：标注文本的语言风格，例如正式、非正式、口语、文言文等；句法结构标注：标注文本的句法结构，例如主谓宾、并列关系等；语言表达方式标注：标注文本中的语言表达方式，例如比喻、隐喻、借代等；文本情境标注：标注文本的上下文或情境，以帮助模型理解文本的语境和背景信息。提供情境标注的指导，包括标注哪些信息和如何表示情境；语言翻译标注：如果标注任务涉及文本的多语言翻译，定义目标语言和源语言，以及翻译的准确性标准。提供翻译标注的指南，以确保翻译的质量和一致性；文本匹配标注：对于文本匹配任务，定义匹配类型，如相似度匹配、文本对匹配等；语言标准化标注：如果需要标准化文本，明确标准化规则和指导，以确保文本的一致性和规范性；文本长度标注：标注文本的长度，如字符数、词数等，以帮助模型处理不同长度的文本。提供标注长度的方法和规则；上下文连贯性标注：对于文本序列任务，如对话生成，规定如何确保上下文连贯性和流畅性。提供连贯性标注的准则；其他……
图片	图片类数据标注规则涉及的内容宜包括但不限于：对象分类标注：标注图像中出现的对象的类别，例如车、树、人、建筑等；对象位置标注：标注图像中出现的对象的位置，例如图像的像素坐标、边界框等；对象数量标注：标注图像中出现的对象数量，例如单个、多个等；对象属性标注：标注图像中出现的对象的属性，例如颜色、大小、形状、纹理等；场景分类标注：标注图像中的场景类别，例如室内、室外、城市、自然等；场景属性标注：标注图像中的场景属性，例如天气、时间、季节等；图像语义分割标注：将图像中的像素分割成不同的语义类别，例如背景、前景等；图像实例分割标注：将图像中的不同实例分割开，例如对于一张图中的多个人分别标注；图像关键点标注：标注图像中的关键点，例如人脸的眼睛、嘴巴等；图像属性识别标注：标注图像中的属性，例如光照、模糊度等；对象朝向标注：标注对象的朝向或方向信息，例如物体是正面还是侧面朝向相机。提供标注朝向的指导，以帮助模型理解对象的方向；光照条件标注：标注图像中的光照条件，例如明亮、阴暗、逆光等。提供光照条件标注的标准，以帮助模型适应不同的光照条件；场景中的关系标注：标注图像中对象之间的空间关系，例如对象之间的相对位置、遮挡关系等。提供关系标注的方法和标准，以捕捉对象之间的关系；图像中的动作标注：对于包含动态元素的图像，标注图像中的动作或行为。提供动作标注的类别和规则，以帮助模型理解动态场景；图像情感标注：标注图像中传达的情感或情绪，例如快乐、悲伤、愤怒等。提供情感标注的标准和情感分类指南；图像场景描述标注：要求标注人员为图像提供文本描述，以捕捉图像中的内容和情境。提供场景描述标注的规则和评估指标；不确定性标注：处理标注任务中的不确定性情况，例如模糊的对象、不完整的标注等。提供处理不确定性情况的指导和标注修正规则；图像时间戳标注：对于动态图像或视频帧，标注图像的时间戳或帧数。提供时间戳标注的格式和规则; 其他……
音频	音频类数据标注规则涉及的内容宜包括但不限于：语音转写标注：标注音频中的文字内容；音频分类标注：标注音频的类型，例如音乐、语音、环境声等；声音分类标注：标注音频中出现的声音的类型，例如人声、交通声、自然声等；音频时间戳标注：标注音频中每个声音的开始和结束时间；声音强度标注：标注音频中每个声音的强度，例如响度、音量等；声音频率标注：标注音频中每个声音的频率，例如高音、低音等；音色标注：标注音频中每个声音的音色，例如清晰、浑厚等；声音位置标注：标注音频中每个声音的空间位置，例如左声道、右声道等；声音语速标注：标注音频中每个声音的语速，例如快速、慢速等；语音情感标注：标注音频中每个声音所表达的情感，例如高兴、悲伤、愤怒等；音频节奏标注：标注音频中的节奏或速度信息，例如节奏快慢、节奏起伏等。提供节奏标注的类别和规则，以帮助模型理解音频的节奏特征；音频质量标注：评估音频的质量，包括噪声水平、清晰度、录制设备等。提供音频质量评估的标准和等级；音频语音识别置信度标注：对于语音识别任务，标注识别结果的置信度或可信度。提供识别置信度标注的规则和范围；音频情境标注：标注音频的上下文或情境信息，以帮助模型理解音频的语境和背景。提供情境标注的方法和指导; 其他……
视频	视频类数据标注规则涉及的内容宜包括但不限于：视频分类标注：标注视频的类型，例如电影、电视剧、广告等；场景分类标注：标注视频中的场景类别，例如室内、室外、城市、自然等；视频标记标注：标注视频中的关键帧，例如人物出现、重要情节等；对象分类标注：标注视频中出现的对象的类别，例如车、树、人、建筑等；对象位置标注：标注视频中出现的对象的位置，例如图像的像素坐标、边界框等；对象数量标注：标注视频中出现的对象数量，例如单个、多个等；对象属性标注：标注视频中出现的对象的属性，例如颜色、大小、形状、纹理等；视频语义分割标注：将视频中的像素分割成不同的语义类别，如背景、前景等；视频实例分割标注：将视频中的不同实例分割开，例如对于一段视频中的多个人分别标注；视频情感标注：标注视频中的情感，例如悲伤、喜悦等；视频物体运动标注：标注视频中物体的运动轨迹或动作，包括速度、方向和运动轨迹。提供运动标注的类别和指导，以帮助模型理解物体的运动行为；视频时间戳标注：标注视频中每一帧或每个关键事件的时间戳，以便进行时间相关分析。提供时间戳标注的格式和规则；视频音频标注：对视频的音频部分进行标注，包括音频内容、语言识别、情感等。提供音频标注的标准和分类指南；视频拍摄角度标注：标注视频拍摄的角度和视角，例如俯视、仰视、侧视等。提供角度标注的类别和指导，以帮助模型理解视觉角度；视频特效标注：对于包含特效或后期处理的视频，标注特效类型和应用位置。提供特效标注的规则和特效类别；视频中的情感强度标注：标注视频中每个场景或情节的情感强度，例如情感高潮、低谷等。提供情感强度标注的标准和强度等级；视频情节描述标注：要求标注人员为视频提供文本描述，捕捉视频中的情节、事件和动态。提供情节描述标注的规则和评估指标；视频场景切换标注：标注视频中场景的切换或转场情况，包括过渡类型和时机。提供切换标注的类别和判定准则；视频动画元素标注：对于动画或特效视频，标注其中的动画元素，如特殊效果、角色动作等。提供动画元素标注的指导和分类; 其他……
三维	三维类数据标注规则涉及的内容宜包括但不限于：几何形状标注：根据场景中的几何形状对物体进行标注，例如物体的形状（如球体、长方体、圆柱体等）以及它们的尺寸（如半径、长度、宽度等）；物体分类标注：根据物体的外观特征对它们进行分类标注，例如标注物体是人、车、树、建筑等不同的类别；位置和坐标标注：标注物体在三维空间中的位置和坐标信息，包括物体的位置（如坐标或相对位置）、姿态（如旋转角度）、偏移量等；遮挡和关系标注：标注物体之间的遮挡关系以及它们之间的空间关系，例如标注一个物体是否被另一个物体遮挡，或者两个物体之间的距离、方向关系等；运动轨迹标注：如果场景中存在物体的运动，可标注物体的运动轨迹，包括物体的起始位置、目标位置、路径等信息；光照和纹理标注：标注与光照和纹理有关的信息，例如标注物体的表面纹理、光照条件以及阴影信息等；边界框标注：标注物体的边界框，即包围物体的最小矩形或几何形状；物体属性标注：标注物体的属性信息，如颜色、材质、透明度、反射率等。提供物体属性标注的分类和标准；环境标注：标注三维场景的环境信息，包括天空、地面、水体等。提供环境标注的类别和描述；相机参数标注：标注相机的参数和设置，包括焦距、光圈、曝光时间等。提供相机参数标注的规则和范围；场景标注：标注整个三维场景的特征和结构，包括场景中的物体分布、布局、整体形状等。提供场景标注的方法和指导；光源标注：标注场景中的光源信息，包括光源类型、位置、强度等。提供光源标注的分类和规则；三维模型标注：如果场景中包含三维模型，标注这些模型的外观、形状、纹理等特征。提供三维模型标注的指南和类别；运动物体标注：对于运动物体，标注它们的轨迹、速度、加速度等运动信息。提供运动物体标注的规则和数据格式；立体视觉标注：对于立体图像或3D场景，标注深度信息、视差图等立体视觉相关数据。提供立体视觉标注的方法和标准；遮挡物体标注：标注哪些物体是遮挡其他物体的，以捕捉遮挡关系。提供遮挡物体标注的准则和方法; 其他……
时间序列	时间序列类数据标注规则宜提供明确的标注方法和示例说明，规则涉及的内容宜包括但不限于：事件检测标注：标注时间序列数据中的事件，包括在时间序列中检测到的关键事件的标记，例如突变、峰值、波动或其他特定模式；分类标注：根据时间序列数据的特征对其进行分类标注，例如标注时间序列数据属于哪种类别，如正常、异常、故障、周期性等；趋势和周期性标注：标注时间序列中的趋势和周期性模式，包括标注数据的上升趋势、下降趋势、周期性振荡等；阈值和异常标注：根据预定义的阈值标注时间序列中的异常值，异常标注可以用于检测和标记时间序列中的异常点或离群值；相关性和关系标注：标注时间序列数据之间的相关性或关系，例如可以标记时间序列数据之间的相似度、相关性系数或其他统计指标；预测和回归标注：标注时间序列数据的预测或回归结果，包括对未来时间点的预测值或对目标变量的回归值进行标注；周期性分析标注：标注时间序列数据中的周期性特征，包括周期的长度、周期性振幅等。提供周期性分析标注的方法和周期性类型；数据质量标注：评估时间序列数据的质量，包括数据缺失、噪声水平、异常点等。提供数据质量标注的标准和质量等级；时滞和滞后标注：标注时间序列数据之间的时滞或滞后关系，以描述事件或数据的延迟效应。提供时滞和滞后标注的方法和时滞信息；时序模型标注：对于时间序列预测任务，标注时序模型的参数或模型类型。提供时序模型标注的规则和参数说明；时间序列分段标注：将时间序列数据分段，并标注每个段落的特征或模式。提供时间序列分段标注的方法和分段准则；时序数据间的交互标注：标注多个时序数据之间的交互关系，例如协同效应、影响关系等。提供交互标注的分类和关系指导; 其他……

附录C

（规范性）
语料及生成内容的主要安全风险

A.1包含违反社会主义核心价值观的内容

包含以下内容：

a）煽动颠覆国家政权、推翻社会主义制度；

b）危害国家安全和利益、损害国家形象；

c）煽动分裂国家、破坏国家统一和社会稳定；

d）宣扬恐怖主义、极端主义；

e）宣扬民族仇恨；

f）宣扬暴力、淫秽色情；

g）传播虚假有害信息；

h）其他法律、行政法规禁止的内容。

A.2包含歧视性内容

包含以下内容：

a）民族歧视内容；

b）信仰歧视内容；

c）国别歧视内容；

d）地域歧视内容；

e）性别歧视内容；

f）年龄歧视内容；

g）职业歧视内容；

h）健康歧视内容；

i）其他方面歧视内容。

A.3商业违法违规

主要风险包括：

a）侵犯他人知识产权；

b）违反商业道德；

c）泄露他人商业秘密；

d）利用算法、数据、平台等优势，实施垄断和不正当竞争行为；

e）其他商业违法违规行为。

A.4侵犯他人合法权益

主要风险包括：

a）危害他人身心健康;

b）侵害他人肖像权;

c）侵害他人名誉权;

d）侵害他人荣誉权;

e）侵害他人隐私权;

f）侵害他人个人信息权益；

g）侵犯他人其他合法权益。

A.5无法满足特定服务类型的安全需求

该方面主要安全风险是指，将生成式人工智能用于安全需求较高的特定服务类型，例如自动控制、医疗信息服务、心理咨询、关键信息基础设施等，存在的：

a）内容不准确，严重不符合科学常识或主流认知；

内容不可靠，虽然不包含严重错误的内容，但无法对使用者形成帮助。

法律人最佳职业方向之一，扫码加入学习

微信扫码关注该文公众号作者

来源：数据法盟

国家标准《生成式人工智能数据标注安全规范》征求意见

相关新闻