大模型安全评测

更新时间：2026-04-07

平台概述

大模型安全评测平台以国家网信办等七部门联合公布的《生成式人工智能服务管理办法》和网安标委的《生成式人工智能服务安全基本要求》为基础，针对性构造评测框架、数据与标准，对大模型进行安全评测，以达到检测大模型安全漏洞，推动大模型安全风控升级，促进大模型生态健康发展的效果。

1. 数据集类型丰富

产品储备了丰富的测试数据集，总数达到500 万以上，覆盖文本、图片、音视频等多模态评测数据。对全部评测数据进行精细化分类运营管理，各类数据集作用具备较强针对性，具体数据集类型如下：

2. 无限次构造数据集

通过构建毒性增强和Prompt改写大模型，形成具有全面性、多样性、对抗性的大模型安全评测数据集；基于此技术可支持无限次构建、改写风险Prompt，以及Prompt毒性增强。

Prompt毒性增强：基于自然语言处理与对抗式生成技术，针对输入的一般问题，通过攻击策略适配、语义恶意强化、场景破壁渗透等机制，将常规问题转化为不同高级攻击类型的高毒性Prompt，丰富大模型安全评测维度。目前可支持近 30 余种
Prompt改写/仿写：依托自然语言处理与深度学习技术，针对输入问题文本进行语义理解与解析，确定风险类别，再通过语义扩展和同类事件检索，动态生成同类风险、句式多样的衍生问题，问题可覆盖多场景。目前可通过改写大模型对prompt、关键词、文章段落进行改写。

3. 高准召自动化标注效果

评测平台以高度自动化、和高度准确率的要求建立评测结系统，有效提高标注效率，对于标注结果还可智能生成原因解释、可视化数据看板以及分析报告。

全面自动化测试评估：平台支持自动化评估测试、自动生成评测依据和风险定位、自动生成评测结果分析及详细安全测试报告。告别传统人工测试的繁琐流程与主观判断偏差，大幅缩减人力投入与时间成本，实现风险溯源可视化、问题定位精准化，有效规避风险遗漏、误判漏判等问题；评测依据、结果分析全程自动生成，无需人工梳理编撰，提升报告产出效率与规范性，同时降低因安全漏洞引发的业务风险与合规隐患。
自动化标注高准确率：标注模型可结合上下文语义理解、内容类型解析，综合判断QA对风险，输出风险标签，并对风险内容关联判定结果进行说明。在标注输出中明确引用相关法律法规、政策条款或行业标准，辅助后续复核、策略整改与合规审核，准确率达到 95%以上。

目前大模型安全评测平台可适用于以下评测场景：

评价此篇文章

有帮助没帮助