大模型安全评测
更新时间:2026-04-07
平台概述
大模型安全评测平台以国家网信办等七部门联合公布的《生成式人工智能服务管理办法》和网安标委的《生成式人工智能服务安全基本要求》为基础,针对性构造评测框架、数据与标准,对大模型进行安全评测,以达到检测大模型安全漏洞,推动大模型安全风控升级,促进大模型生态健康发展的效果。
产品特点
1. 数据集类型丰富
产品储备了丰富的测试数据集,总数达到500 万以上,覆盖文本、图片、音视频等多模态评测数据。对全部评测数据进行精细化分类运营管理,各类数据集作用具备较强针对性,具体数据集类型如下:
- 基础自评估数据集:根据监管要求5 大类 31 小类风险类型制定评测框架,用于大模型的基础风险问题评估测试。
- 风险发现数据集:储备丰富的对抗攻击类型,支持近 30 种大模型对抗攻击测试,深入且有效发现模型潜在的安全风险,精准定位并提供优化建议
- 风险专项数据集:根据全年敏感风险专项事件建立的专项评测数据集,保证在关键时间周期内,大模型无风险暴露
- 每日舆情风险数据集:覆盖国内国际时政、时事、军事、财经等舆情风险,每日自动更新相关舆情风险测试样本,支持例行化评测
- 垂类风险数据集:支持金融、汽车等垂类领域风险评测,不同垂类领域测试数据,支持自定义构建
- 其他攻击数据集:包括过度代理、无限消费、敏感信息、幻觉等特殊的大模型攻击数测试数据
2. 无限次构造数据集
通过构建毒性增强和Prompt改写大模型,形成具有全面性、多样性、对抗性的大模型安全评测数据集;基于此技术可支持无限次构建、改写风险Prompt,以及Prompt毒性增强。
- Prompt毒性增强:基于自然语言处理与对抗式生成技术,针对输入的一般问题,通过攻击策略适配、语义恶意强化、场景破壁渗透等机制,将常规问题转化为不同高级攻击类型的高毒性Prompt,丰富大模型安全评测维度。目前可支持近 30 余种
- Prompt改写/仿写:依托自然语言处理与深度学习技术,针对输入问题文本进行语义理解与解析,确定风险类别,再通过语义扩展和同类事件检索,动态生成同类风险、句式多样的衍生问题,问题可覆盖多场景。目前可通过改写大模型对prompt、关键词、文章段落进行改写。
3. 高准召自动化标注效果
评测平台以高度自动化、和高度准确率的要求建立评测结系统,有效提高标注效率,对于标注结果还可智能生成原因解释、可视化数据看板以及分析报告。
- 全面自动化测试评估:平台支持自动化评估测试、自动生成评测依据和风险定位、自动生成评测结果分析及详细安全测试报告。告别传统人工测试的繁琐流程与主观判断偏差,大幅缩减人力投入与时间成本,实现风险溯源可视化、问题定位精准化,有效规避风险遗漏、误判漏判等问题;评测依据、结果分析全程自动生成,无需人工梳理编撰,提升报告产出效率与规范性,同时降低因安全漏洞引发的业务风险与合规隐患。
- 自动化标注高准确率:标注模型可结合上下文语义理解、内容类型解析,综合判断QA对风险,输出风险标签,并对风险内容关联判定结果进行说明。在标注输出中明确引用相关法律法规、政策条款或行业标准,辅助后续复核、策略整改与合规审核,准确率达到 95%以上。
适用场景
目前大模型安全评测平台可适用于以下评测场景:
- 【大模型上线备案】通过评测平台提供大模型备案需要的安全自评估测试及评估测试题集
- 【大模型安全运营】全方位评估测试大模型的内容安全效果,挖掘大模型回答问题时的安全风险并提供应对方案
成功案例
- 国内领先的汽车品牌:引入百度大模型内容安全评测能力后,对大模型基本安全能力进行风险摸底和深度评测。主动发现监管关注风险98%以上。
- 国内智能手机领军企业:支持定制化场景风险测试,构建符合业务要求的测试数据,深度测试发现业务中潜在风险并提供治理路径。
- 国内互联网厂商:生成隐蔽性、攻击性倍增的高风险样本,模型漏判率提升至基础样本的 3.2 倍,精准暴露安全盲区。
评价此篇文章
