产品功能

更新时间：2026-03-26

大模型安全护栏

多语种安全：针对英文等多语种输入内容，通过安全算子和名单服务可有效识别内容中存在的各类风险。
多轮改写服务：针对多轮对话中的指代不明、主语缺失等问题，进行对话内容改写，补全本次对话信息。
Prompt审核服务：提供包含涉政、违法、犯罪、不良价值观、提示词注入等多维度安全审核能力。
红线知识库服务：针对对话中的涉政如领导人相关问题时，提供标准的回复内容，保障内容客观、政治中立、准确全面。
安全大模型代答：针对不良价值观、涉黄、一般涉政、攻击涉政违法犯罪等提问，通过安全大模型提供合法合规的回答。
回复干预：提供可应对突发安全事件的多种干预能力，如语义干预、文本干预、关键词干预等诸多服务能力。
输出安全检测服务：对大模型输出内容进行内容审核，提供兜底回复、不上屏等处置方案。
信任域RAG：构建覆盖政府网站/官媒/百科知识的信任域检索库，按官方口径准确回答涉政/热点舆情等安全范畴问题，避免大模型因为幻觉引起的风险内容生成。
内生安全增强：支持通过“大模型安全评测+安全对齐+安全防护+安全知识增强”提供服务闭环，完成内生安全增强。
内容安全评测：从多角度对于大模型服务展开安全评测，涵盖数十万的评测数据集以及高级提示词攻击指令，全方位对大模型服务做安全评测，并产出详细内容安全评报告。

大模型安全评测

评测数据构造：支持根据风险分类、攻击类型、多模态场景等维度自动生成标准化评测数据；同时支持自定义数据上传，并可通过改写模型按需生成定向评测数据集，满足多样化评测需求。
自动化评测标注：支持对模型输入输出内容进行自动化标注与智能分析，结合上下文语义综合判断回答安全性，自动生成可追溯、可核验的评测依据。
策略配置管理：支持针对待测模型与智能体进行灵活配置，包括自定义关键词词表、标注策略规则及基础运行参数，实现精细化评测管控。
自动化生成评测报告：基于评测标注结果自动生成大模型安全评测报告，涵盖风险问题识别、问题分析与优化建议，并以可视化图表呈现；报告支持在线查看、导出下载与自定义编辑。
数据统计可视化看板：提供评测任务全维度数据可视化看板，支持测试结果统计、风险趋势分析与异常问题快速定位，直观呈现模型安全能力与风险分布。
舆情风险事件监测：基于境内外全量新闻资讯与热点事件智能聚合，实时生成每日高风险舆情榜单，并自动构建标准化舆情风险测试样本，为系统安全与内容风控提供精准测试支撑。

评价此篇文章

有帮助没帮助

产品介绍

产品优势

百度智能云

大模型安全护栏 AIGC_SEC

大模型安全护栏 AIGC_SEC

产品功能

大模型安全护栏

大模型安全评测