针对英文等多语种输入内容,通过安全算子和名单服务可有效识别内容中存在的各类风险。
针对多轮对话中的指代不明、主语缺失等问题,进行对话内容改写,补全本次对话信息。
提供包含涉政、违法、犯罪、不良价值观、提示词注入等多维度安全审核能力。
针对对话中的涉政(如领导人相关)问题时,提供标准的回复内容,保证内容客观、政治中立、准确全面。
针对不良价值观、涉黄、一般涉政、攻击涉政、违法犯罪等提问,通过安全大模型提供合法合规的回答。
提供可应对突发安全事件的多种干预能力,如语义干预、文本干预、关键词干预等诸多服务能力。
对大模型输出内容进行内容审核,提供兜底回复、不上屏等处置方案。
构建覆盖政府网站/官媒/百科知识的信任域检索库,按官方口径准确回答涉政/热点舆情等安全范畴问题,避免大模型因幻觉引起的风险内容生成。
支持通过“大模型安全评测+安全对齐+安全防护+安全知识增强”提供服务闭环,完成内生安全增强。
区别传统内容审核,构建AIGC场景特色安全能力
有效识别提示目标劫持注入、提示泄露、越狱攻击等攻击方式。
有效检测通过多轮对话、主语缺省等方式进行的恶意指代攻击。
针对社会主义核心价值观、常识类问题,保障生成内容的客观、准确、全面。
针对不良价值观、涉黄、违法犯罪等安全问题,降低大模型拒答率,支持风险问题的正向引导和纠偏。
支持AIPC、手机、平板、边缘盒子等终端离线环境运行,生成内容安全检查时无需联网
百度二十余年安全对抗总结,实施多个大模型内容安全防护项目。
01全方位识别恶意指代、注入攻击、意识形态等AIGC场景攻击方式。
02构建蓝军评测体系,通过攻防对抗持续提升安全防护能力。
03针对社会主义核心价值观、高敏感类问题,提供优质的代答能力,提升用户体验。
04适用于云端全功能的生成式大模型,构建了一套功能完备、服务全面的大模型内容安全产品矩阵,支持客户开箱即用的构建大模型安全能力,重点解决第三方大模型在面临生成内容合规、大模型上线备案、大模型内生安全提升、 大模型运营常态化风险收敛等安全问题。
面向低算力的终端大模型安全解决方案,支持离线环境运行、生成内容安全检查时无需联网,用超低响应时间满足终端设备的极速体验需求,并基于纯语义审核方案,终端0敏感词加载,降低因终端产品破解,敏感词泄漏曝光的舆情风险。全线支持X86,ARM架构,原生支持Linux,Android平台,并全面支持国产化适配
公有云服务 & 私有化部署
版本 | SaaS服务Turbo版 | 私有化服务Turbo版 | 私有化服务Lite版 |
---|---|---|---|
prompt审核 | |||
红线知识库 | |||
红线安全大模型 | - | ||
多轮改写 | - | ||
检索增强 | - | ||
英文安全模块 | |||
生成内容检测 | |||
回复干预 | |||
管理平台 |