融合前沿视觉理解技术、自然语言处理能力和跨模态对齐技术,实现对文本、图像、视频等多种形式内容的全方位安全防护。
对大模型的输入输出,提供包含涉政、违法、犯罪、不良价值观、提示词注入等多维度安全审核和处置能力。
针对英文等多语种输入内容,通过安全算子和名单服务可有效识别内容中存在的各类风险。
针对多轮对话中的指代不明、主语缺失等问题,进行对话内容改写,补全本次对话信息。
针对对话中的涉政(如领导人相关)问题时,提供标准的回复内容,保证内容客观、政治中立、准确全面。
针对不良价值观、涉黄、一般涉政、攻击涉政、违法犯罪等提问,通过安全大模型提供合法合规的回答。
提供可应对突发安全事件的多种干预能力,如语义干预、文本干预、关键词干预等诸多服务能力。
构建覆盖政府网站/官媒/百科知识的信任域检索库,按官方口径准确回答涉政/热点舆情等安全范畴问题,避免大模型因幻觉引起的风险内容生成。
支持通过“大模型安全评测+安全对齐+安全防护+安全知识增强”提供服务闭环,完成内生安全增强。
区别传统内容审核,构建AIGC场景特色安全能力
通过多模态对齐、视觉理解和鲁棒性增强,实现对图像、视频和文本的综合安全审核。
有效检测通过多轮对话、主语缺省等方式进行的恶意指代攻击。
针对社会主义核心价值观、常识类问题,保障生成内容的客观、准确、全面。
针对不良价值观、涉黄、违法犯罪等安全问题,降低大模型拒答率,支持风险问题的正向引导和纠偏。
有效识别提示目标劫持注入、提示泄露、越狱攻击等攻击方式。
支持AIPC、手机、平板、边缘盒子等终端离线环境运行,生成内容安全检查时无需联网
百度二十余年安全对抗总结,实施多个大模型内容安全防护项目。
01积极渗透AI最新应用领域,推出多模态和端侧内容安全解决方案。
02全方位识别恶意指代、注入攻击、意识形态等AIGC场景攻击方式。
03构建蓝军评测体系,通过攻防对抗持续提升安全防护能力。
04针对社会主义核心价值观、高敏感类问题,提供优质的代答能力,提升用户体验。
05适用于云端全功能的生成式大模型,构建了一套功能完备、服务全面的大模型内容安全产品矩阵,支持客户开箱即用的构建大模型安全能力,重点解决第三方大模型在面临生成内容合规、大模型上线备案、大模型内生安全提升、 大模型运营常态化风险收敛等安全问题。
面向低算力的终端大模型安全解决方案,支持离线环境运行、生成内容安全检查时无需联网,用超低响应时间满足终端设备的极速体验需求,并基于纯语义审核方案,终端0敏感词加载,降低因终端产品破解,敏感词泄漏曝光的舆情风险。全线支持X86,ARM架构,原生支持Linux,Android平台,并全面支持国产化适配
公有云服务 & 私有化部署
版本 | SaaS服务Turbo版 | 私有化部署Turbo版 | 私有化部署Lite版 |
---|---|---|---|
文本prompt审核 | |||
多模态内容审核 | |||
红线知识库 | |||
红线安全大模型 | - | ||
多轮改写 | - | ||
检索增强 | - | ||
英文安全模块 | |||
生成内容检测 | |||
回复干预 | |||
管理平台 |