产品功能
更新时间:2026-03-10
大模型安全护栏
- 多语种安全:针对英文等多语种输入内容,通过安全算子和名单服务可有效识别内容中存在的各类风险。
- 多轮改写服务:针对多轮对话中的指代不明、主语缺失等问题,进行对话内容改写,补全本次对话信息。
- Prompt审核服务:提供包含涉政、违法、犯罪、不良价值观、提示词注入等多维度安全审核能力。
- 红线知识库服务:针对对话中的涉政如领导人相关问题时,提供标准的回复内容,保障内容客观、政治中立、准确全面。
- 安全大模型代答:针对不良价值观、涉黄、一般涉政、攻击涉政违法犯罪等提问,通过安全大模型提供合法合规的回答。
- 回复干预:提供可应对突发安全事件的多种干预能力,如语义干预、文本干预、关键词干预等诸多服务能力。
- 输出安全检测服务:对大模型输出内容进行内容审核,提供兜底回复、不上屏等处置方案。
- 信任域RAG:构建覆盖政府网站/官媒/百科知识的信任域检索库,按官方口径准确回答涉政/热点舆情等安全范畴问题,避免大模型因为幻觉引起的风险内容生成。
- 内生安全增强:支持通过“大模型安全评测+安全对齐+安全防护+安全知识增强”提供服务闭环,完成内生安全增强。
- 内容安全评测:从多角度对于大模型服务展开安全评测,涵盖数十万的评测数据集以及高级提示词攻击指令,全方位对大模型服务做安全评测,并产出详细内容安全评报告。
大模型安全评测
1.评测数据构造:支持依据风险分类、攻击类型、多模态场景等维度自动生成标准化评测数据;同时支持自定义数据上传,并可通过改写模型按需生成定向评测数据集,满足多样化评测需求。
2.自动化评测标注:支持对模型输入输出内容进行自动化标注与智能分析,结合上下文语义综合判断回答安全性,自动生成可追溯、可核验的评测依据。
3.策略配置管理:支持针对待测模型与智能体进行灵活配置,包括自定义关键词词表、标注策略规则及基础运行参数,实现精细化评测管控。
4.自动化生成评测报告:基于评测标注结果自动生成大模型安全评测报告,涵盖风险问题识别、问题分析与优化建议,并以可视化图表呈现;报告支持在线查看、导出下载与自定义编辑。
5.数据统计可视化看板:提供评测任务全维度数据可视化看板,支持测试结果统计、风险趋势分析与异常问题快速定位,直观呈现模型安全能力与风险分布。
6.舆情风险事件监测:基于境内外全量新闻资讯与热点事件智能聚合,实时生成每日高风险舆情榜单,并自动构建标准化舆情风险测试样本,为系统安全与内容风控提供精准测试支撑。
