产品介绍
产品介绍
AI 原生网关(AI Gateway,AIGW) 是百度智能云专为云原生 Kubernetes 环境及大规模 AI 应用场景打造的新一代流量管理与调度基础设施。
深入融合了 AI 业务特性,提供零侵入式的 AI 服务代理、多策略流量调度以及模型统一管理能力。作为连接 AI 应用(如 AI Agent、Copilot)与底层服务(如大模型、传统微服务)的关键桥梁,AIGW 致力于帮助企业解决 AI 时代下的服务接入、协议转换、安全治理与可观测性难题,现已成为生产级 AI 服务必备组件。

核心概念
在使用 AI 原生网关进行配置和管理之前,请您熟悉以下基本概念。这些概念构成了网关流量调度与治理的基础。
| 概念名称 | 英文名称 | 详细说明 |
|---|---|---|
| 网关实例 | Gateway Instance | AI 原生网关的运行实体。它是一个部署在云原生环境(Kubernetes)中、具备高可用特性的服务,负责承载和处理所有的入站流量,是流量进入企业 AI 架构的统一入口。 |
| MCP 服务 | MCP Service | 指在网关中注册的、遵循 Model Context Protocol 标准的服务资源。支持两种接入模式: 1. HTTP 转 MCP 模式:网关将后端现有的 HTTP 服务(基于 OpenAPI 定义)自动转换为 MCP 协议; 2. 直接代理模式:直接代理后端已经实现了 MCP 标准的原生服务。 MCP 服务是连接 AI Agent 与具体业务能力的桥梁。 |
| MCP 工具 | MCP Tool | 指 MCP 服务中包含的具体功能接口(Function)。一个 MCP 服务可以包含一个或多个 MCP 工具。例如,一个“订单 MCP 服务”下可能包含“查询订单”和“取消订单”两个工具。AI Agent 通过语义识别,最终调度和执行的粒度是“工具”。 |
| 模型推理服务 | Model Inference Service | 指后端服务为提供 AI 推理能力的模型推理服务。可以是公有云模型,也可以是企业内部部署在容器或百舸上的自建模型。网关负责向这些服务转发 Prompt 并获取推理结果。 |
| 后端服务 | Backend Service | 指企业传统的业务应用或微服务(如基于 K8s Service、DNS 或固定 IP 注册的服务)。它们通常承载具体的业务逻辑(如查询库存、订票),是 MCP 服务转换的目标对象,也是 AI Agent 最终操作的数据源。 |
| 自定义域名 | Custom Domain | 用户为网关实例绑定的对外访问域名(例如 ai-gateway.company.com)。配置自定义域名后,客户端可以通过该域名访问网关提供的所有服务。支持绑定 SSL 证书以实现 HTTPS 安全访问。 |
| 消费者 | Consumer | 指调用网关接口的客户端身份或应用实体。在网关中创建一个“消费者”,意味着为某个具体的业务方(如 App客户端、内部 Web 系统)分配了一个身份,用于后续的权限控制、流量追踪和账单统计。 |
| 消费者认证 | Consumer Auth | 用于验证“消费者”合法性的安全机制。网关支持多种认证策略(如 API Key 等)。只有通过认证的请求才会被允许进入网关并转发至后端服务,防止非法调用。 |
| Token 限流 | Token Rate Limiting | (AI 专用特性) 一种针对大模型场景的精细化流量控制机制。不同于传统网关基于请求数(QPS)的限流,该机制基于Token 数量(输入+输出)来限制访问速率,能更有效地控制模型调用成本并防止后端模型过载。 |
| 服务权重 | Service Weight | 用于多服务场景下的流量分配参数(0-100)。当一个路由关联了多个模型服务或后端服务时,网关会根据配置的权重比例,将流量按概率分发到不同的服务版本。常用于蓝绿发布、灰度测试或多模型负载均衡。 |
产品优势
AI 原生,深度适配大模型场景
不同于传统 API 网关简单转发 HTTP 流量,AI 原生网关在设计上充分考虑大模型调用的特殊性。内置 Token 用量统计、基于模型名称的流量路由、多模型负载均衡等能力,让大模型 API 管理从"能用"升级为"好用"。无论是对接云端商业模型还是私有化部署的推理服务,均可统一纳管。
MCP 协议原生支持,AI Agent 开发提速
支持 MCP(Model Context Protocol)协议,原生适配 AI Agent 应用架构。支持将已有 HTTP RESTful 服务零改造转换为标准 MCP 接口,大幅降低 AI Agent 工具接入门槛。开发者无需关注 MCP 协议细节,专注业务逻辑即可快速构建 Agent 工具链。
一站式安全治理,开箱即用
提供 API Key 消费者认证、IP 白名单、外部认证插件等多层次安全能力,从网关入口统一收口安全策略,避免各业务团队重复建设鉴权逻辑。消费者配额管控(Token 用量 + 请求次数双维度)有效防止 API 滥用,降低模型调用成本失控风险。
灵活的流量调度能力,支撑多种工程实践
支持按比例分流和按模型名称路由两种策略,轻松实现多模型 A/B 测试、跨供应商容灾切换。
深度融合百度智能云生态
原生对接容器引擎 CCE、函数计算 CFC、微服务引擎 MSE、百度日志服务 BLS、云监控 Prometheus 等百度智能云核心产品,无缝集成现有云上基础设施,无需额外适配,降低整体运维复杂度。
可扩展的插件机制,满足定制化诉求
允许开发者以标准 Go 代码编写自定义插件并动态加载,扩展网关能力而无需重启服务。外部认证插件支持将鉴权逻辑委托给自建服务,满足企业级合规要求。
全面的可观测性,运维有数可依
内置 Prometheus 指标采集与网关资源监控大盘,覆盖请求量、延迟分布、错误率、Token 消耗等关键指标。结合告警规则,异常情况第一时间感知。
应用场景
场景一:企业 AI 能力统一开放平台
背景: 企业内部多个业务团队需要调用大模型 API,但希望统一管控调用入口、分配调用配额、审计使用情况。
方案: 通过 AI 原生网关创建统一的 AI API 入口,为每个业务团队创建独立消费者并分配 Token 配额,所有请求经由网关路由至后端模型服务。网关层统一记录访问日志,运营团队通过监控实时掌握各团队的 Token 消耗与调用趋势,有效控制大模型使用成本。
场景二:多模型 A/B 测试与灰度切换
背景: AI 产品团队希望在不影响线上用户的前提下,对比多个模型版本(如 DeepSeek V2 与 DeepSeek V3)的效果,并按比例逐步迁移流量。
方案: 在 AI 原生网关中配置多服务路由,将两个模型服务配置为目标后端,按 10%/90% 的比例进行流量分发。通过监控大盘持续对比两个版本的延迟和错误率,确认新模型稳定后逐步调整权重至 100%,完成无感知灰度切换。
场景三:AI Agent 工具服务统一接入
背景: 团队基于 MCP 协议构建 AI Agent,需要将企业内部已有的 REST API(如数据库查询接口、CRM 系统接口)暴露为 Agent 可调用的工具。
方案: 利用 AI 原生网关的"HTTP 转 MCP"功能,将现有 RESTful 接口零改造接入为 MCP 服务,无需修改后端代码。结合消费者认证,确保只有已授权的 Agent 应用才能调用对应工具,满足企业数据安全要求。
场景四:公有云模型服务 + 私有化推理的混合部署
背景: 企业出于成本和数据合规考虑,希望将对外服务流量路由至云端商业模型,同时将涉及敏感数据的请求路由至私有化部署的推理服务。
方案: 在 AI 原生网关中同时配置云端 AI 模型代理(如百度千帆、DeepSeek)和内网私有化推理服务两类后端,通过请求头规则或路径规则区分流量,实现公有云与私有化的混合调度。整体调用对上层应用完全透明,只需对接网关统一入口即可。
场景五:对外 API 商业化开放
背景: AI 服务提供商希望将自研模型 API 对外商业化销售,需要为不同客户分配独立的调用凭证、设置差异化的调用配额,并支持随时吊销某客户的访问权限。
方案: 通过 AI 原生网关的消费者管理功能,为每位客户创建独立消费者,分配专属 API Key 并设置对应的 Token 配额上限。客户凭 API Key 调用服务,网关自动完成身份校验与配额扣减。如需吊销权限,删除对应消费者即可立即生效,无需变更后端服务。
场景六:微服务架构下的 AI 能力集成
背景: 已有完整微服务体系(基于 CCE 容器化部署或 MSE 注册中心),希望在不改变现有架构的前提下,引入大模型推理能力并统一流量治理。
方案: AI 原生网关原生对接 CCE 容器引擎和 MSE 微服务引擎,可直接将已注册的 AI 推理服务发现并纳入路由管理。结合泳道功能实现灰度发布,利用已有监控体系打通可观测数据,真正做到 AI 能力与既有微服务架构的无缝融合。
评价此篇文章
