AI Fallback

更新时间：2026-05-26

概述

AI 原生网关支持模型 Fallback 功能。当系统中配置的 AI 模型无法响应或出错时，网关能自动将请求切换至 Fallback 模型，有效保证应用程序的稳定性和可靠性。本文介绍如何在百度智能云 AI 原生网关上配置 Fallback 模型。

名词解释

AI Fallback 是指在 AI 原生网关上配置的主模型服务不可用时，网关自动将请求切换到 Fallback 备用模型，从而保证应用程序的稳定性和可靠性，避免因为某个模型服务的异常或者高负载造成的请求不可用。

典型应用场景：

主模型限流或熔断：主模型服务因 QPS/TPM 限流被拒绝时，自动降级到备用模型继续提供服务。
主模型故障：主模型服务连接失败、超时或返回 5xx 错误时，无缝切换到 Fallback 模型。
多模型供应商容灾：主模型为供应商 A 提供的模型服务，Fallback 配置为供应商 B 提供的模型服务，构成跨模型供应商的高可用兜底。
新旧模型灰度过渡：将稳定的旧模型作为 Fallback，新模型作为主模型，新模型异常时无感切回。

Mermaid

1                    ┌──────────────────┐
2                    │   主模型服务      │
3   客户端 ───→ AI ─→│  (正常时返回)    │───→ 响应
4            原生    └────────┬─────────┘
5            网关             │ 4xx / 5xx
6                             ↓
7                    ┌──────────────────┐
8                    │  Fallback 模型    │───→ 响应
9                    └──────────────────┘

说明：当前 Fallback 功能仅支持配置单个 Fallback 模型服务，暂不支持多级 Fallback 链式回退。

触发条件

当调用主模型服务，返回任意 HTTP 的 4xx、5xx 错误状态码时，均会触发 AI Fallback，由网关将请求自动转发至 Fallback 模型。

具体触发场景包括但不限于：

错误码段	典型原因	是否触发 Fallback
`4xx`	鉴权失败、参数错误、配额耗尽、限流（429）	是
`5xx`	服务内部错误、网关错误、上游不可用、超时（504）	是
连接级错误	主模型 Upstream 不可达、TLS 握手失败、连接 reset	是
网关本地 2xx	主模型正常响应	否

注意：Fallback 触发后会消耗 Fallback 模型的额度，请合理评估容量与费用。

前提条件

已开通主模型服务和 Fallback 模型服务，并获取调用所需的 API Key。
已创建 AI 原生网关实例，详情参见创建网关实例。
已将主模型和 Fallback 模型添加为目标服务，详情参见创建服务。支持的服务来源： AI 模型代理。

操作步骤

步骤一：进入推理服务创建/编辑页面

登录 AI 原生网关控制台。
在左侧导航栏选择实例列表，单击目标实例名称进入实例详情。
在实例详情页左侧菜单选择 AI 服务 > 模型推理服务。
单击创建推理服务（或选择已有推理服务，单击操作列编辑）。

步骤二：开启 Fallback 并配置 Fallback 模型

在推理服务配置页的目标服务模块，开启 Fallback 开关，并配置 Fallback 模型。注意：仅当目标服务中服务来源为 AI 模型代理时支持开启 Fallback。

Fallback 配置项说明：

配置项	说明
Fallback	是否开启 AI 模型 Fallback 功能。开启后，当后端主模型返回 `4xx` 或 `5xx` 错误码时，AI 原生网关会自动将请求切换至 Fallback 模型。
服务名称	配置 Fallback 模型的目标服务，需提前在后端服务列表中创建。
模型传递方式	配置 Fallback 实际调用的目标模型名称。若为透传，则默认透传客户端请求中的 `model` 字段。若为指定模型名称，则将强制变更为指定模型名称。

步骤三：完成配置

确认其他配置项（匹配规则、消费者认证、Token 限流、超时与重试策略等）后，单击确定保存推理服务配置。

配置完成后，可在推理服务详情页的目标服务模块查看到 Fallback 已生效，并在拓扑视图中看到 Fallback 节点的连线。

常见问题

Q1：开启 Fallback 后，超时策略和重试策略还会生效吗？

会。请求处理顺序为：主模型调用 → 触发主模型的超时与重试策略 → 重试仍失败时触发 Fallback → 调用 Fallback 模型。Fallback 模型本身不参与主模型的重试计数。

Q2：Fallback 模型也失败了怎么办？

如果 Fallback 模型也返回 4xx/5xx，网关会将 Fallback 模型的错误响应返回给客户端，不会再触发二次 Fallback。本期暂不支持多级 Fallback。

Q3：Fallback 流量会被计入 Token 限流吗？

会。Token 限流是基于推理服务粒度的，无论实际命中主模型还是 Fallback，只要存在大模型的响应，消耗的 Token 都计入同一限流计数。

Q4：可以为不同请求路径配置不同的 Fallback 吗？

可以。Fallback 是推理服务粒度的配置，为不同推理服务（不同的匹配路径 / 域名）配置独立的 Fallback 模型即可。

Q5：百舸来源创建的路由能配置 Fallback 吗？

百舸同步创建的路由暂不支持在 AI 原生网关侧编辑 Fallback 配置。

评价此篇文章

有帮助没帮助

消费者认证

MCP 服务管理

百度智能云

AI原生网关 AIGW