百度智能云

搜索本产品文档关键词

所有文档

没有找到结果，请重新输入

AI原生网关 AIGW

配置超时策略

更新时间：2026-05-06

概述

超时策略用于限制网关向后端服务发起请求并等待响应的最长时间。当后端在指定时间内未返回响应时，网关将主动中断本次请求，避免连接长时间挂起占用资源。

适用场景

下列场景下推荐配置超时策略：

避免推理任务长尾拖垮网关：某些大模型在长上下文或复杂推理任务下耗时显著高于平均水平，开启超时可防止个别长尾请求占用大量连接、影响整体吞吐。
统一对外接口的响应时间预期：对客户端承诺接口的最大响应时间（如 30 秒），无论后端实际表现如何，超过该值即返回超时响应。
快速失败、配合重试：在网络抖动或后端瞬时过载时，与重试策略组合使用，让单次请求快速失败再交给重试机制处理，比一直挂起等待更利于整体可用性。
测试与调试场景：在压测或新业务联调时，临时缩短超时阈值，快速暴露后端性能瓶颈。

说明

AI 模型推理场景中，部分大模型对长上下文或复杂任务的推理时间较长，请根据实际推理时延合理设置超时时间，避免因超时过短导致正常请求被中断。

操作步骤

登陆百度智能云 AI 原生网关控制台。
在顶部导航栏选择目标地域，并在实例列表中单击目标实例 ID，进入实例详情页。
在左侧导航栏选择 AI 服务 > 模型推理服务。
创建或编辑一个模型推理服务：
- 创建场景：单击列表上方的 创建推理服务。
- 编辑场景：在目标服务的操作列单击编辑。
滚动到页面底部的 高级策略 模块，在 超时策略 下勾选 开启超时。

配置超时时间：

配置项	说明
超时时间	网关等待后端响应的最长时间，单位为秒，取值范围 1–3600。默认 60 秒，可根据后端业务的响应特征按需调整。

配置完成后，单击页面底部的发布，策略发布后即时生效。

评价此篇文章

有帮助没帮助

配置 Token 限流策略

配置重试策略