配置超时策略
更新时间:2026-05-06
概述
超时策略用于限制网关向后端服务发起请求并等待响应的最长时间。当后端在指定时间内未返回响应时,网关将主动中断本次请求,避免连接长时间挂起占用资源。
适用场景
下列场景下推荐配置超时策略:
- 避免推理任务长尾拖垮网关:某些大模型在长上下文或复杂推理任务下耗时显著高于平均水平,开启超时可防止个别长尾请求占用大量连接、影响整体吞吐。
- 统一对外接口的响应时间预期:对客户端承诺接口的最大响应时间(如 30 秒),无论后端实际表现如何,超过该值即返回超时响应。
- 快速失败、配合重试:在网络抖动或后端瞬时过载时,与重试策略组合使用,让单次请求快速失败再交给重试机制处理,比一直挂起等待更利于整体可用性。
- 测试与调试场景:在压测或新业务联调时,临时缩短超时阈值,快速暴露后端性能瓶颈。
说明
AI 模型推理场景中,部分大模型对长上下文或复杂任务的推理时间较长,请根据实际推理时延合理设置超时时间,避免因超时过短导致正常请求被中断。
操作步骤
- 登陆百度智能云 AI 原生网关控制台。
- 在顶部导航栏选择目标地域,并在实例列表中单击目标实例 ID,进入实例详情页。
- 在左侧导航栏选择 AI 服务 > 模型推理服务。
-
创建或编辑一个模型推理服务:
- 创建场景:单击列表上方的 创建推理服务。
- 编辑场景:在目标服务的操作列单击 编辑。
-
滚动到页面底部的 高级策略 模块,在 超时策略 下勾选 开启超时。

-
配置超时时间:
配置项 说明 超时时间 网关等待后端响应的最长时间,单位为秒,取值范围 1–3600。默认 60 秒,可根据后端业务的响应特征按需调整。 - 配置完成后,单击页面底部的 发布,策略发布后即时生效。
评价此篇文章
