滚动更新与优雅退出
更新时间:2026-05-19
概述
滚动更新是在扩缩容、更新服务过程中逐步替换旧实例为新实例的发布策略,保证服务更新过程中业务不中断。
优雅退出是滚动更新过程中的安全收尾机制,确保实例在关闭前完成存量请求的处理,避免用户请求被强制中断。
滚动更新
推理服务支持滚动更新策略,创建服务时在高级配置中配置滚动更新参数即可。

| 参数 | 说明 |
|---|---|
| 最大不可用 | 滚动更新过程中不可用实例的数量占预期实例数的百分比,范围0%-100%。示例:预期实例数为10,最大不可用为20%,则更新过程中可用的实例数最少有8个。默认值:25% |
| 最大超量 | 滚动更新过程中超出预期的实例数量占预期实例数的百分比,范围0%-100%。示例:预期实例数为10,最大超量为10%,则更新过程中实例数最多可达11个。默认值:25% |
重要:建议根据实际负载和预热情况调整参数。
优雅退出
实例退出前将等待一段时间来处理已经接收的请求,以减少实例变更带来的请求报错。

| 参数 | 说明 |
|---|---|
| 优雅退出时间 | 实例在收到关闭指令后预留一段让实例处理完已接收的请求的时间,范围:大于 0 s。默认值:30 s |
重要:参数值过小可能会影响服务稳定性,过大可能会导致服务更新速度过慢,无特殊需求建议使用默认值。
评价此篇文章
