性能评估
更新时间:2025-08-22
功能介绍
支持对预置服务发起单并发时延探测,了解预置服务性能。
支持对平台已经部署好的服务发起性能评估,并生成压测报告。可基于报告指标调整部署方案。
创建性能评估任务
1. 设置评估对象
参数 | 描述 |
---|---|
任务对象 | 选择需要进行压测的服务。支持预置服务和专属服务;模型类型要求为纯文本,Chat接口;专属服务要求为单副本,状态运行中 |
数据集选择 | 1. 支持选择平台数据集,格式为Prompt+Response; 2. 支持从对象存储BOS中选择压测数据。数据格式为openai请求格式,要求JSONL文件。文件中每行是一条请求,作为一条压测数据。取其中message内容作为模型输入 |
数据样例:
Plain Text
1{"model": "j9p5hi34_test", "messages": [{"role": "user", "content": "为什么天空是蓝色的?"}]}
2{"model": "j9p5hi34_test", "messages": [{"role": "user", "content": "为什么海水是咸的?"}]}
2. 设置评估参数
参数 | 描述 |
---|---|
并发用户数 | 同时发送请求的用户数量。评估预置服务时,并发数固定为1。 测试专属服务时,并发数可设置1~100 |
递增速率 | 指定每秒真实启动的用户数,一直增长到设置的并发大小以后,不再新增启动 |
压测时长 | 压测任务启动后会一直运行到数据集内所有数据都请求完毕,或到达该参数指定的最大运行时间;该参数默认值为'0s',表示不设最大运行时间;最长12小时 |
QPS上限 | 允许到达的QPS(即每秒发送请求的速率)上限值,当前等同服务部署时设定的上限值 |
请求参数 | request body里需要加入的传参,例如temperature |
注:
1.当前所有请求将以流式请求的方式发起压测
2.当前发压机位于北京
3.为保证结果准确,压测过程中尽量不要通过其他形式请求服务。压测过程中禁止同时运行批量推理、模型评估
查看评估指标
压测完成后会自动生成指标报告
- 总体分数
指标 | 描述 |
---|---|
总请求数 | 整个测试过程中发送的所有请求数量 |
请求成功率 | 成功请求的数量占所有请求的比重 |
压测时长(分钟) | 测试过程从开始到结束的总时间 |
QPS | 服务每秒平均处理的请求数 |
总输入token | 压测过程总输入token |
总输出token | 压测过程总输入token |
OTPS(token/s) | 每秒输出token数量。仅统计流式响应 |
- TTFT相关:首token时延。表示从发送请求到收到第一个包的时间。一个包中包含1个或1个以上token。单位ms
指标 | 描述 |
---|---|
平均TTFT | 请求平均首token时延 |
中位TTFT | 50%请求的首token时延 |
P99TTFT | 99%请求的首token时延 |
- TPOT相关:由于一个包中包含1个或1个以上token,这里主要描述包间时延,表示返回包之间的时间间隔。单位ms
指标 | 描述 |
---|---|
平均包间时延 | 请求平均包间时延 |
中位包间时延 | 50%请求的包间时延 |
P99包间时延 | 99%请求的包间时延 |
平均TPOT | 平台估算的每个token生成时间,仅用以评估解码速度 |
- E2EL相关:端到端的全链路时延,表示从发送请求到返回最后一个Token的总体耗时。单位ms
指标 | 描述 |
---|---|
平均E2EL | 请求平均E2EL |
中位E2EL | 50%请求的E2EL |
P99E2EL | 99%请求的E2EL |