查看模型评估任务报告
本接口用于根据评估任务ID,查看模型评估任务报告。
权限说明
调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限:
- 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
- 只读访问千帆大模型平台的权限:QianfanReadAccessPolicy
- 完全控制千帆大模型平台模型调优的权限:QianfanModelTuningFullControlAccessPolicy
- 只读访问千帆大模型平台模型调优的权限:QianfanModelTuningReadAccessPolicy
鉴权说明
调用本文API,使用"基于安全认证AK/SK"进行签名计算鉴权,即使用安全认证中的Access Key ID和Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明。
请求参数
方法名称,固定值 DescribeEvalTaskReport
评估任务ID,说明:
(1)可以通过以下方式获取该字段值:
· 方式一:通过调用创建模型评估任务接口,返回的字段 result 获取
· 方式二:在控制台-模型调优-模型评估,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示
POST /v2/eval?Action=DescribeEvalTaskReport HTTP/1.1
HOST: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json
{
"taskId": "ame-4kvnxxx"
}
示例代码
curl -i --location 'https://qianfan.baidubce.com/v2/eval?Action=DescribeEvalTaskReport'\
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21a5xxxx74525543'\
--header 'x-bce-date: 2023-09-19T13:37:10Z'\
--header 'Content-Type: application/json'\
--data '{
"taskId": "ame-4kvnxxx"
}'
返回响应
请求ID
错误码,错误时返回
错误信息,请求失败时返回
请求结果,请求成功时返回
显示子属性
隐藏子属性
显示子属性
隐藏子属性
评估任务ID
评估任务名称
模型版本ID
当前评估子任务使用的推理结果集id
评估的数据类型,说明:
· model:模型推理
· inferDataset:推理结果集。可选值: model, inferDataset
评估模式,具体值如下 :
· rule:基于规则
· model:裁判员模型
· manual:人工评估
· rule,model:同时支持自动规则和自动裁判员评估。可选值: rule, model, manual, rule,model
效果指标
显示子属性
隐藏子属性
基于规则-准确率打分
基于规则-准确率打分
基于规则-相似度打分
基于规则-相似度打分
基于规则-相似度打分
基于规则-相似度打分
编辑距离
嵌入距离
裁判员打分-均值
裁判员打分-标准差
裁判员打分-中位数
裁判员打分-分值分布,说明:
(1)含有从最小值到最大值的所有分数
(2)-1为无效打分。
显示子属性
隐藏子属性
平均分
Good case占比
人工打分-主观印象
维度分数分布
显示子属性
隐藏子属性
显示子属性
隐藏子属性
评价维度
维度分值分布,key为分值,value为分值的个数。
显示子属性
隐藏子属性
GSB打分分布。
显示子属性
隐藏子属性
{
"requestId": "d60a00c4-a724-4851-96e5-b4dc3b258ca0",
"result": [
{
"taskId": "ame-4kvnxxxx",
"taskName": "自动评估_停止测试0910",
"modelId": "amv-tts8v6re61hp",
"inferDatasetId": "ds-ecwqqjb787dk1vm6",
"evalObjectType": "service",
"evalMode": "rule",
"effectMetric": {
"accuracy": 0,
"f1Score": 0.34983957,
"rouge_1": 0.33882716,
"rouge_2": 0.15241386,
"rouge_l": 0.26100817,
"bleu4": 0.09671887,
"avgJudgeScore": 0,
"stdJudgeScore": 0,
"medianJudgeScore": 0,
"scoreDistribution": null,
"manualAvgScore": 0,
"goodCaseProportion": 0,
"subjectiveImpression": "",
"manualScoreDistribution": null,
"gsbDistribution": null
}
},
{
"taskId": "ame-4kvnxxxx",
"taskName": "自动评估_停止测试0910",
"modelId": "amv-6j6is3sp166h",
"inferDatasetId": "ds-sueg3fqnd14h9kqt",
"evalObjectType": "service",
"evalMode": "rule",
"effectMetric": {
"accuracy": 0,
"f1Score": 0.34691638,
"rouge_1": 0.32689363,
"rouge_2": 0.13487022,
"rouge_l": 0.25140443,
"bleu4": 0.087691635,
"edit_dist": 331.97778,
"embedding_dist": 0.16930991,
"avgJudgeScore": 0,
"stdJudgeScore": 0,
"medianJudgeScore": 0,
"scoreDistribution": null,
"manualAvgScore": 0,
"goodCaseProportion": 0,
"subjectiveImpression": "",
"manualScoreDistribution": null,
"gsbDistribution": null
}
}
]
}
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
| 名称 | 描述 |
|---|---|
requestId |
请求ID |
code |
错误码 |
message |
错误描述信息,帮助理解和解决发生的错误 |
例如错误返回:
{
"requestId":"6ba7b810-xxxc04fd430c8",
"code":"AccessDenied",
"message":"Access denied."
}
更多其他错误码,也可以查看错误码说明。
评价此篇文章
