查看模型评估报告

更新时间：2024-12-23

接口描述

本接口用于获取评估报告（整体指标）。

鉴权说明

调用本文API，使用“基于安全认证AK/SK”进行签名计算鉴权，即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权，具体鉴权认证机制参考HTTP调用鉴权说明。

请求结构

Bash

POST /wenxinworkshop/modelrepo/eval/report HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
   "id":"ame-vwgs***yhfv"
}

请求头域

除公共头域外，无其它特殊头域。

请求参数

Body参数

名称	类型	必填	描述
id	string	是	评估任务id，示例：ame-vwgs2ybhyhfv，说明：（1）可以通过以下方式获取该字段值： · 方式一，通过调用创建模型评估任务接口，返回的字段evalIdStr获取 · 方式二，在控制台-模型评估页面，点击某评估任务名称打开详情页，在任务详情的基本信息中查看，如下图所示（2）该字段新增支持string类型，如果之前使用的是int类型，建议变更为string类型，后续可能将逐步废弃int类型；例如之前是通过调用创建模型评估任务接口，返回的字段evalId获取，建议替换为返回的evalIdStr获取

响应头域

除公共头域外，无其它特殊头域。

响应参数

名称	类型	描述
log_id	string	请求ID
result	object[]	请求结果

result说明

名称	类型	描述
evaluationId	int	评估任务ID
evaluationName	string	评估任务名称
modelId	int	模型ID
modelVersionId	int	模型版本ID
modelName	string	模型名
modelVersion	string	模型版本号
modelVersionSource	string	模型版本来源
evalMode	string	评估模式，说明：（1）有以下评估模式： · rule：基于规则 · model：裁判员模型 · manual：人工评估（2）多个模式使用,拼接，示例“model,manual,rule”
effectMetric	object	效果指标
modelForm	string	评估的物料类型，说明： · model：旧数据(推理结果集评估功能上线前的评估任务)类型都是模型，即值为model · inferDataset：推理结果集
modelIdStr	string	模型字符串id
modelVersionIdStr	string	模型版本字符串id
evaluationIdStr	string	评估任务字符串id
evalUnitId	string	评估子任务id，用于唯一标识评估子任务
inferDatasetId	string	当前评估子任务使用的推理结果集id
inferDatasetName	string	当前评估子任务使用的推理结果集名称

effectMetric说明

名称	类型	描述
id	string	单个评估报告的主键
accuracy	number	基于规则-准确率打分
f1Score	number	基于规则-准确率打分
rouge_1	number	基于规则-相似度打分
rouge_2	number	基于规则-相似度打分
rouge_l	number	基于规则-相似度打分
bleu4	number	基于规则-相似度打分
avgJudgeScore	number	裁判员打分-均值
stdJudgeScore	number	裁判员打分-标准差
medianJudgeScore	number	裁判员打分-中位数
scoreDistribution	map[string]int	裁判员打分-分值分布，说明： · 含有从最小值到最大值的所有分数 · -1为无效打分
manualAvgScore	number	平均分
goodCaseProportion	int	good case占比
subjectiveImpression	string	人工打分-主观印象
manualScoreDistribution	object[]	维度分数分布

manualScoreDistribution说明

名称	类型	描述
dimension	string	评价维度
scoreDistribution	map[string]int	维度分值分布，key为分值，value为分值的个数

请求示例

Bash

# 替换下列示例中的Authorization值、x-bce-date值
curl 'https://qianfan.baidubce.com/wenxinworkshop/modelrepo/eval/report' \
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21a5264xxxxxc23d080016e374525543' \
--header 'x-bce-date: 2023-09-19T13:37:10Z' \
--header 'Content-Type: application/json' \
--data '{"id":"ame-vwgs2ybhyhfv"}'

响应示例

JSON

{
    "log_id": "3617826755",
    "result": [
        {
            "modelName": "llama2_7b_32k_z_sft",
            "modelVersion": "1",
            "modelVersionSource": "Train",
            "evalMode": "manual",
            "evaluationName": "cl_联调_模型评估_用户bos",
            "id": "65eae1fb1xxx9ca97a1",
            "modelVersionId": 833,
            "modelId": 591,
            "userId": 1,
            "evaluationId": 401,
            "modelForm": "model",
            "modelIdStr": "am-dkxwxxxxjgw",
            "modelVersionIdStr": "amv-7ab3xxxtspe1",
            "evaluationIdStr": "ame-28zxxx2rn4",
            "evalUnitId": "ameu-gpvzxxxs0n",
            "inferDatasetId": "ds-p79kyxxx7sbk",
            "inferDatasetName": "cl_联调_模型评估_用户bos_llama2_7b_32k_z_sft_V1_jmrr",
            "effectMetric": {
                "accuracy": 0,
                "f1Score": 0,
                "rouge_1": 0,
                "rouge_2": 0,
                "rouge_l": 0,
                "bleu4": 0,
                "avgJudgeScore": 0,
                "stdJudgeScore": 0,
                "medianJudgeScore": 0,
                "scoreDistribution": null,
                "manualAvgScore": 0.5,
                "goodCaseProportion": 0,
                "subjectiveImpression": "1",
                "manualScoreDistribution": [
                    {
                        "dimension": "满意度",
                        "scoreDistribution": {
                            "-1": 2,
                            "1": 1
                        }
                    },
                    {
                        "dimension": "安全性",
                        "scoreDistribution": {
                            "-1": 2,
                            "0": 1
                        }
                    }
                ]
            },
            "performanceMetric": {}
        },
        {
            "modelName": "mixtral2",
            "modelVersion": "8",
            "modelVersionSource": "Train",
            "evalMode": "manual",
            "evaluationName": "cl_联调_模型评估_用户bos",
            "id": "65eae45dxxxcab739",
            "modelVersionId": 7xx,
            "modelId": 545,
            "userId": 1,
            "evaluationId": 401,
            "modelForm": "model",
            "modelIdStr": "am-ktcxxx88z",
            "modelVersionIdStr": "amv-g2acxxxg9v",
            "evaluationIdStr": "ame-28zxxx2rn4",
            "evalUnitId": "ameu-1uxpxxx8uc2",
            "inferDatasetId": "ds-ba82xxxguh",
            "inferDatasetName": "cl_联调_模型评估_用户bos_mixtral2_V8_x5xt",
            "effectMetric": {
                "accuracy": 0,
                "f1Score": 0,
                "rouge_1": 0,
                "rouge_2": 0,
                "rouge_l": 0,
                "bleu4": 0,
                "avgJudgeScore": 0,
                "stdJudgeScore": 0,
                "medianJudgeScore": 0,
                "scoreDistribution": null,
                "manualAvgScore": 0.5,
                "goodCaseProportion": 0,
                "subjectiveImpression": "2",
                "manualScoreDistribution": [
                    {
                        "dimension": "满意度",
                        "scoreDistribution": {
                            "-1": 2,
                            "1": 1
                        }
                    },
                    {
                        "dimension": "安全性",
                        "scoreDistribution": {
                            "-1": 2,
                            "0": 1
                        }
                    }
                ]
            },
            "performanceMetric": {}
        }
    ]
}

错误码

若请求错误，服务器将返回的JSON文本包含以下参数：

名称	描述
error_code	错误码
error_msg	错误描述信息，帮助理解和解决发生的错误

例如参数错误返回：

{
  "error_code": 500001,
  "error_msg": "param invalid"
}

更多其他错误码，也可以查看错误码说明。

查看模型评估详情

停止模型评估任务

百度智能云

千帆大模型服务与开发平台ModelBuilder