产品描述
产品介绍
模型评估 是一种用于衡量模型表现的技术。千帆大模型平台提供多种模型评估方法,包括自动评估、人工评估和基线评估,来判断模型在不同任务类型下的性能。在自动评估中,可使用预置或自定义评估指标,通过自动规则或自动裁判员打分;人工评估则针对预置或自定义任务类型开展评估任务。评估涵盖模型、结果集等多种评估对象,覆盖平台数据集、BOS存储对象等多种数据来源。模型评估是确保模型质量和性能的关键步骤,它有助于发现模型的不足之处,为模型的优化和改进提供有力支持。
模型评估功能框架
![流程图-202502121443.png](https://bce.bdstatic.com/doc/ai-cloud-share/WENXINWORKSHOP/%E6%B5%81%E7%A8%8B%E5%9B%BE-202502121443_a3e0fe6.png)
创建评估任务
评估任务创建页面
![image.png](https://bce.bdstatic.com/doc/ai-cloud-share/WENXINWORKSHOP/image_e036383.png)
查看评估任务
评估任务查看界面
![image.png](https://bce.bdstatic.com/doc/ai-cloud-share/WENXINWORKSHOP/image_745c400.png)