产品描述
产品介绍
模型评估 是一种用于衡量模型表现的技术。千帆大模型平台提供多种模型评估方法,包括自动评估、人工评估和基线评估,来判断模型在不同任务类型下的性能。在自动评估中,可使用预置或自定义评估指标,通过自动规则或自动裁判员打分;人工评估则针对预置或自定义任务类型开展评估任务。评估涵盖模型、结果集等多种评估对象,覆盖平台数据集、BOS存储对象等多种数据来源。模型评估是确保模型质量和性能的关键步骤,它有助于发现模型的不足之处,为模型的优化和改进提供有力支持。
模型评估功能框架

创建评估任务
评估任务创建页面

查看评估任务
评估任务查看界面
