简介:人大高瓴团队揭示了大模型在基准评估中可能存在的作弊行为,即基准泄露,导致模型性能异常提升。文章探讨了基准泄露的原因、后果及防范措施,强调了使用多样化基准、严格检查预训练数据的重要性。
在人工智能领域,大模型的评估一直是一个备受关注的问题。为了衡量大模型的能力,业界通常会采用一系列基准评估(benchmark)来测试模型在各种任务上的表现。然而,近日人大高瓴团队的研究却揭示了一个令人担忧的现象:大模型在基准评估中可能会“作弊”,导致评估结果失真,模型在实际应用中的表现大打折扣。这种作弊行为并非主观故意,而是由于基准泄露(benchmark leakage)所导致的。
基准泄露,简而言之,就是模型在训练过程中接触到了与基准评估数据集相关或完全相同的数据。这相当于模型在考试前已经“偷看过答案”,因此在评估时能够取得异常高的分数。然而,这种虚假的性能提升并不能反映模型的真实能力,一旦应用到实际场景中,模型的表现往往会大打折扣。
基准泄露的原因多种多样。一方面,随着大模型训练数据规模的扩大,保证训练数据与常用基准之间没有重叠变得几乎不可能。另一方面,预训练语料和基准测试数据往往都来源于公开的文本(如网页、论文等),因此很容易发生重叠。此外,当前大模型的评估通常都是在本地进行或通过API调用获得结果,这种方式无法严格检查一些不正常的数值提升。
基准泄露的后果是严重的。首先,它会导致模型在特定基准上的性能异常提升,而在其他不相关任务中的表现下降。这表明模型的泛化能力受到了影响,无法适应多样化的应用场景。其次,基准泄露还会造成不相关测试分数的虚高,使得模型的性能评估失真。更糟糕的是,即使在没有被泄露数据的任务中,模型的表现也可能会受到影响,出现分数大幅下降的情况。
此外,基准泄露还会对模型的微调能力产生负面影响。在微调过程中,模型需要适应新的任务和数据分布。然而,如果模型在训练过程中已经接触到了与基准评估相关的数据,那么它可能会过度拟合这些数据,导致在微调后无法很好地适应新的任务。
为了应对基准泄露带来的风险,我们需要采取一系列防范措施来构建更公平的评估体系。
使用多样化基准:评估大模型时,应使用来自不同来源的更多基准,涵盖基本能力和高级能力测试,以全面评估模型的能力。这有助于减少因单一基准泄露而导致的性能失真。
严格检查预训练数据:在训练模型之前,应严格检查预训练数据,避免包含任何后续的评估数据。可以使用n-gram哈希算法等技术来检查预训练数据和评估数据之间的重叠度。
公开训练语料构成:对于大模型开发者来说,公开训练语料的详细构成是建立信任的重要一步。这有助于外界评估模型的训练过程是否存在数据泄露的风险。
加强评估过程的透明度:在基准评估过程中,应加强透明度,公开评估方法、数据集和评估指标等信息。这有助于确保评估结果的公正性和准确性。
引入第三方审核:可以引入第三方机构对模型的评估过程进行审核和监督,以确保评估结果的客观性和公正性。
在实际应用中,大模型的基准评估作弊风险提醒我们要保持警惕。在选择和使用大模型时,不仅要关注模型在基准上的性能表现,还要结合实际应用场景进行综合评估。同时,对于开发者来说,加强模型的泛化能力和微调能力也是提升模型实际应用效果的关键。
以千帆大模型开发与服务平台为例,该平台提供了丰富的模型训练和评估工具,支持用户根据实际需求定制和优化模型。在训练过程中,用户可以严格检查预训练数据的质量,避免数据泄露的风险。同时,在评估阶段,平台提供了多样化的基准测试集和评估指标,帮助用户更全面地了解模型的能力表现。此外,通过引入第三方审核和公开训练语料构成等措施,可以进一步提升评估过程的透明度和公正性。
总之,基准泄露是大模型评估中需要关注的重要问题。通过采取多样化的基准测试、严格检查预训练数据、加强评估过程的透明度等措施,我们可以构建更公平的评估体系,推动人工智能技术的健康发展。