从多模型构建Scaling Law：解锁AI性能预测的新篇章

简介：华人博士生团队与斯坦福、多伦多大学研究者合作，通过分析80个语言模型，提出了可观察的扩展定律（Observational Scaling Laws），为AI性能预测提供了新途径。该方法低成本且高效，能够预测复杂现象和未来模型性能。

从多模型构建Scaling Law：解锁AI性能预测的新篇章

在人工智能（AI）领域，尤其是自然语言处理（NLP）中，语言模型（LM）的性能如何随其规模扩展而变化一直是研究者关注的焦点。理解这一变化不仅对于模型设计、性能评估至关重要，还为算法开发提供了宝贵的指导。近期，来自斯坦福大学、多伦多大学以及Vector Institute的研究者，携手华人博士生团队，通过一项创新性的研究，提出了“可观察的扩展定律”（Observational Scaling Laws），为我们揭示了一条全新的性能预测路径。

Scaling Law的背景与重要性

Scaling Law，即扩展定律，是AI模型训练过程中的一个重要经验性发现。它揭示了随着数据量的增加，模型大小、数据量以及训练时间（计算量）的增长能够持续提升模型性能。这种性能提升遵循对数规律，即损失（loss）随着上述因素的指数增长而线性下降。OpenAI在2020年发布的关于神经语言模型的扩展定律研究，奠定了后续大模型发展的基础，包括GPT系列模型的成功。

然而，传统的扩展定律分析受限于计算资源和模型训练尺度，难以进行广泛的验证和应用。研究者们往往无法从头开始构建扩展定律，因为大多数开放模型的训练尺度有限，不足以进行可靠的扩展预测。

可观察的扩展定律的提出

为了克服这一难题，华人博士生团队与斯坦福、多伦多大学等机构的研究者提出了一种新的方法——可观察的扩展定律。这一方法绕过了模型训练，而是通过分析约80个公开可用的语言模型，构建一个通用的缩放模型。这些模型涵盖了不同的规模和能力，为研究提供了丰富的数据源。

研究表明，尽管不同模型家族在训练计算效率和能力上存在显著差异，但这些差异可以用一个简单、广义的扩展定律来描述。该定律认为，语言模型的性能是低维能力空间的函数，模型家族之间的差异仅在于它们将训练计算转换为这些能力的效率。

实验验证与发现

研究者们通过主成分分析（PCA）提取了少量的主成分（PC），这些主成分能够解释大部分的语言模型性能变化。例如，第一主成分（PC-1）代表了模型的“通用能力”，而第二主成分（PC-2）和第三主成分（PC-3）则分别强调了模型的“推理能力”和“编程能力”。

实验结果表明，这些主成分与模型训练的计算量（如浮点运算次数，FLOPs）之间存在对数线性关系。这一发现意味着，不同模型家族中的模型，尽管在训练效率上有所不同，但它们的能力可以通过一个统一的能力空间来描述，并且这个空间与计算量有着直接的联系。

利用可观察的扩展定律，研究者们成功预测了复杂现象的缩放行为。例如，一些被认为是“突现”的能力，实际上是可以通过小型模型准确预测的平滑S形曲线。此外，他们还展示了如何使用该定律来预测像GPT-4这样的模型的代理性能，以及预测像思维链（Chain-of-Thought）和自我一致性（Self-Consistency）这样的后训练干预措施的影响。

实际应用与优势

可观察的扩展定律的提出，为AI性能预测提供了新的途径。相比传统的扩展定律分析，该方法具有成本低、效率高的优势。研究者们仅需评估10-20个模型，就能轻松地对基准测试和后训练干预进行扩展预测。

这一方法的提出，不仅为学术界提供了重要的研究工具，也为工业界带来了实际的应用价值。通过预测模型性能，企业和研究机构可以更加精准地调整模型规模和训练策略，从而节省计算资源和时间成本。

局限性与未来展望

尽管可观察的扩展定律在理论和实践上都取得了显著的成果，但它也存在一定的局限性。首先，该定律的构建依赖于现有的模型和基准测试，对于未来显著不同的模型和任务可能不再适用。其次，尽管该方法提供了一种低成本的预测方法，但它可能无法完全捕捉到所有影响模型性能的因素。

未来，研究者们可以进一步探索更广泛的模型和任务，以验证和完善可观察的扩展定律。同时，也可以尝试将该方法应用于其他领域，如计算机视觉、语音识别等，以拓展其应用范围。

结语

从多模型构建Scaling Law的研究，为我们揭示了AI性能预测的新篇章。华人博士生团队与斯坦福、多伦多大学等机构的合作，不仅展示了科研的国际合作精神，也为AI领域的发展贡献了宝贵的智慧和力量。随着研究的深入和应用的拓展，我们有理由相信，AI的未来将更加光明和可期。

从多模型构建Scaling Law：解锁AI性能预测的新篇章