小红书搜索团队创新解码策略：大模型推理成本的有效降低

简介：小红书搜索团队在ICLR 2024上提出早停自洽性方法(ESC)，该策略在保持推理性能的同时，显著降低大模型推理成本，为大规模语言模型的实际应用提供了新思路。

在人工智能与自然语言处理领域，大语言模型（LLMs）以其强大的推理能力赢得了广泛关注。然而，这些模型的庞大参数量和计算需求限制了其在资源受限场景下的广泛应用。尤其是在复杂推理任务中，如何降低推理成本成为了一个亟待解决的问题。近日，小红书搜索算法团队在ICLR 2024上提出了一种创新的解码策略——早停自洽性方法（Early-Stopping Self-Consistency, ESC），为这一难题提供了有效解决方案。

一、背景与动机

大语言模型在各类推理任务中表现出色，但其推理过程往往需要大量的计算资源。思维链（Chain of Thought, CoT）技术通过模拟人类思考过程，显著增强了大模型的逻辑推理能力。然而，为了进一步提升推理性能，自洽性方法（Self-Consistency, SC）被引入，该方法通过生成多个思维链并取多数答案作为最终答案，虽然带来了显著的性能提升，但也带来了高昂的成本。

二、早停自洽性方法（ESC）

1. 方法概述

小红书搜索算法团队提出的ESC方法，旨在不牺牲性能的情况下，大幅度降低SC的成本。ESC的核心思想是在低熵窗口截断采样过程，即在生成过程中，当窗口内的所有预测结果一致时停止采样。这种策略既减少了采样次数，又保持了模型的推理性能。

2. 技术细节

采样窗口：ESC将大采样量分成几个连续的小窗口，每个窗口内的采样结果被视为一个探针，用于揭示真实答案分布的信息。
熵值判断：通过计算窗口内答案分布的熵值，ESC判断是否需要继续采样。当熵值等于零（即窗口内所有样本答案相同）时，停止采样。
动态控制方案：ESC还提出了一个动态控制方案，通过选择窗口大小和最大采样次数，动态地为不同任务和模型找到最佳的性能-成本平衡点。

3. 实验验证

小红书和北理工的研究者们选择了三种主流推理任务（数学、常识和符号推理）和六种基准数据集进行实验。实验结果显示，ESC在六个基准测试中显著降低了平均采样次数，包括MATH(-33.8%)、GSM8K(-80.1%)、StrategyQA(-76.8%)、CommonsenseQA(-78.5%)、Coin Flip(-84.2%)和Last Letters(-67.4%)，同时几乎保持原有性能。这充分证明了ESC的有效性和创新性。

三、实际应用与前景

ESC的提出对于大语言模型的实际应用具有重要意义。在资源受限的场景下，通过降低推理成本，可以使得大模型更加广泛地应用于各种复杂推理任务中。同时，ESC的动态控制方案也为不同任务和模型提供了灵活的性能-成本权衡方案，满足了不同场景下的实际需求。

四、总结

小红书搜索算法团队提出的早停自洽性方法（ESC）为降低大模型推理成本提供了新的思路。通过在高置信度窗口停止采样过程，ESC在不牺牲性能的情况下显著降低了推理成本。这一创新成果不仅为学术界提供了新的研究方向，也为工业界的大规模应用提供了有力支持。随着技术的不断发展和完善，我们有理由相信ESC将在更多领域发挥重要作用。