简介:清华提出LogME,无需微调就能衡量预训练模型的下游任务表现!
近年来,预训练模型在自然语言处理(NLP)等领域取得了显著的成功。然而,如何准确地衡量预训练模型的下游任务表现仍然是一个重要的问题。传统的评估方法通常需要微调预训练模型,这不仅消耗大量的计算资源和时间,而且可能引入额外的偏差。
为了解决这个问题,清华大学的研究人员提出了一种名为LogME(Log-Magnitude Estimation)的方法,可以无需微调就能衡量预训练模型的下游任务表现。LogME基于一个简单的假设:对于同一个词,预训练模型在对不同文本进行编码时,其编码结果的log-magnitude具有一致性。
基于这个假设,LogME通过计算预训练模型对于一组基准测试集的编码结果的log-magnitude的方差来评估其下游任务表现。这个方差越小,说明预训练模型在不同下游任务上的性能越稳定,反之则说明预训练模型的性能不稳定。
相比于传统的评估方法,LogME具有以下优点: