hellaswag

更新时间：2025-11-24

HellaSwag 数据集是由 Allen Institute for AI 开发的用于评估自然语言生成模型（特别是常识推理能力）的高级基准。它通过上下文填空任务要求模型在多个迷惑性选项中选择最适合的结束句，挑战模型对语境和逻辑关系的理解。该数据集以其上下文的复杂性和高质量的生成候选答案而著称，广泛用于测试和提升自然语言处理模型的性能。

如果您使用该数据集，请查看并遵守发布方声明的开源协议，查看详情 ModelScope。