LiveCodeBench

更新时间：2025-11-24

数据集描述

LiveCodeBench 是一个“实时”更新的基准测试，用于全面评估 LLMs 的代码相关能力。特别地，它评估了 LLMs 在一系列能力上的表现，包括代码生成、自我修复、测试输出预测和代码执行。这是 LiveCodeBench 的代码生成场景。它还用于通过测试用例反馈评估自我修复。

LiveCodeBench 的问题从竞赛编程网站收集，特别注重保持问题质量、测试用例质量和问题难度多样性。该场景目前托管了来自 LeetCode、AtCoder 和 Codeforces 的超过 500 个问题。每个问题实例包括问题描述、输入/输出示例和隐藏的测试用例。此外，每个问题都标记了其难度级别和发布日期，这允许在不同的时间窗口内衡量模型性能。目标是为每个问题实例生成正确且高效的解决方案。

初始的代码生成数据集包含了更多的测试用例，导致数据集大小显著增加。这个（精简）版本在尽量保证与原始数据集相似性能的同时，对测试进行了剪枝和采样。未来，livecodebench 将使用这个精简版本进行代码生成评估。

更新日志

由于 LiveCodeBench 是一个持续更新的基准测试，我们提供了不同版本的数据集。具体来说，我们提供以下版本的数据集：

release_v1：初始发布的数据集，包含 2023 年 5 月至 2024 年 3 月期间发布的 400 个问题。
release_v2：更新后的数据集，包含 2023 年 5 月至 2024 年 5 月期间发布的 511 个问题。
release_v3：更新后的数据集，包含 2023 年 5 月至 2024 年 7 月期间发布的 612 个问题。
release_v4：更新后的数据集，包含 2023 年 5 月至 2024 年 9 月期间发布的 713 个问题。
release_v5：更新后的数据集，包含 2023 年 5 月至 2025 年 1 月期间发布的 880 个问题。

你可以使用 version_tag 参数来加载所需版本的数据集。此外，你还可以使用版本标签如 v1、v2、v1_v3、v4_v5 来获取特定版本中发布的问题。

如果您使用该数据集，请查看并遵守发布方声明的开源协议 ModelScope。

评价此篇文章

有帮助没帮助

RoboCasa

Math500

百度智能云

百度百舸 · AI计算平台

百度百舸 · AI计算平台

LiveCodeBench

数据集描述

更新日志