LiveCodeBench
更新时间:2025-09-25
数据集描述
LiveCodeBench 是一个“实时”更新的基准测试,用于全面评估 LLMs 的代码相关能力。 特别地,它评估了 LLMs 在一系列能力上的表现,包括代码生成、自我修复、测试输出预测和代码执行。 这是 LiveCodeBench 的代码生成场景。它还用于通过测试用例反馈评估自我修复。
LiveCodeBench 的问题从竞赛编程网站收集,特别注重保持问题质量、测试用例质量和问题难度多样性。 该场景目前托管了来自 LeetCode、AtCoder 和 Codeforces 的超过 500 个问题。 每个问题实例包括问题描述、输入/输出示例和隐藏的测试用例。 此外,每个问题都标记了其难度级别和发布日期,这允许在不同的时间窗口内衡量模型性能。 目标是为每个问题实例生成正确且高效的解决方案。
初始的代码生成数据集包含了更多的测试用例,导致数据集大小显著增加。这个(精简)版本在尽量保证与原始数据集相似性能的同时,对测试进行了剪枝和采样。未来,livecodebench 将使用这个精简版本进行代码生成评估。
更新日志
由于 LiveCodeBench 是一个持续更新的基准测试,我们提供了不同版本的数据集。具体来说,我们提供以下版本的数据集:
release_v1
:初始发布的数据集,包含 2023 年 5 月至 2024 年 3 月期间发布的 400 个问题。release_v2
:更新后的数据集,包含 2023 年 5 月至 2024 年 5 月期间发布的 511 个问题。release_v3
:更新后的数据集,包含 2023 年 5 月至 2024 年 7 月期间发布的 612 个问题。release_v4
:更新后的数据集,包含 2023 年 5 月至 2024 年 9 月期间发布的 713 个问题。release_v5
:更新后的数据集,包含 2023 年 5 月至 2025 年 1 月期间发布的 880 个问题。
你可以使用 version_tag
参数来加载所需版本的数据集。此外,你还可以使用版本标签如 v1
、v2
、v1_v3
、v4_v5
来获取特定版本中发布的问题。
如果您使用该数据集,请查看并遵守发布方声明的开源协议 ModelScope