简介:短视频评测体系存在时长、复杂度局限,MMBench通过构建中长视频开放问答评测基准,突破传统评估框架,提供更全面、复杂的多模态大模型视频理解能力评估方案,助力开发者优化模型性能。
当前主流的多模态大模型视频理解评测体系,普遍以短视频(通常时长<1分钟)为核心场景。这类数据集虽然能够快速验证模型对简单动作、场景的识别能力,却难以覆盖真实世界中视频内容的复杂性与多样性。例如,短视频往往无法充分体现以下关键能力:
现有评测基准的局限性,导致模型在真实场景(如教育、医疗、安防)中的泛化能力不足。例如,某医疗AI团队曾反馈:其模型在短视频数据集上表现优异,但在处理手术录像这类长视频时,对关键步骤的识别准确率下降30%以上。这凸显了构建中长视频评测体系的必要性。
MMBench(Multimodal Benchmark for Long-form Video Understanding)通过以下创新设计,突破了短视频评测的局限:
MMBench收集了涵盖教育、影视、生活记录等领域的数千小时中长视频(时长5-30分钟),并标注了细粒度的问答对。例如:
此类问题要求模型不仅识别视频中的显性信息,还需结合时序、因果关系进行推理。
传统评测多采用选择题形式,限制了模型能力的全面评估。MMBench引入开放问答任务,要求模型生成自然语言回答,并通过以下指标量化性能:
示例代码(伪代码):
def evaluate_answer(model_answer, gt_answer, video_timeline):# 计算语义相似度semantic_score = bleu_score(model_answer, gt_answer)# 提取事件时序model_events = extract_events(model_answer)gt_events = extract_events(gt_answer)# 验证时序一致性temporal_score = check_temporal_order(model_events, gt_events, video_timeline)return 0.6 * semantic_score + 0.4 * temporal_score
中长视频的理解需结合视觉、听觉、文本(如字幕)等多模态信息。MMBench设计了以下评测维度:
通过MMBench的评测报告,开发者可定位模型在长视频场景中的具体缺陷。例如:
参考MMBench的数据构建方法,开发者可收集领域特定的中长视频,并标注以下类型的问题:
MMBench的开放评测框架不仅为学术界提供了标准化基准,也为工业界落地长视频理解应用(如智能教育、视频内容审核)提供了评估工具。随着多模态大模型向更复杂的场景(如多摄像头监控、虚拟现实交互)扩展,MMBench的评测维度也将持续演进,例如增加:
通过MMBench,开发者能够更系统地评估和优化模型的长视频理解能力,推动多模态AI从“片段理解”迈向“全局推理”的新阶段。