Qwen2-VL-72B-Instruct

更新时间：2026-04-08

模型介绍

Qwen2-VL-72B-Instruct 是阿里云研发的大规模视觉语言模型（Large Vision Language Model, LVLM）。Qwen2-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。Qwen2-VL 系列模型的特点包括：

在视觉理解基准测试中取得了最先进的性能，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。

能够理解超过 20 分钟的视频，用于高质量的基于视频的问答、对话、内容创作等。

可以集成到手机、机器人等设备中，根据视觉环境和文本指令进行自动操作。

为了服务全球用户，除了英语和中文，现在还支持理解图像中不同语言的文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

多图片/视频支持

模型部署后支持的最大 Token 长度为 32768，最大支持 10图片+10视频推理。当使用多图片/视频进行推理时，由于图片、视频会被编码为 Token，对应的 Token 长度会受到模型最大支持 Token 长度（32768）的限制。

API调用

服务部署成功后，可在服务列表查看调用信息

调用示例

Plain Text

1curl -X POST "<访问地址>/v1/chat/completions" \
2-H "Content-Type: application/json" \
3-H "Authorization: Bearer <TOKEN>" \
4-d '{
5    "model": "Qwen2-VL-72B-Instruct",
6    "messages": [{"role": "system", "content": "你是一名天文学家,请回答用户提出的问题。"}, {"role": "user", "content": "人类是否能登上火星?"}],
7    "max_tokens": 1024,
8    "temperature": 0.7
9}'

评价此篇文章

有帮助没帮助

百度智能云

百度百舸 · AI计算平台

百度百舸 · AI计算平台

Qwen2-VL-72B-Instruct

模型介绍

多图片/视频支持

API调用