阿里正式发布 Qwen3.7-Plus：全能多模态混合智能体，视觉语言能力全面进阶

2026 年 6 月，阿里巴巴通义千问团队正式推出Qwen3.7-Plus多模态智能体模型。该模型基于 Qwen3.7 强大的文本底座升级而来，定位为视觉与语言统一的智能体基座，在保留编码、工具调用、全链路生产力工作流等核心能力的同时，实现视觉理解、视觉推理、跨模态交互的全方位突破，成为国产多模态大模型的全新标杆。

产品定位：打通 GUI 与 CLI 的多模态交互混合智能体

区别于主打深度文本推理的 Qwen3.7-Max，Qwen3.7-Plus 聚焦多模态智能体场景，核心亮点是打造统一的交互闭环，无缝衔接图形用户界面（GUI）与命令行界面（CLI）操作。

模型支持图像、视频、屏幕、网页、文本等多类型输入，可独立完成界面识别、页面操作、代码编写、指令执行、结果校验等全流程任务，广泛适配软件开发、办公自动化、界面运维、内容创作等复杂场景。目前 Qwen3.7-Plus 已上线阿里云百炼 Model Studio与 Qwen Studio 平台，并全面开放商业 API 调用，面向企业与开发者提供服务。

四大核心能力：看得懂、想得通、写得出、做得成

依托全域统一推理架构，Qwen3.7-Plus 实现多模态能力的深度融合，形成四大核心能力矩阵，构建 “感知 — 推理 — 执行” 完整智能体链路。

视觉智能体（Visual Agent）
融合视觉解析、代码解释器与搜索增强技术，可精准识别真实场景、文档图表、票据表格、复杂 UI 界面等内容，攻克视觉谜题、实景问答、复杂多步骤推理等难题，大幅提升真实场景下的理解精度。
视觉编程（Visual Coding）
实现 “看图生码” 的核心突破，用户上传网页截图、设计原型、视频画面等素材，模型可自动生成可编辑的 SVG 矢量代码、前端页面及交互式组件，打通视觉设计到代码落地的最后一环，显著提升前端开发与原型制作效率。
界面智能体（GUI Agent）
深度适配桌面端与移动端系统界面，具备控件定位、任务拆解、多步连续操作能力。在 ScreenSpot Pro、OSWorld-Verified、AndroidWorld 等权威界面评测中成绩大幅提升，可模拟人工完成软件操作、APP 运维、网页交互等自动化工作。
真实世界推理（Real-world Perception）
强化长视频理解、高精度 OCR、动态空间关系解析能力，可稳定处理长短视频流、图文混排文档、驾驶场景等复杂内容，兼顾静态图文与动态画面的理解需求，拓展多模态应用边界。

硬核性能：多项评测跻身全球第一梯队

在权威测评体系中，Qwen3.7-Plus 交出亮眼成绩单，综合实力稳居国内第一、全球前五，全面对标国际顶尖多模态模型。

在Vision Arena全球视觉模型榜单中，凭借强劲的多模态能力助力阿里跻身全球前五、中国第一；纯文本能力延续 Qwen3.7 系列优势，表现接近旗舰级 Max 模型，在编码智能体、通用推理、指令遵循、多语言处理等任务中保持顶尖水准。

同时，模型在 BabyVision、MathVision 等视觉推理评测，以及 Terminal Bench、SWE-bench 等编码评测中表现优异，长程任务稳定性、复杂指令执行力均实现迭代升级。

落地案例：全流程自主作业，解锁 AI 应用新场景

官方同步公布多项落地实测案例，直观展现 Qwen3.7-Plus 的工程级落地能力。

全链路 APP 自主开发：混合智能体连续运行超 11 小时，累计调用工具千余次，自主编写万行代码，无需人工干预即可完成一款英语学习 APP 从需求梳理、代码开发到测试部署的全流程工作。
桌面应用复刻：模型自主解析 macOS 原生股票 APP 界面布局，编写 SwiftUI 代码并对接实时行情接口，完美复刻原应用深色主题与交互逻辑，顺利通过全部功能测试。
浏览器智能助手：基于该模型打造的浏览器插件已上线，可自动感知网页内容，完成点击、输入、页面跳转等操作，实现网页场景的自动化办公闭环。

行业意义：国产大模型商业化与智能化再进阶

作为通义千问 3.7 系列的重要组成部分，Qwen3.7-Plus 的发布有着双重行业价值。

从产品层面来看，它打破了文本与视觉能力的割裂状态，以多模态智能体为核心方向，推动 AI 从 “问答工具” 向 “自主执行者” 转型，为低代码开发、自动化运维、智能办公等领域提供全新解决方案。

从行业层面而言，该模型持续缩小与国际顶尖多模态模型的差距，巩固国产大模型在视觉 - 语言融合领域的领先地位。同时，商业 API 的全面开放，也将助力各行业快速落地多模态 AI 应用，加速 AI 技术产业化进程。

目前，Qwen3.7-Plus 相关体验入口、接口文档已正式对外开放，开发者、企业用户可前往阿里云百炼平台体验与接入。未来，通义千问团队也将持续迭代模型能力，拓展更多垂直场景应用。

引用资料

Qwen3.7-Plus：多模态智能体