11月4日,阿里通义千问团队宣布推出Qwen3-Max-Thinking的早期预览版,并邀请用户尝鲜试用。这一消息标志着阿里在大语言模型领域的又一次重要突破。

Qwen3-Max是通义千问迄今为止规模最大、能力最强的模型,总参数超过1T,预训练使用了36T tokens。模型结构沿用了Qwen3系列的模型结构设计范式,并采用了global-batch load balancing loss技术,确保了训练的稳定性和高效性。
训练稳定性与高效性
训练稳定性:得益于Qwen3的MoE模型结构设计,Qwen3-Max的预训练loss稳定平滑,训练过程一气呵成,未出现任何loss尖刺,也无需使用训练回退、改变数据分布等调整策略。
训练高效性:在PAI-FlashMoE的高效多级流水并行策略优化下,Qwen3-Max-Base训练效率显著提升,MFU相比Qwen2.5-Max-Base相对提升30%。在长序列训练场景中,通过ChunkFlow策略获得了相比序列并行方案提升3倍的吞吐收益,支持Qwen3-Max 1M长上下文的训练。同时,通过SanityCheck、EasyCheckpoint、调度链路优化等多种手段,Qwen3-Max在超大规模集群上因硬件故障造成的时间损失下降为Qwen2.5-Max的五分之一。
模型性能表现
Qwen3-Max-Instruct:预览版已在LMArena文本排行榜上位列第三,超越了GPT-5-Chat。正式版本在代码能力和智能体(agent)能力方面进一步提升,在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平。在专注于解决现实编程挑战的基准测试SWE-Bench Verified上,Qwen3-Max-Instruct取得了高达69.6分的优异成绩。在评估智能体工具调用能力的严苛基准Tau2-Bench上,Qwen3-Max-Instruct更是实现了突破性表现,以74.8分超越Claude Opus 4与DeepSeek-V3.1。
Qwen3-Max-Thinking:推理增强版本通过集成代码解释器并运用并行测试时计算技术,展现了前所未有的推理能力。在极具挑战性的数学推理基准测试AIME 25和HMMT上,均取得了满分。目前,该版本仍在持续训练中,但已展现出非凡潜力。
试用与接入方式
用户可以通过以下两种方式试用Qwen3-Max系列模型:
Qwen Chat:直接访问Qwen Chat官网(chat.qwen.ai),与强大的Qwen3-Max-Instruct模型对话,体验其卓越能力。
阿里云API:注册阿里云账号,开通Model Studio服务,获取专属APIKey后,即可调用Qwen3-Max系列模型的API。由于Qwen系列API完全兼容OpenAI API格式,用户可直接沿用OpenAI调用方式。
阿里通义千问团队表示,将继续全力推进Qwen3-Max-Thinking的训练工作,期待尽快向公众正式发布这一版本,为用户带来更加卓越的模型体验。






