凌晨!通义千问Qwen3旗舰模型,通用能力与长文本处理显著提升!

凌晨!通义千问更新Qwen3旗舰模型,通用能力与长文本处理显著提升!

昨晚凌晨,通义千问团队宣布,已对其旗舰模型 Qwen3 进行升级,并推出非思考模式(Non-thinking)的更新版本:Qwen3-235B-A22B-Instruct-2507-FP8。此次更新旨在提升模型的综合能力

此次更新旨在提升模型的综合能力,具体体现在以下几个方面:

1. 通用能力增强

新模型在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多个核心能力上均有显著提升。官方数据显示,在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等多个评测基准中,Qwen3-235B-A22B-Instruct-2507-FP8 的表现超越了 Kimi-K2、DeepSeek-V3 等顶级开源模型,以及 Claude-Opus4-Non-thinking 等领先的闭源模型。

凌晨!通义千问更新Qwen3旗舰模型,通用能力与长文本处理显著提升!

2. 多语言知识覆盖

模型在处理多语言的长尾知识方面取得了显著进展。

3. 用户偏好对齐

在主观和开放性任务中,模型对用户偏好的契合能力得到增强,能够提供更实用、更高质量的回复。

4. 长文本上下文能力

模型支持的长文本输入提升至 256K,进一步增强了上下文理解能力。# 通义千问发布 Qwen3 旗舰模型更新,通用能力与长文本处理显著提升

Qwen3 新模型已在魔搭社区和 Hugging Face 平台同步开源,供开发者进行体验和应用。

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

凌晨!通义千问更新Qwen3旗舰模型,通用能力与长文本处理显著提升!

通用能力增强

1.新模型在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多个核心能力上均有显著提升。

2.官方数据显示,在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等多个评测基准中,Qwen3-235B-A22B-Instruct-2507-FP8 的表现超越了 Kimi-K2、DeepSeek-V3 等顶级开源模型,以及 Claude-Opus4-Non-thinking 等领先的闭源模型。

  •  多语言知识覆盖:模型在处理多语言的长尾知识方面取得了显著进展。

  • 用户偏好对齐:在主观和开放性任务中,模型对用户偏好的契合能力得到增强,能够提供更实用、更高质量的回复。

  • 长文本上下文能力:模型支持的长文本输入提升至 256K,进一步增强了上下文理解能力。

文章来自微信公众号 “ 硅基心脏 ”

搜索