大家好,我是 Ai 学习的老章

最近一周,阿里Qwen势如破竹,没有人可以阻止阿里的开源速度了

Qwen3-Next-80B-A3B 量化版

22 号阿里放出 FP8 版本的 Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 模型,全面兼容 Transformers、vLLM 和 SGLang 框架,并采用 FP8 精度实现闪电级推理速度  🚀

这算是官方量化版了,我看了一下 Instruct 模型文件从之前的 163GB 降低到 82GB,少了一半,推理成本也低了,估计一张 H200 搞定。量化前的模型我试过,要 2 张 H200,而且还要吧 max-model-len 压到 64K 才能跑起来。

Qwen3Guard 安全审核模型

23 号,阿里开源了 Qwen3 安全审核模型Qwen3Guard,一共 2 个,分两类:

  • Qwen3Guard-Gen,将安全性分类视为指令跟随任务的生成模型;
  • Qwen3Guard-Stream,在增量文本生成期间实时进行安全监控的标记级分类头。

这两类模型又分别有三种大小的模型(0.6B、4B 和 8B)

应用场景:

  • Qwen3Guard-Gen(生成式版) 支持对完整用户输入与模型输出进行安全分类,适用于离线数据集的安全标注、过滤,亦可作为强化学习中基于安全性的奖励信号源,是构建高质量训练数据的理想工具。
  • Qwen3Guard-Stream(流式检测版) 突破了传统的护栏模型架构,首次实现模型生成过程中的实时、流式安全检测,显著提升在线服务的安全响应效率与部署灵活性。

这套模型确实很有价值,但是不太清楚如何与其他模型结合使用,Gen 版可以放在工作流最后一步做打标,Steam 版呢?

Qwen-Image-Edit-2509 更新

Qwen-Image-Edit-2509 的主要特性包括:

阿里开源大模型全球第一,但,最强大模型不开源了
  • 多图编辑支持: 对于多图输入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 结构,通过拼接方式进一步训练,从而进行了支持。提供“人物 + 人物”,“人物 + 商品”,“人物 + 场景”等多种玩法。
  • 单图一致性增强: 对于单图输入,Qwen-Image-Edit-2509 显著提高了一致性,主要体现在以下方面:
    • 人物编辑一致性增强: 增强人脸 ID 保持,支持各种形象照片、姿势变换;
    • 商品编辑一致性增强: 增强商品 ID 保持,支持商品海报编辑;
    • 文字编辑一致性增强: 除了支持文字内容修改外,还支持多种文字的字体、色彩、材质编辑;
  • 原生支持 ControlNet: 包括深度图、边缘图、关键点图等

仅看官方演示,可以媲美 nano-banana 了,实际体验,大家感受:https:///home

Qwen3-VL 指令遵循 + 思考模型

Qwen 系列中最强大的视觉语言模型,分指令遵循和思考两种

看测评数据,纯文本性能一般,多模态能力各种遥遥领先,后面还有一个多模态大模型 Omini,感觉 VL 应该是更专注于文本,视频,尤其是视频,参数量和激活两也都几乎十倍于 Omini

# 微调一个视觉大模型,手写数字识别为例,从零开始,基于 Qwen2.5-VL,附代码!

Qwen3-Omni-30B-A3B-Thinking

Qwen3-Omni 是原生端到端多语言全模态基础模型。它处理文本、图像、音频和视频,并以文本和自然语音的形式提供实时流响应。在 36 个音频/视频基准测试中的 22 个达到 SOTA,在开源 SOTA 中达到 36 个中的 32 个;ASR、音频理解和语音对话性能与 Gemini 2.5 Pro 相当。

模型名称
描述
Qwen3-Omni-30B-A3B-Instruct
Qwen3-Omni-30B-A3B 的指令模型,包含思考者和说话者组件,支持音频、视频和文本输入,输出为音频和文本。
Qwen3-Omni-30B-A3B-Thinking
Qwen3-Omni-30B-A3B 的思考模型,包含思考者组件,具备链式思维推理能力,支持音频、视频和文本输入,输出为文本。
Qwen3-Omni-30B-A3B-Captioner
从 Qwen3-Omni-30B-A3B-Instruct 微调而来的下游音频细粒度字幕模型,可为任意音频输入生成详细且低幻觉的字幕。它包含思考者组件,支持音频输入和文本输出。

这套模型应该还更偏向于端测应用,但是不够端,模型文件合集 64GB。

后续量化后能保持性能不大幅下降就完美了,目前✅GPU 要就还是太高了。

模型
精度
15 秒视频
30 秒视频
60 秒视频
120 秒视频
Qwen3-Omni-30B-A3B-Instruct
BF16
78.85 GB
88.52 GB
107.74 GB
144.81 GB
Qwen3-Omni-30B-A3B-Thinking
BF16
68.74 GB
77.79 GB
95.76 GB
131.65 GB

这三个模型我最感兴趣的是Qwen3-Omni-30B-A3B-Captioner,但是他的缺点也很致命:音频长度不超过 30 秒,而且它是单轮模型,每次推理仅接受一个音频输入。它不接受任何文本提示,只支持音频输入,并仅输出文本。取代 OpenAI 的 Whisper 估计没戏。

Qwen3-Max:大就是好

Qwen3-Max-Instruct 的预览版在 LMArena 文本排行榜上位列第三,超越了 GPT-5-Chat。正式版本在代码能力和智能体(agent)能力方面进一步提升,在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平。

Qwen3-Max 的推理增强版本—— Qwen3-Max-Thinking 正在训练

一句话总结:很强,但不开源。