被低估的 Qwen
• Qwen 2.5-Max ◦ 核心特性: ▪ 基于超大规模 MoE(混合专家)架构,预训练数据量达 20 万亿 tokens,支持 29 种以上 语言,包括中文、英文、日文等。 ▪ 支持 128K 上下文长度,可生成 8K 内容,适用于长文本处理和复杂任务(如报告生 成)。 ▪ 具备多模态能力(视觉理解、视频分析)和编程辅助功能,能生成代码及优化逻辑。 ◦ 性能表现: ▪ 在 Arena-Hard、LiveBench 等基准测试中超越 DeepSeek V3 和 Llama-3.1-405B,尤其 在语言理解和生成任务中表现突出。 • 深度思考(QwQ)推理模型:基于 Qwen2.5-Max 优化的推理模型,专长于数学理解、编程、智 能体交互,并支持联网搜索。 ◦ 特点: ▪ 展示完整的思维链(Chain-of-Thought),适合需要逐步推理的场景(如数学题解答)。 ▪ 目前为预览版(QwQ-Max-Preview),计划发布正式版及适配移动端(Android/iOS)的 应用,并开源权重。 ▪ 提供轻量级版本(如 QwQ-32B),便于本地设备部署。 • Qwen2.5-VL 系列多模态模型 ◦ 模型尺寸:包含 3B、7B、72B 三个版本,兼顾端侧部署(3B)与高性能(72B)需求。 ◦ 核心能力: ▪ 支持动态分辨率视觉编码,增强图像、视频理解能力,尤其在表格解析任务中表现优异, 超越 GPT-4-o 和 Claude3.5。 ▪ 具备时空感知能力,可处理 1 小时视频内容,并支持坐标、JSON 等结构化输出格式 8。 ▪ 开源协议为 Apache 2.0,开发者可免费商用。 • Qwen2.5-1M 长上下文模型 ◦ 关键突破: ▪ 上下文长度扩展至 1M tokens(百万标记),显著提升长文本(如技术文档、法律文书) 的处理能力 9。 ▪ 基于稀疏注意力技术优化推理框架,速度提升 3-7 倍,适用于实时服务场景。; 第一个追上 DeepSeek 的模型 Qwen 的模型能力在突飞猛进,现在看起来他们的投入比想象的还要激进,他的激进逻辑并不只是要 做一个助手或者大模型的。更像是需要有一个强有力的基座模型来支撑整个业务中台体系的发展,而 这个发展跟电商相关,跟云相关,甚至跟他想要做的基础设施建设也相关。 从他们模型迭代的能力和速度来看,开源一定程度上给他们的路线和方向带来了信心,尤其是他们可 能在生图或视频领域会有巨大的发展和进步。 Qwen 整个技术体系对于模型的优化能力一直被低估,不管是 HuggingFace 还是 GitHub ,包括开发 者群体里,对于 Qwen 的模型能力的讨论都是有口皆碑,一个容易被忽视的事实是,最早 DeepSeek R1 模型刚刚发布的时候,大家普遍开始使用的那个蒸馏版本也是基于 Qwen 的技术体系的。 Qwen 模型全尺寸开源,基座模型能力优秀,整个在技术投度上基本是毫无保留,加上手里的储备又 足够多,出结果是早晚的事情,之前可能有一些东西没有确定,所以没有那么激进,但现在如果一旦 路线被确定,那就非常激进了,有点像当年 OpenAI 出来之后,后面再去复现和追 OpenAI 的公司有的 预期就非常明确了。他们也是第一个能够追平 DeepSeek 模型能力的公司。 国内模型除 DeepSeek 之外最好的开源生态 由于过去一直都是全尺寸开源,Qwen 对于上下游的从业者来说是非常友好的状态,造就了一定程度 上的生态口碑,国内国外基于 Qwen 的衍生模型数量加起来接近 10 万,远超 Meta 的 Llama 系列,目 前是全球最大的生成式语言模型族群,在 HuggingFace 的下载量也排名第一。加上他们自己拥有的开 发者社区,从现在的活跃度和未来可持续的成长空间来说,是没有任何问题的。只是看这套服务体系 未来在各个维度里面怎么去延展和结合,从现在的情况来看,面对的两头的压力都应该是有的。从他 们整个战略价值来说,未来服务万亿甚至几十万亿市场规模底层的需要模型能力的地方太多了,上个 时代他们做电商发现云的机会,今天基于电商和云在长出来的 AI 驱动一切,面对的机会体系可能比当 时看到云的机会还要大得多,这也是新的主帅一定程度上非常坚定的领域之一,当然基于模型之外能 有多少新的东西,孵化多少新的产品出来,今天还在是不断尝试的状态,除了看到的夸克和钉钉,淘 宝天猫和云的服务体系也都有新品不断推出,有一个点找到了突破就不会只倾向于一个点,所有的能 力维度只要组织结构体系上不出现问题,市场空间里还能容得下至少 10 个夸克。