首页 家电百科 实时讯息 常识
您的位置: 首页 > 实时讯息 >

互联网大厂五一前密集开源新模型,布局各异谁将留在牌桌?

0次浏览     发布时间:2025-05-01 21:36:00    

赶在五一假期前,国内大模型厂商接连开源。4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型,并迅速成为全球最强开源模型。随后在4月30日,小米开源首个为推理而生的大模型Xiaomi MiMo,联动预训练到后训练,全面提升推理能力。4月30日晚,Deepseek也在开源社区Hugging Face上正式发布DeepSeek-Prover-V2,并同步上线模型卡及示例代码。

两天内3家巨头大模型宣布开源

Qwen3包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,阿里云开源了两个 MoE 模型的权重,六个密集模型也已开源,每款模型均斩获同尺寸开源模型SOTA(最佳性能),其中千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能。

据悉,阿里云此次开源的千问3是国内首个“混合推理模型”,即将“快思考”与“慢思考”集成进同一个模型,对简单需求可低算力“秒回”答案,对复杂问题可多步骤“深度思考”,这样能大大节省算力消耗。在阿里巴巴千问3开源后,上下游供应链连夜进行适配和调用,NVIDIA、高通、联发科、AMD等多家头部芯片厂商已成功适配千问3。

其中,阿里云今年已持续开源了通义万相首尾帧生视频14B模型、首个端到端全模态大模型通义千问Qwen2.5-Omni-7B、阿里万相2.1模型、视觉理解模型Qwen2.5-VL等模型。对于阿里云的持续开源策略,知名数字经济学者、工信部信息通信经济专家委员会委员盘和林向南都记者表示,阿里云的开源逻辑很简单,阿里云的模型是开源、免费的,但阿里云的硬件比如算力、各类软件工具、容器是不免费的,开源模型要和自己的数据结合形成自己的AI,阿里云以模型开源来切入AI应用并在别的方面实现盈利,开源对阿里整个云服务生态是有利的。

另外在4月30日,小米官方则表示,其最新开源的Xiaomi MiMo在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用7B的参数规模,超越了OpenAI的闭源推理模型o1-mini。值得一提的是,这是小米首次对外开源其模型,据悉,MiMo来自小米内部刚成立不久的“小米大模型Core团队”。

4月30日晚,DeepSeek也正式发布DeepSeek-Prover-V2的两个参数模型,并同步开源、上线模型卡及示例代码。其中此次共推出两个版本DeepSeek-Prover-V2-7B基于上一代 V1.5 模型,支持最长32K上下文输入;DeepSeek-Prover-V2-671B则在DeepSeek-V3-Base基础上训练达到了推理性能最强。新模型主要专注数学定理证明,大幅刷新了多项高难基准测试。

浙江大学计算机科学与技术学院副教授金小刚向南都记者表示,开源不是目的,其实是手段,不同的企业为了配合企业战略可采取了不同的合作策略。“其中,我对阿里还是有期待的,期待中国企业在开源中借助于群体智能,形成技术优势,深化场景应用。一方面,开源是技术普惠公众,因为普惠才会让技术影响世界;另一方面,大模型公司也会借助于开源提升产品性能,推动应用的广度,其本质是共赢。”

在开源生态上,零一万物CEO、创新工场董事长李开复表示,阿里通义千问Qwen、DeepSeek等中国自研顶尖开源模型给全世界带来了巨大撼动,也展示了中国AI探索出了模型训练自主创新的“第二路径”。“这些撼动体现在几个方面,一是开源模型性能足以匹敌闭源模型,虽然目前OpenAI、Anthropic的顶尖闭源模型在性能上仍然保持一定领先,但是与Qwen3、DeepSeek-R1等优秀开源模型相比,领先幅度有限;二是中国大模型公司用‘多快好省’的模型训练路径不仅极大节省了算力,而且强化学习的技术路径更直接让模型训练方式从传统的人工训练AI迭代到了AI训练AI,直接挑战了OpenAI领衔的‘巨量投入才获增长’的‘暴力美学’,展示了中国AI探索出了模型训练自主创新的‘第二路径’。”

李开复还提到,Qwen3一经发布就成为了开源模型中的SOTA(行业最优水平)存在,再次强调了开源模型的竞争力的同时,也为坚持只走闭源路线的硅谷巨头敲响警钟,“花费巨量的资源训出的闭源模型性能仅仅比开源模型略好一点,这样的商业模式是不可持续的。而开源模型进一步让大模型价格接近普惠点,促进了AI平权,这也让中国自研的优秀开源模型有进一步走出国门的空间,让生成式AI驱动的AI 2.0时代的技术发展避免沦为‘富国的游戏’,让中国自主创新的模型技术赋能更多公司,穿透千行百业,成为越来越多国家和地区实现AI主权的利器,真正推进和最终实现AI普惠全人类。”

大厂布局各异,谁能留在牌桌?

可以看到,在大模型时代,互联网大厂正在遵循各自的优势进行布局。其中,阿里通过加大资金和人才投入,以云计算网络作为底层,以通义大模型为底座,在C端应用上则布局了夸克和钉钉;百度也在以B端布局智能云、C端布局AI搜索,应用方面布局秒哒、心响、文库等;字节则主要以火山引擎布局云计算,并押注了全域的多个模型应用;腾讯方面,今年3月腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,用户需求是腾讯大模型的出发点,腾讯将以“核心技术自研+积极拥抱开源”的多模型策略打造“好用的AI”。在云方面,腾讯云智算已服务90%的国内大模型厂商,成为美团、快手、小红书、百川等各行业数万客户的稳固算力底座。

在这一轮AI竞争中,大厂中谁能留在“牌桌”上?今年3 月 20 日,李开复接受媒体采访时表示,在中美两国超大模型的预训练都在逐渐寡头化,并且寡头化的程度在不断加大。他预测中国大模型领域未来将会收敛至 DeepSeek、阿里巴巴、字节跳动三家,其中以 DeepSeek 势头最猛。美国则以xAI的发展势头最为迅速,但OpenAI、Anthropic、Google也都会做出令人敬佩的研发工作。

近期李开复再次对这一预判进行阐释,他提到,目前万亿参数以上的超大模型仍具备重大的战略价值,但往后会更偏向“教师模型”角色,即用来训练轻量化、性能优秀同时更易于穿透产业创造价值的产业大模型等。目前中美大模型公司已进入到寡头化阶段,仍能继续承担做超大模型的公司,需要有极强的资金能力和工程能力。

他还特别提到阿里、字节和DeepSeek各自的优势。在李开复看来,DeepSeek背靠资源雄厚的幻方量化,资金充足,团队本身也具备很强的工程能力,能够在不过度烧钱的前提下持续训练出优质模型。

而字节和阿里则拥有另一个可持续模式,即公司背后存在着巨大的用户量和商业化空间来支撑超大模型的训练。“在这方面,阿里和字节跳动显然具备这样的巨大优势。超大参数模型的训练花费会很高,但是如果模型能够为每个用户都能带来价值,促进商业变现的进程,那么分摊下来投入产出比对于阿里这样身段的公司而言是健康良性的生态闭环。目前Qwen和DeepSeek的模型性能都很出色,在全球开源社群里,Qwen也积累了很高的声望,包括DeepSeek的几个开源模型也公开表达受到Qwen开源模型的启发。字节跳动今天在学术界、模型界以及开源界,还没有像Qwen那么知名。但是字节有资源、有用户和场景,目前来看也有长期投入的决心,相信很快会有出色的研究工作披露。”李开复称。

盘和林则认为,“字节如今在牌桌上优势最大,因为用户大多数是内容创作者,生成式也是当前AI最大的需求场景;腾讯则借助微信的用户流量,未来以移动应用工具为主;阿里背靠阿里云以开源打造AI生态,以阿里云服务来变现;至于百度,主要是将AI和搜索效果结合起来。这里面,我认为阿里最激进,字节用户普及度较高,预计都能留在牌桌上。”

采写:南都记者 林文琪