DeepSeek,搅了谁的局?(2)
DeepSeek,搅了谁的局?(2)
上一次AI行业引起全民震动还是2022年11月ChatGPT的横空出世,此后AI行业每逢重大变革,都被称为是“ChatGPT时刻”。
这个词在2024年年底被改写,“DeepSeek时刻”出现,被看作是AI历史上的新转折点。
上一次AI行业引起全民震动还是2022年11月ChatGPT的横空出世,此后AI行业每逢重大变革,都被称为是“ChatGPT时刻”。
这个词在2024年年底被改写,“DeepSeek时刻”出现,被看作是AI历史上的新转折点。
在杀手级应用问世之前,市场竞争的核心在于背后大模型技术的较量。当前,DeepSeek对行业的影响已波及至第二批自研大模型企业。
从投资人的角度审视,王晟指出,自2024年5月DeepSeek发布V2模型引发中国大模型价格战以来,业内普遍认为,在国内巨头中,阿里的Qwen模型表现最佳;豆包虽在2023年尚显不足,但2024年下半年进步显著。在创业公司阵营中,DeepSeek与月之暗面(Kimi)的增速最为迅猛。而其他“五小龙”——零一万物、MiniMax、百川智能、智谱AI、阶跃星辰——有的转向,有的退出,有的依托国资背景,但整体增长势头逐渐放缓,六小龙的格局亦趋于瓦解。
这些闭源大模型企业,某种程度上,亦需应对与国外巨头相似的挑战:如何降低训练成本?是否拥有更高效的训练途径?API价格战是否还将持续?
在这场无声的竞赛中,技术的革新与市场策略的调整成为企业生存与发展的关键。
在探讨DeepSeek是否将重塑芯片市场的版图时,业界专家普遍认为,算力竞赛虽将持续,但当前正处于一个重新评估的关键时期。曾几何时,英伟达的热潮席卷全球,其股价如今虽已回归理性区间,但长远来看,其价值无疑将再攀高峰。换言之,英伟达并非DeepSeek的牺牲品,反倒是随着模型应用领域的不断拓展,模型的“平权化”趋势愈发明显,对算力的渴求亦日益增强。
DeepSeek引领行业从对AGI极限的追求中抽身,转向对产业落地的现实关注。它以低廉的成本提供高效的能力,推动产业链创新,助力AI原生应用与AI硬件的蓬勃发展。“2025年,AI商业化落地将迈入新纪元”,林志如此断言。
DeepSeek的成功验证了我国AI产业从芯片到模型的部分国产化替代可能性,极大地提振了产业信心。春节期间,国内云服务与GPU厂商纷纷部署DeepSeek。
然而,随着DeepSeek逐渐成为行业焦点,其自身的选择可能成为最大的挑战。
据悉,阿里巴巴正计划以100亿美元的估值,投资10亿美元收购DeepSeek10%的股权。这一估值已超越月之暗面(33亿美元)和智谱AI(20亿美元)。尽管阿里巴巴方面对此消息予以否认,但有人指出,依托幻方的DeepSeek此前从未寻求过融资。尽管如此,市场仍担忧其他战略方可能正在接触DeepSeek。
在这个春节,市场或许正面临着最不愿见到的结局。DeepSeek,一个曾被誉为“泼天富贵”的公司,原本是一家追求独立自主的企业。梁文锋,这位公司的代表,曾向媒体透露,与那些大型企业所采用的模型相比,DeepSeek的最大特色在于其完全的自由性:“大厂往往与平台或生态紧密相连,而我们是彻头彻尾的自由之身。”然而,有人担忧,若DeepSeek此次接受了任何战略投资方的资金,AI界的“六小龙”故事或许将在其身上重演。
放到更大视角来看,DeepSeek的崛起之所以被海外巨头如此重视,背后是两种路径的对比。
王晟解释,AI产业在跑通AGI方向上往往有两种不同的路径选择:一个是“算力军备”范式,堆技术堆钱堆算力,先把大模型性能拉至一个高点,不断推高AGI的能力上限,再考虑产业落地;另外一个是“算法效率”范式,一开始就以产业落地为目标,通过架构创新和工程化能力,推出低成本高性能模型。
可以看到,以往大模型公司之间的竞争,基本都是押注“算力军备”范式。在这种范式下,OpenAI、Anthropic、谷歌,包括国内AI六小龙等企业,都是重资本投入型企业。
因为需要巨大的资金量,这意味着资本市场只能支持少数几家企业,AI巨头的市场集中度远高于其他行业。
DeepSeek-R1发布之际,美国总统特朗普宣布了一个总额达5000亿美元的AI基础设施项目“星际之门”,OpenAI、软银和甲骨文等都已承诺参与其中。稍早前,微软表示2025年将在AI基础设施上投入800亿美元,扎克伯格则计划在2025年为其AI战略投资600多亿美元。
一个无法忽略的市场环境是,过去大家都在追求AGI能力的不断增长,只要模型性能增长的够快,竞争对手在后面无论怎么进行数据工程优化都追不上头部企业。但是到2024年11月左右,“高质量文本训练数据即将被消耗殆尽”的论调敲响了行业警钟,如果数据供应停滞,模型训练也可能停滞,大家意识到之前比较粗放的训练模式确实可能存在瓶颈,即使往上堆算力,延长训练时间和增大数据量级,能力增长也几乎到头了。
在这个时间点,其实也有企业认为“算法效率”范式是当下可行的范式,只是DeepSeek先做出来了。“它的一系列模型也证明了,在天花板涨不动的情况下,把重点放在优化效率而非能力增长上的范式也具有可行性。”王晟称。
这样的背景下,DeepSeek以一个“搅局者”的身份出现,美国AI巨头“花钱砸模型很值”的资本故事逐渐不成立了。
DeepSeek以开源模型入场,被视为是靠生态的力量去挑战领先者,而领先者为了怕被搅局,通常会越来越封闭。
“其实中美的主流路线已经完全反过来了”,林志称。在阿里Qwen性能追赶上来之前,全球最主流的开源模型是Meta的Llama,在海外市场,Llama一度落后于OpenAI跟Claude等闭源模型,但在国内,目前在大模型上支大旗的反而是开源模型。
不过,也有不少业内人士认为不应该过分乐观,因为DeepSeek只能说是给2025年开了个好头,竞争还在继续,差距依旧存在。
近期,几大海外巨头就推出了新模型。2月1日,OpenAI发布最新推理模型o3-mini系列,这是OpenAI首个开放给免费用户的推理模型。2月6日,谷歌官宣Gemini 2.0家族更新,其中Gemini 2.0 Flash-Lite版本被称为谷歌目前为止性价比最高的模型。
正如梁文锋自己所说,虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的。数据工程也是其中很重要的一环,OpenAI虽然面临侵权问题但积累了自己的数据库,豆包因为TikTok事件影响也宣称自己不会进行数据蒸馏,“原生搭建的数据库”成为大厂的护城河之一。
另外,王晟提到,根据Trade-off Curves(取舍曲线),DeepSeek选择的路径意味着它的精力重点在于工程优化,那就很难在能力上限上取得突破,“它用现有方法继续迭代新版本,能力能提升多少?这是个问题。”
从学生时代起,梁文锋就展现出探索AGI的热情和不断创新的追求,DeepSeek此前只是躲开了无效或失败的尝试,但我们也不应该否认前一种路径中,巨头们不惜代价,通过各种未知的尝试来拓宽AGI边界的努力。
DeepSeek搅动的这一片汪洋,涟漪还在继续扩大。