当做量化对冲基金出身的梁文锋进入人工智能研究领域时,他手里囤了上万枚英伟达芯片,组建了一支雄心勃勃的青年才俊队伍。两年后,DeepSeek异军突起。

2025年1月20日,中国一所不知名的科技初创公司DeepSeek发布了他们的最新开源模型DeepSeek-R1,并迅速成为硅谷热议话题。根据该公司撰写的一篇论文,DeepSeek-R1在多个数学和推理基准测试中击败OpenAI o1等业界领先模型。事实上,从性能、成本、开放性等许多重要维度来看,DeepSeek全方位地让西方AI巨头倍感压力。

DeepSeek的成功表明了中美科技竞争的一个意外结果。美国实施出口管制,试图重创中国科技公司按照西方模式——通过购买更多芯片、进行更长时间训练来无限扩大规模——发展AI的能力。因此,大多数中国企业只得聚焦下游应用,而非构建自己的模型。但DeepSeek开辟了另一条取胜之道:改造AI模型的基础结构并更有效地利用有限的资源。

研究中国创新的澳大利亚悉尼科技大学副教授玛丽娜 · 张(Marina Zhang)指出:“与许多高度依赖先进硬件的AI企业不同,DeepSeek专注于最大程度地优化软件驱动资源。DeepSeek拥抱开源方法,汇集专业知识,促进协作创新。DeepSeek之道,不仅在一定程度上摆脱了资源限制,还加速了尖端技术发展,使自己从孤立闭塞的竞争环境中脱颖而出。”

那么,谁是这家AI初创企业的掌舵者?他们为什么突然发布并选择免费开放这款行业领先的模型?《连线》(WIRED)杂志的团队采访了中国AI行业的专家,并对此前有关DeepSeek创始人梁文锋的访谈内容做了梳理,最终拼合出他们视角下的DeepSeek成功秘诀。

明星对冲基金

在中国的AI行业,DeepSeek是“非正统”出身。它最初是对冲基金公司幻方量化(High-Flyer)旗下的一个深度学习研究部门,叫“萤火”(Fire-Flyer)。幻方成立于2015年,后迅速壮大,成为中国第一家募资规模超过1000亿元人民币的量化对冲基金。

多年来,幻方一直在储备图形处理单元(GPU)并构建“萤火”超级计算机用以开展量化交易。2023年,拥有信息与电子工程学硕士学位的梁文锋决定将基金的资源投入新公司DeepSeek——它要建立自己的尖端模型,并尝试开发通用人工智能——就像“简街资本”(Jane Street)决定成为一家AI初创企业,将资金投入科学研究一样。

这是宏伟的愿景,大胆的转型。但最终他们成功了。张说道:DeepSeek代表了新一代中国科技公司,他们优先考虑长期技术进步而非快速商业化。”

梁文锋曾向媒体表示,转向开发AI模型的决定出于科学好奇心,而非营利的愿望。“如果一定要(为创办DeepSeek)找一个商业上的理由,它可能是找不到的,因为划不来。从商业角度来讲,基础研究投入回报比本就很低。OpenAI早期投资人投钱时,想的一定不是我要拿回多少回报。当 OpenAI 的早期投资者给它钱时,他们肯定没有想过会得到多少回报,而是真的想做这件事。”

一群渴望证明自己的年轻天才

梁还指出,当他组建DeepSeek的研究团队时,自己并未选择寻找经验丰富的工程师来打造面向消费者的产品,而是重点关注来自中国顶尖学府,包括北京大学和清华大学的博士生,这些年轻人渴望证明自己。据量子位(QBitAI)报道,DeepSeek招募的许多人都曾于顶级必威体育备用地址 发表文章,并在国际学术会议上获奖,但缺乏行业经验。

梁曾在2023年表示:“我们的核心技术岗位基本以应届生和毕业一两年的人为主。”这种招聘策略有助于建立一种协作的公司文化,让员工能自由使用充足计算资源来开展非正统的研究项目。这与中国成熟的互联网公司的运转方式截然不同。

梁认为,学生更适合高投入、低利润的研究。“大部分人在他们年轻的那些年,可以完全不带功利地投入去做一件事。”他告诉潜在雇员们,DeepSeek的创建旨在“解决世界上最难的问题”。

专家表示,这些年轻研究者几乎完全在中国接受教育,因此也有了更大的驱动力。用张的话说,“年轻一代有很强的爱国主义情怀,尤其当他们看到美国的限制以及关键硬件和软件技术的瓶颈时,他们克服重重障碍的信心就更加坚定了,这不仅体现其个人壮志,也反映了他们要将祖国推至全球创新领先者地位的宏大理想”。

危机孕育创新

2022年10月,美国政府开始制定出口管制措施,严格限制中国人工智能企业使用英伟达的H100等尖端芯片。此举措使DeepSeek遭遇麻烦。公司原本储备有1万枚A100芯片,但后续要与OpenAI和Meta等公司竞争,就必须获得更多芯片。梁在2024年接受采访时表示:“我们面临的问题从来都不是钱,而是高端芯片被禁运。”

DeepSeek必须想出更有效的方法来训练模型。墨卡托中国研究中心(MERICS)政策分析师、软件工程师出身的温迪 · 张(Wendy Chang)表示:“他们利用一系列工程技巧优化了模型架构。这些技巧包括定制的芯片间通信方案、减小字段大小以节省内存,以及创新地使用混合模型方法等。其中许多方法并非新概念,但它们被成功地组合在一起,进而创建出最先进的模型。这是一项非凡的工作。”

DeepSeek还在多头潜在注意力机制(MLA)和混合专家模型(MoE)方面取得了重大进展,这两项技术设计使DeepSeek模型更有性价比,因为训练所需的计算资源更少了。事实上,根据研究机构Epoch AI的数据,DeepSeek最新模型高效到了只需要Meta的Llama 3.1模型1/10的计算能力即可。

DeepSeek愿意与公众分享自己的创新,这为其在全球人工智能研究界赢得了极大声誉。对于许多中国AI公司来说,研发开源模型是赶超西方同行的唯一路径,因为这样可以吸引更多用户和贡献者,从而帮助模型成长。

资料来源 Wired