DeepSeek-R1在推理任务中的表现媲美OpenAI的o1,并向研究人员开放审查。
中国开发的名为DeepSeek-R1的大语言模型作为一种平价开源模型,成了OpenAI的o1这类“推理”模型的竞争对手,令整个科学圈兴奋不已。
这类模型通过逐步生成响应的方式运作,类似于人类的推理过程。这使得它们比之前的语言模型更擅长解决科学问题,并有望在科研中发挥作用。2025年1月20日发布的对R1的初步测试显示,其在特定化学、数学和编程任务上的表现与o1不相上下。OpenAI在2024年9月发布的o1曾令研究人员赞叹不已。
“这太疯狂了,完全出乎意料。”英国人工智能(AI)咨询公司DAIR.AI的联合创始人、AI研究员埃尔维斯 · 萨拉维亚(Elvis Saravia)在社交媒体平台上写道。
R1之所以引人注目,还有另一个原因。构建该模型的DeepSeek是杭州的一家初创公司,该公司以“开放权重”的形式发布了该模型,允许研究人员研究并改进算法。该模型基于麻省理工学院(MIT)许可证发布,能免费重复使用,但不被视为完全开源,因为其训练数据并未公开。
德国马克斯 · 普朗克光学研究所的人工智能科学家实验室负责人马里奥 · 科瑞恩(Mario Krenn)称赞说:“DeepSeek的开放性相当显著。”他表示,相比之下,位于旧金山的OpenAI构建的o1等模型(包括其最新成果o3)“本质上都是黑箱”。
DeepSeek还没有公布训练R1的总成本,但它向使用其界面的用户收取的费用约为o1运行费用的1/30。该公司还创建了R1的迷你“蒸馏”版本,让计算能力有限的研究人员也能上手。“在o1上要花约370美元的一个实验,用R1只要不到10美元,”科瑞恩说,“这种巨大差异肯定会影响该模型未来的应用。”
挑战模型
R1是中国大语言模型崛起的一个缩影。DeepSeek脱胎于一家对冲基金公司,2024年12月发布了名为V3的聊天机器人。尽管预算不高,V3的表现却优于主要竞争对手。专家估计,DeepSeek大概花了600万美元用于租借训练该模型的硬件,而Meta的Llama 3.1 405B则花了至少6000万美元,后者使用的计算资源约为前者的11倍。
DeepSeek备受关注的部分原因在于,尽管美国出口管制限制了中国企业获取专为AI处理设计的最佳计算芯片,它仍成功开发出了R1。西雅图的AI研究员弗朗索瓦 · 肖莱(Fran?ois Chollet)表示:“R1来自中国的事实表明,有效利用现有资源比只关注计算规模更重要。”
“DeepSeek的进展说明,美国曾经拥有的领先优势已经大大缩小,”在台湾沉浸式科技公司宏达电(HTC)工作的技术专家阿尔文 · 王 · 格雷林(Alvin Wang Graylin)在社交平台写道,“中美两国应该联手打造先进AI,而不是继续目前这种两败俱伤的军备竞赛。”
思维链
大语言模型一般在数十亿个文本样本上进行训练,将它们拆分成字词单元(被称为“记号”),并学习数据中的模式。这些关联使得大语言模型能预测句子中的后续“记号”。但是,大语言模型容易虚构事实,这种现象被称为“幻觉”,往往难以通过推理解决问题。
和o1一样,R1也使用“思维链”的方法来提升大语言模型解决更复杂任务的能力,包括必威在线网站首页网址 回溯与策略评估。DeepSeek利用强化学习(RL)对V3进行“微调”以开发R1,这种方法会在模型获得正确答案时或在模型以展示其“思维”的方式解决问题时进行奖励。
英国爱丁堡大学的AI研究员李文达(Wenda Li,音译)表示,算力有限迫使该公司“在算法上进行创新”。在强化学习的过程中,DeepSeek团队会在每个阶段评估该模型的进展,而不是用另外的网络进行评估。英国剑桥大学的计算机科学家玛特亚 · 亚姆尼克(Mateja Jamnik)认为,这有助于降低训练和运行成本。研究人员还使用了“混合专家模型”架构,该架构允许模型只激活与每项任务有关的部分。
在与该模型同时发布的一篇技术论文报告的基准测试中,DeepSeek-R1在加州大学伯克利分校的研究人员创建的MATH-500数学问题集上获得了97.3%的分数,并在算法竞赛平台Codeforces的编程竞赛中打败了96.3%的人类对手。这些表现与o1的能力不相上下(o3未被纳入此次比较)。
目前很难断言基准测试是否捕捉到了模型真正的推理或泛化能力,还是仅仅反映了其通过测试的熟练度。“不过,由于R1是开源的,研究人员能够解析它的思维链,”剑桥大学的计算机科学家马尔科 · 桑托斯(Marco Dos Santos)说,“这有助于更好地解释该模型的推理过程。”
眼下,已经有科学家在测试R1的能力了。科瑞恩让o1和R1这两个对手模型根据有趣程度来对3000个科研创意进行排序,并将结果与人工排序进行比较。在这一标准下,R1的表现略逊于o1。但科瑞恩表示,R1在量子光学的特定计算中击败了o1。“这真的很厉害。”
资料来源 Nature