大模型可以完成更多样化的任务,但小模型能在特定领域以更低成本、同样行之有效的方式满足需求。
大语言模型(LLMs)之所以性能卓越,正是得益于其庞大的规模。OpenAI、Meta和DeepSeek的最新模型都使用了数千亿个参数,这些参数如同可调节的旋钮,决定了数据之间的关联,可以在训练过程中进行调整。当有了更多的参数,模型就能更好地识别数据的模式和它们之间的关联,从而变得更强大、更精准。
但这种能力的获得是有代价的。训练一个拥有数千亿个参数的模型需要大量的计算资源。例如,据报道,谷歌为了训练Gemini 1.0 Ultra模型花费了1.91亿美元(约合13.79亿元人民币)。此外,LLMs每次响应请求时也需要相当强大的计算能力,这使它们成为臭名昭著的能耗大户。根据美国电力研究所的数据,ChatGPT单次查询消耗的能量大约为谷歌搜索的10倍。
因此,一些研究人员正考虑使用小模型。IBM、谷歌、微软和OpenAI最近都发布了小语言模型(SLMs),这些模型都只使用了几十亿个参数。(关于“小”的确切定义,学界目前还没有达成共识,但新模型的最大参数都在100亿个左右。)
小模型虽然不像大模型那般通用,但它们可以在特定的任务场景中表现出色,比如总结对话、作为医疗聊天机器人回答病人的问题以及在智能设备上收集数据等。卡内基梅隆大学的计算机科学家济科 · 科尔特(Zico Kolter)说:“对于很多任务来说,一个80亿参数的模型实际上已经相当不错了。”这些模型在笔记本电脑或手机上就可以运行,无需依赖庞大的数据中心。
为了优化这些小模型的训练过程,研究人员使用了一些技巧。大模型经常从互联网上抓取原始训练数据,这些数据可能是杂乱无章的,难以处理。但是,这些大模型生成的高质量数据集可用于训练小模型。这种方法被称为“知识蒸馏”,也就是让更大的模型有效地传递它的训练成果,就像老师给学生传递知识一样。科尔特说:“SLMs能实现高性能,原因就在于其使用的数据质量高。”
研究人员还探索了通过压缩大模型来构建小模型的方法,这种方法被称为“剪枝”,需要删除神经网络(一个庞大的节点网络,是构建大模型的基础)中不必要或低效的部分。剪枝技术可以帮助研究人员针对特定的任务或环境调整小模型。如今所说的剪枝技术可以追溯到1989年的一篇论文。在这篇论文中,现就职于Meta公司的计算机科学家杨立昆(Yann LeCun)认为,在不牺牲效率的情况下,训练有素的神经网络中高达90%的参数都可以被删除。
对于那些有兴趣研究语言模型如何运作的研究人员来说,较小的模型为他们提供了测试新想法的低成本方式。而且,由于参数比大模型少,较小的模型在推理方面可能更加透明。麻省理工学院- IBM沃森人工智能实验室的科学家莱谢姆 · 乔申(Leshem Choshen)说:“如果你想创建一个新模型,那就需要不断尝试,而小模型可以让研究人员在较低风险下进行实验。”
随着参数的不断增加,巨大而昂贵的模型将继续在通用的聊天机器人、图像生成器和药物研发等领域大显身手。但对于许多用户来说,一个有针对性的小模型在某些领域同样行之有效,研究人员也更容易训练和构建。乔申说:“这些高效的模型可以节省资金、时间和算力。”
资料来源 Quanta Magazine