人工智能赋能科研(AI for Science, AI4S)是当前人工智能发展新前沿,也是促进科技变革的关键部分。关于AI4S的发展机遇与挑战,上海市科学学研究所邀请国内高校院所及企业的多位一线青年专家进行了座谈,并梳理了各位专家的主要观点,以飨读者。
对AI4S的政策支持应从AI重构科学研究的实践本质出发
封凯栋
北京大学政府管理学院公共政策系主任
在科技政策研究领域,学者对人工智能普遍持乐观态度,但我个人却还有一些疑虑。特别是基于复杂理论的文本驱动方式,解决问题并生成“智能”尚缺乏理论依据。从政策研究角度来看,人们首先需要明确各阶段AI应用的实质及其演进发展目标。就现阶段AI的发展水平而言,人工智能赋能工程(AI for Engineering,AI4E)和AI4S之间的差异尤为关键。AI4E任务目标明确,AI能从基于人们的经验中更好地做方案筛选,或基于经验做推理,帮助人们更好地选择和发展技术方案;而AI4S还有更大的挑战尚未解决,因为科学探索本质上是从已知的条件走向未知的目标,这就决定了科学探索的过程和工具都难以完全预先规划。所以在AI发展出真正的“智能”之前,它对科学探索当然有很大的帮助,但也决定了它的功能主要是面向特定类型的、很有可能是那些基于经验的、易于在逻辑上拓展的活动。
所以,在科技政策中对AI4S的讨论,首先应该界定,在引入AI之后,从事科学探索的人和AI之间关系是如何重构的。这不仅仅是个重要的认识问题,同时也是一个政策问题。因为只有了解了引入AI后人机关系的重构,科技政策才能更有效地定位于那些能够为科研团队、为国家提高科学能力,带来战略性优势的领域。目前数据质量、数据主权和算力等问题得到了同行们广泛的认同,这些基础设施能力固然非常重要,但它们并不是引入AI后科学活动内在结构的全部。如果我们仅仅聚焦于将数据和算力堆积到极限,那就意味着我们事实上期待于产生一个高度“集中化”的科研结构:由国家来集中,或者由商业的“算力/数据平台”来集中。而这是人们所期待的科学前景吗?科研的多样性、科学工作者的创造力、组织性的协作真的在未来的图景中不重要了吗?
要想解答这些问题,我们依然需要逐步摸索、并尝试对引入AI之后科研活动的形态做“模式化”分析。中国虽然在AI应用上已有显著进展,但政策讨论多停留在数据、算力和人才层面,未深入到AI对科研方法和活动的影响。未来政策应关注如何通过合理的体系和支持,推动AI在科学探索中的创新应用。
2025年AI4S的突破可能发生在自主科学发现与“冷门”学科
董楠卿
上海人工智能实验室科学智能中心联合负责人
“堆数据、堆算力就能解决AI问题”的观点值得质疑。科研组织方式、环境和政策在AI发展中扮演着关键角色。以美国贝尔实验室和IBM实验室的辉煌时期为例,其实验室产出的突破性科研成果不仅依赖于充沛的科研物质基础(例如当今的数据和算力),更得益于良好的科研环境和组织模式。其他国家的类似经验也表明资源堆砌并不保证产出顶尖的科研成果。而“撒胡椒面”式的科研资源分配策略和领域权威建议下的科研布局模式可能导致资源分配效率低下和科研环境僵化。相比之下,利用有限资源“集中力量办大事”进行单点突破可能取得更好的成果。科研合作方面,打破学科和团队壁垒、促进高水平团队合作是关键,政策和机制的引导至关重要。
“人工智能赋能科研”和“科研赋能人工智能”(Science for AI)的学科视角有很大差异,前者是构建通用大模型,力图解决多个科学问题,后者则是从具体科学问题出发反向构建模型。这反映了AI与科学研究的认知差异。AI4S按技术路线可分为三类:数据驱动型,如《科学》杂志刊载的封面文章——EVO模型对DNA序列进行了大语言模型建模;计算驱动型,如气象大模型预测;创新驱动型,如2024年提出的自主科学发现框架“人工智能科学家”(AI Scientist)。虽然最近几年数据驱动型和计算驱动型的AI4S皆已取得亮眼成果,但进一步的颠覆性突破还需要更长的时间积累。预计2025年最有可能突破的是创新驱动型,即AI推动的科学发现,当前还处于蓝海。从学科角度来看,2025年AI4S学科领域突破可能来自冷门学科。当前AI4S主要通过AI模型解决已知问题,相较于医学、材料学、合成生物学等广受关注的学科,一些“冷门”学科因资源和关注度等原因发展较慢,在AI赛道上尚有追赶空间,可能迎来意外突破。
AI4S潜力巨大,但技术和商业化问题让它难以拿到投资者“大钱”
杨 光
上海耀途资本创始合伙人
AI4S是一个新兴领域,尽管发展周期较长,但已在医药、材料等领域取得显著进展。早期的投资主要集中在硬件和基础设施公司,但随着技术发展,AI4S在不同应用场景中的潜力逐渐凸显。
AI4S的成功依赖于几个关键因素。首先,明确的业务场景和客户支持至关重要。例如,天鹜科技通过与大型药厂合作,为技术落地提供了基础。其次,数据质量、数据源的丰富性、数据共享和标准化对技术成熟和产业发展也至关重要,天鹜利用公开和非公开数据,确保技术在数据有限情况下顺利发展。
现在AI4S公司要获得前几轮投资容易,但要获得长期稳定的“大钱”比较难。一方面,科研进展周期长,尤其对于尚处于科研阶段的公司,商业化前景不明确;另一方面,国内投资的可持续性问题亟待解决。政府的政策支持,如资金链保障,能够有效减轻初创企业的压力。
如何利用人工智能提炼和发现自然规律是AI4S的下一个挑战
杨少青
上海瀚诺威生物科技有限公司首席科学家
在AI4S的应用中,蛋白质工程、结构预测和文本翻译等领域已受益显著,主要得益于大规模数据集的存在。然而,在许多其他产业,受限于硬件和数据集的瓶颈,人工智能的应用仍受到制约。在蛋白质工程的研究中,当前的工作已涵盖从上游到下游的各个环节,主要通过整合现有人工智能软件和个人创新,推动工程应用。尽管结构预测已有较高准确度,但在科学原理的深度研究方面,人工智能更多地扮演了工具角色,而非提供根本性的突破。
当前人工智能的一个主要问题是其“黑箱”特性,大量参数难以解读,使得算法无法总结出真正的科学规律。在过去十年,人工智能在某些领域推动了进展,但在科研中,尤其是在最基本的化学和物理原理研究方面,其局限性显而易见。人工智能的优势在于其能够通过大量数据进行总结和归纳,但它的局限性在于无法推导出全新的原理或结构,无法从根本上改变现有的科学框架。因此,尽管人工智能在科学研究中扮演了重要角色,但在真正推动基础科学进展和理论创新方面,仍需依赖传统的科学方法和基础研究。未来的挑战在于,如何在有限的数据集下推动更深入的科学发现,而不仅仅是通过同源建模等方法进行精细化的预测。
AI4S的发展离不开政府支持,尤其在资源整合、人才培养和科研转化方面
王宇光
上海途深志合人工智能科技有限公司创始人、CEO
AI4S作为跨学科领域,尤其在合成生物学和人工智能交叉应用中具有巨大潜力。根据鄂维南老师的研究,AI4S通过深度学习解决高维方程,为科学预测提供了理论基础,尤其在物理学验证和预测方面展现了能力。随着DeepMind和OpenAI的进展,AI在化学、生物学等领域的应用潜力日益显现,AI4S的可行性也逐渐明确。
然而,AI4S的实施面临跨学科合作和数据采集的挑战。该领域涉及多个学科,如人工智能、计算机科学、生物技术等,迫切需要汇聚多学科人才,包括算法工程师、生物信息学专家等。此外,数据采集与整合也是关键问题,虽然已有进展,但数据清洗、整合和优化仍需加强,尤其要在多个模态数据的处理上取得显著成效。此过程对于单个企业而言难以完成,跨团队合作和政策支持尤为重要。
在科研转化方面,上海交通大学提供了开放的创业政策和资金支持,但企业仍面临实际问题,如如何将高校毕业生培养为适应企业环境的工程师?学生从学术到企业的转变需要学校与企业共同探讨。AI4S的发展离不开政府支持,政府需在科研资金、跨学科合作、数据共享和企业协作上发挥积极作用,尤其在人才培养和科研转化方面,以推动AI4S的长期发展。
AI4S领域亟待更细分精准的科研组织与评价方式
周冰心
上海交通大学自然科学研究院助理研究员
AI4S和AI4E在研究重点、评估方式及周期上存在显著差异。AI4E侧重工程应用,数据明确且问题清晰,因此能较早实践并快速见到成果。然而,在一些已有成熟工具的领域(如蛋白质结构预测),新工具的开发需求相对较低,性价比不高。而AI4S处理的是复杂、开放的科研问题,许多问题尚处于探索阶段,且没有现成的解决方案。例如,早期生命的形成或微生物群落差异等问题需要在数据不完全和方法不成熟的情况下进行探索,使得AI4S的应用周期较长,且难以用传统工程化标准评估其进展。
此外,AI4S的发展依赖于与科研团队的合作,特别是在缺乏现成数据集的领域。例如,探讨不同生物环境中的微生物群落差异需要跨团队合作和数据共享,这种合作模式对单一研究者不可行。
公众往往误解AI4S,过度关注大数据和大模型,然而并非所有科研问题都需要依赖大模型,尤其是需要自由探索的课题。科研多样性和创新思维应得到尊重。同时,青年科研人员面临职称和资历限制,往往难以获得足够支持,这也影响了AI4S的创新和发展。因此,AI4S的成功需要技术突破、跨学科合作、数据共享以及对科研多样性的重视。
数据匮乏和多样化复杂需求,是目前工程实践中AI4S面对的两个难点
卢静宜
华东理工大学信息科学与工程学院教授
在化工过程系统工程领域,数字化智能化的相关工作起步较早。早在20年前即开始讨论数据机理融合的智能建模、智能调控等方法,赋能制造过程提升运行效率。尽管当时AI4S以及AI4E的概念还没有提出,相关的工作已经在开展。近年来,生成式人工智能、大语言模型等技术的发展进一步推动了化工新材料智能设计、自主研发等前沿方向的发展。
在与工业界合作过程中,我们发现化工新材料企业对于AI4S的需求是多样化的。这些需求不限于生成式AI在探索新结构、新配方等方面的发现。为推进AI4S在材料领域的工程落地,我们需要更关注企业的实际需求。与此同时,在不同的任务中,我们注意到一个共性的难题,即数据资源的匮乏。工业领域数据收集、标注成本高,具有较高的商业价值以及较强的私有性。这样的固有属性导致的数据资源的局限可能是一个长期难以突破的难题。因而,从研究的角度,我们需要更多地关注小样本数据学习的相关研究,以及人工智能算法与领域知识的融合,考虑通过引用领域知识,降低对数据规模以及质量的要求,从而提升AI4S的实际应用效果。
RDMTA系统能够有效形成AI4S数据飞轮
王冬冬
北京深势科技有限公司药物发现事业部联席副总裁
在AI与科学结合的领域,有几个关键问题需要关注。首先,AI适合解决的问题需要具备三个条件:处于高维空间、目标函数明确、数据足够。这确保了AI在科学研究中的有效应用。数据问题主要集中在两个方向:一是如何利用大语言模型和多模态技术深度挖掘现有数据,二是如何通过物理计算和湿实验产生新数据。因此,如何将自动化实验系统和科研过程中的研究数据管理和传输架构(RDMTA)进行结合,并形成数据飞轮是AI4S发展的关键问题。
AI4S领域的产学研合作面临政策性障碍,尤其在知识产权(IP)分配上。企业间合作时可以采取项目集体攻关并共享IP的方式,但是高校的科研项目管理制度不允许项目IP共享,只能以纵向项目(IP归学校)或者横向项目(IP给企业)的形式存在,这种分歧使得合作难以推进。尽管国家政策鼓励合作,实际操作中,学校和企业常因合同和IP问题而合作停滞。因此,AI与科学结合不仅需解决数据、组织模式问题,还需克服产学研合作中的结构性障碍,以推动科学研究的高效发展。
AI4S企业面对AI的规模效应,需要数据和算力等方面的支持性政策以保障良好发展
诸叶清
北京深势科技有限公司生态合作总监
在当前科研和AI应用领域,单纯依赖“堆数据、堆算力”来解决问题并不可行,尤其在政策、资金和商务等方面,企业和研究机构面临许多挑战。虽然像AlphaFold这样的成功案例证明了算力和研究基础的重要性,但这些成果背后是充足的资金支持和较大的试错成本,研究才得以多次尝试并转化为实际应用。然而,许多初创企业和年轻研究机构缺乏资源和资金支持,面临更大压力。
传统科研服务于工程应用,而如今,工程需求逐渐转化为科学需求。纯科学研究无法直接带来经济回报,只有将科研成果转化为商业化产品,才能为科研提供资金支持,促使科研与工程更紧密结合。
数据使用和共享方面,尽管生成了大量高质量数据,企业通常优先用于自身应用,而非共享给他人。集中化的资源分配可能对科研生态产生不利影响,因此,政府或资本方的干预至关重要,以促进数据共享并降低使用成本。目前,资金分配机制也未完全适应科技发展。以材料研发为例,企业需要大量算力,但现有资金无法覆盖这一支出,限制了企业发展。政策层面需推动配套措施的完善。
对于AI4S的成功标准,当前评估标准不明确。不同领域的科研成功标准应根据实际情况灵活评判,尤其是对基础研究的评价,应关注阶段性成果而非最终产品的落地。
本文由上海市科学学研究所助理研究员吴琪博士整理