5月5日,Nature将一篇“机器学习”算法改变材料发现方式的论文放上封面“Machine-learning-assisted materials discovery using failed experiments”的文章(Nature, 2016, 533, 7601, DOI: 10.1038/nature17439),并提出“从失败中学习”:哈佛福德学院和普渡大学的研究人员利用机器学习算法,用失败或不成功的实验数据预测了新材料的合成,并且在实验中机器学习模型预测的准确率超过了经验丰富的化学家,这意味着机器学习将改变传统材料发现方式,发明新材料的可能性也大幅提高。
同期的新闻专稿“News Feature”栏目以“Can artificial intelligence create the next wonder material?”为题讨论了这一问题(Nature, 2016, 533, 22–25, DOI: 10.1038/533022a)。一部分科研人员认为人工智能将给材料科学带来革命性的改变。
该文章认为,通过计算机建模和机器学习技术,可以很快地根据人们所需要的性能预测出相应候选材料。因此,科学家们将不再需要瞎猫撞死耗子般地制作新材料,而是按照计算机计算结果的指导,制作出相应候选材料并测试,从而加快了新材料的研发的速度和效率。
不过,人工智能变革材料科学研究方法尚存在不少问题:一是受制于材料数据、材料性能控制因素、计算能力,目前仅对少部分材料奏效。二是要计算机预测的材料,并不一定能够在实验室成功合成乃至规模量产,这个过程可能会很长。
图来源:Nature
以下是该新闻专稿的内容:
这是一个堪比最极客的画面:当游客驻足Nicola Marzari的办公室,他会迫不及待地展示一台屏幕上不间断地滚动着数字和符号的智能手机,“从2010年开始,我的手机正在实时地计算硅的电子结构。”
Marzari是洛桑联邦理工学院(EPFL)的物理学家,他的手机仅需40秒就可以完成超级计算机花费数小时的量子力学计算。此举展示了理论计算在过去数十年的飞跃,同时也展示了未来改变材料科学的潜能。
目前材料科研的方法是靠运气碰到一种新材料,然后在实验室精心测量它的性能。Marzari和他的同行正在用计算机建模和机器学习技术生成一个数以万计的候选材料库。即使是失败实验所得到的数据也可以提供有效参考。虽然大量候选材料是完全假想的,但是工程师们可以通过搜索预期性能筛选出值得合成和测试的材料。例如他们可以限定材料作为导体或绝缘体的性能,是否有磁性,可抗多高的温度和压力等等。
行业先锋、加州大学伯克利分校材料科学家Gerbrand Ceder认为它将是对发现材料的速度和效率的一个极大飞跃。他指出我们仅仅知道现有材料1%的性能,并以磷酸铁锂为例:该材料合成是在20世纪30年代,但直到1996年才发现它是现有锂离子电池绝佳的替代材料,“之前,压根没有人想测量它的电压”。
目前,世界上已有至少三个主要的材料数据库,每个库包含了数万或者数十万种材料的数据。Marzari的材料云项目(Materials Cloud project)将在今年内开始运行,由此吸引了更广泛的关注。
但这些倡导者们很快发现,从计算机预测到现实世界技术这个过程并不容易。现存的材料数据库远远称不上收录所有已知材料,更别说所有可能材料。由此,靠数据库驱动工作或许将对某些材料有用,另外一些则不然。即使是计算机标出了一种可能材料,但是实验室要做出来又有好几年。Ceder认为“相比于能做什么,我们更了解想要什么。”
尽管如此,研究者们仍然相信这是一个有待发掘的财宝,并在电子、能源、机器人、医疗和交通方面连带创新。芝加哥材料计算科学家Giulia Galli介绍“我们正在将许多拼图的不同部分拼凑起来,当不同部分组成一幅完整图形时,对材料的预测就会成为现实。”
基因组计划的激励
Ceder关于利用大量数据驱动材料研究的设想大约成熟于21世纪初,那时他供职于麻省理工学院(MIT),他的想法很大程度上受到人类基因组计划的启发。
Ceder解释道:“人类基因组本身并不能用于材料研究,不过他却为材料研究提供了一种新的方法。”材料学者能否借鉴基因学者们的经验,建立材料基因组“materials genome”,即解码材料的不同组成成分和性能的对应关系——就像解码生物性状和DNA碱基配对的对应关系一样。
Ceder认为:想要实现上述过程,解码必须关注于给定材料的构成原子、电子以及空间排布规律(晶体结构)。2003年,Ceder和他的团队首次展示了如何利用量子力学计算的基础数据库预测一种合金最有可能的晶体结构——对于任何从事新材料发明的人来说,这是关键一步。
过去,这些计算非常复杂,即使使用超级计算机也很难实现。这种计算机制必须透过一系列复杂的试验点以及谬误点直指物质的基础状态(即是物质能量最低,受力平衡的晶体结构和电子排布)。但是在Ceder 2003年的这篇文章中,研究人员描述了一种捷径。研究人员首先计算了相同晶体结构的二元合金,而后设计了一种“机器学习”算法,通过该算法新的计算可以从二元合金中调取模式,计算出新材料最可能的基础状态。该算法运行良好,大幅缩短了计算时间。
“那篇文章介绍了一种建立公共数据库探究材料性质的新方法,我们所需要做的是填补数据库的空白”,Stefano Curtarolo解释道。他于论文发表的同一年离开Ceder课题组,在杜克大学组建了自己的实验室。这一想法孕育了两外两个独立的项目。2006年,Ceder在MIT开始了材料基因组计划(MGI),他们使用优化后的算法预测锂基材料在电动车电池上应用的相关性能。截止到2010年,这项计划已经预测了20000种化合物。
与此同时,Curtarolo在杜克大学成立了材料基因组中心(Center for Materials Genomics),他们着重于探究金属合金。他与杨百翰大学和以色列的内盖夫核研究中心的研究人员组建团队,逐渐将2003算法数据库扩展为AFLOW系统。这个系统可以以已知的晶体结构为基础,完成计算任务,自动预测新的晶体结构。
原团队以外的研究者们也开始对这种高通量计算方式表示兴趣。
材料基因组计划
尽管如此,直到2011年6月当白宫宣布百万美金的材料基因组计划(MGI)时,计算材料科学才逐渐成为主流。
James Warren是美国国家标准与技术研究所(NIST)的一名材料科学家,也是MGI的执行秘书,说道,“人们已经普遍认识到电脑模拟能够对创新和制造业产生积极作用”。
从2011年开始,这项计划已经投资了超过2.5亿美元,主要用于软件工具、收集和报道实验数据的标准化技术、主要大学建立计算材料学中心、大学与商业部门就特定用途展开的研究合作等。但是,目前并不清楚如此巨大的投资对这门学科推动作用有多大。
然而,MGI真真切切做到了一件事,那就是在帮助Ceder和其他人实现了他们建立材料性能在线数据库的愿景。2011年末,在白宫要求他们放弃“基因组”这个标签以避免混淆后,Ceder和Persson以材料项目(the Materials Project)的形式重新开始了他们的材料基因组项目。在接下来的一年,Curtarolo发布了用自己开发的软件而做的数据库,名为AFLOWlib。接着在2013年,Chris Wolverton,一位美国西北大学的材料研究者推出了开放量子材料数据库(the Open Quantum Materials Database,QQMD)。他表示从Materials Project和AFLOWlib项目获取到了许多灵感,但软件和数据是自己开发的。
这三个数据库都分享了5万余种已知材料的核心数据,这些材料来自于人们广泛使用的实验数据库,即无机晶体结构数据库(ICSD)。这些固体材料被实验室制作出来过至少一次或者有文献对其进行报道,但是其中的电性能或磁性能可能从来没有被仔细研究;这些材料可能是人们获得新材料的起点。
创建者
所在机构
相关数据库或项目计划
包含的假想材料
相关情况
Gerbrand Ceder
加州大学伯克利分校(2015年之前在MIT)
材料基因组计划(Materials Genome Project)→材料项目(Materials Project)
锂电池相关(约15000个结构); 沸石、金属有机骨架MOF(约13万种)。
以较高的标准衡量是否将计算机预测的材料纳入数据库。
Stefano Curtarolo
美国杜克大学
材料基因组中心(Center for Materials Genomics)→AFLOWlib 数据库
主要是金属合金。
超过100万种不同的假想材料和大约1亿的计算性能。
Chris Wolverton
美国西北大学
开放量子材料数据库(the Open Quantum Materials Database,QQMD)
钙钛矿数据居多。
最开放的:用户可以下载整个数据库而不仅仅是单个搜索结果。
Nicola Marzari
洛桑联邦理工学院(EPFL)
材料云项目(Materials Cloud project)
石墨烯等二维材料。
今年内该库将向公众开放,预计初步可产生1500种可能的二维结构。
Berend Smit
洛桑联邦理工学院(EPFL)
EPFL中心
纳米多孔沸石和金属有机框架化合物。
三个数据库的不同之处在于其中所包含的假想材料。Materials Project包含的相对较少,其中包含15000种Ceder和Persson根据锂电池研究而得到的计算结构。Persson说,如果我们自信计算结果正确并且有机会将其做出来,才会将其加入数据库。另外,还有约13万个结构由明尼苏达大学的纳米多孔材料基因中心预测,这个数据库主要包含沸石和金属有机骨架化合物(MOF)。
AFLOWlib是最大的数据库,其特点是拥有超过100万种不同的材料和大约1亿的计算性能。这是因为它包含成千上万的假想材料,其中许多在实际中仅能存极短的时间。Curtarolo说,当你想预测某种材料可以如何制备时,这些数据就很有价值。例如,他使用AFLOWlib的数据库数据来研究为什么一些合金可以形成金属玻璃——一种具有无序显微结构的独特金属。事实证明,一种材料能否形成金属玻璃取决于不稳定晶体结构的数量和能量,这些不稳定结构在合金冷却时与基态原子相竞争。
Wolverton的OQMD数据库包含约40万种假想材料,这些材料由自然界中常见的晶体结构以及用元素周期表各部分的元素“修饰”计算而来。其中钙钛矿的相关数据非常多。与名字所暗示的一样,这个项目是三个中是最开放的:用户可以下载整个数据库而不仅仅是单个搜索结果。
所有这些数据库还在发展,它们的创建者认为其还不够完美,所以花费大量时间来添加更多的化合物并且完善计算结果。这些数据越来越善于预测某种晶体是否稳定,但是在预测光吸收性能以及导电性等方面并不是很好。Marzari指出,即使是在计算材料学最有成功经验的电池材料领域,标准计算仍然有平均半伏的误差,导致性能方面存在许多差异。“事实是,理论本身存在一些错误,我们可能永远无法改正”,Curtarolo说。
每个团队都正在开发自己的技术来调整计算并弥补这些系统误差。但是,与此同时他们已经在使用这些数据来进行科学研究,来自其他团队的用户也在做同样的事。Marerials Project确定了几个有前景的正极材料,其性能可能超过已经存在的锂电池材料。同时确定了可以提高太阳能电池光吸收效率和能量转化效率的几种金属氧化物。今年早些时候,来自都柏林圣三一学院的研究人员使用AFLOWlib数据库预测20种Heusler合金,其可以用于传感器或电脑记忆体的磁铁,他们还成功地合成了两种该类合金,结果表明其磁特性非常接近预测结果。
欧洲扩张
材料基因组学同样在欧盟得以开展,尽管可能用的是其他名字。例如,瑞士创建了MARVEL,一个计算材料科学研究网络,以EPFL为首,Marzari是主管。他通过使用全新的计算平台,创建了一个名为“材料云”的数据库,以用于检索二维材料,例如石墨烯。为了找到更好的候选材料,Marzari正在对超过15万种的已知材料进行他所谓的“计算剥离”:计算出将原晶体表面剥离一个单原子层需要多少能量。今年下半年他的数据库就将向公众开放,预计初步可产生1500种可能的二维结构。
而计算化学家Berend Smit兴建了另一个EPFL中心,旨在开发出能够预测数以万计的纳米多孔沸石和金属有机框架的算法。也包括其他一些算法:其中一个算法是使用面部识别软件派生的技术扫描特定气孔的形状,从而挑选出从化石燃料发电厂的烟道吸收CO2最佳的备选材料。
Smit的工作还表明,材料基因组学也会带来坏消息。很多研究人员期望使用纳米多孔材料以打造一种用更少的空间储存更多的甲烷的汽车油箱。但搜寻了超过65万种计算材料之后,Smit团队得出结论,大部分的最好材料已经投入应用。新材料的改进效果会非常小,因此目前美国机构设置的能源目标(重大技术改进甲烷存储)可能是不切实际的。
正是这样那样的结果显示,材料基因组学要达到预期效果还有很多难题。其中一个问题是计算结果只能对实验室合成新材料提供一些线索,更别提实现产业化了。Ceder介绍,“要做出计算所得的材料,我们有时候要花2周,有时候是半年甚至更长。而且我们也搞不清到底是没有用正确的方法合成,还是压根就做不到。”
Ceder和Curtarolo都在尝试用机器学习算法从现有的制造工艺中提取规律以指导材料合成。
另一个限制是,目前材料基因组学一直被应用于工程师所谓的功能材料--即可以实现某种功能的化合物。但该技术不被用于研究钢这样的结构材料,因为材料的弹性和硬度这样的机械性能依赖于加工工艺,这是不能通过量子力学代码描述的。
即使是在功能材料领域,目前的计算机程序也只能很好地对材料结构中很小的一部分——完美晶体结构进行分析。Galli介绍,“未来最有趣的材料可能会以创造性的方式在微观层面进行组装。它们可能是纳米颗粒和晶体结构中特地布入缺陷的组合物,或者是缠结了不同化合物和相的异质材料。为了预测这种材料,需要一次性计算许多性能,以及计算在特定温度和时间下系统如何变化。如此计算成本将非常高昂。
在短期内,更多的实验数据交换可以对计算进行现实检查,并有助于完善。为此,Ceder正在与MIT从事软件研究的团队进行合作,使用一种软件可以读取实验类材料科学的论文,并自动以标准格式提取晶体结构的信息。他们计划开始在几个月内将这些数据传送到材料项目上。
从长远来看,摩尔定律或许可以帮上忙:随着计算能力的不断提高,一些超出目前计算的技术可能很快变得可用。
Marzari说道,“我们已经从计算材料科学的手工时代发展到了工业时代,我们现在可以创建模拟装配链进行工作,还可以用全新的方法探究问题。虽然现在市场上还没有通过计算预测得到的材料,但十年之后或许会很多。”
(摘编自 材料牛、新智元)