自2020年8月正式上线以来,由中国科学院物理研究所、松山湖材料实验室、怀柔材料基因研究平台共同打造的材料科学数据库Atomly,注册人数已经突破1000人。“该数据库填补了我国材料学领域无大型数据库的空白。”中国科学院物理研究所特聘研究员、Atomly材料数据库开创人刘淼说。
此前,世界其他国家,例如美国、德国、瑞士、日本等都建立了属于自己的材料科学数据库。材料科学数据库把材料的基本性能,如原子结构、电子结构、稳定性、力学性能等信息,带到了研究人员触手可及之处,由此引发了材料科学研究方式的革命性进步。例如,近期兴起的材料基因组方法的核心思想就是借助材料大数据方法提升材料科学的研发效率,降低研发成本。
由此基础出发,Atomly作为材料数据库中的“后起之秀”,不仅集各个前辈之大成,还在某些方面超越了其前辈们,甚至实现了诸多创新功能。
像钢铁侠一样制作材料
美国漫威经典人物钢铁侠在全息投影中点击几个化学元素,就能得到由其合成的材料的相关数据,并由电脑匹配出最符合要求的复合材料。
这样的电影场景作为刘淼讲解Atomly系统PPT的开头,引发了不少听他讲座的观众兴趣。事实上,Atomly系统虽然不是全息界面,但是在电脑屏幕上的操作界面确实由元素周期表组成。“如果用户想要查询某种化合物的性能,只需要点击化合物的元素组成,系统会自动弹出所有与之相关的化合物。”刘淼讲解到。
到目前为止,Atomly已经收录了17万余种材料的相关数据,这些材料包含了经过数据库比对去重后的无机晶体结构数据库(ICSD)中的大部分结构。刘淼解释说,ICSD在实验合成及晶体研究领域久负盛名,也包含了一大批以往DFT计算研究中提出的假想结构。因此,Atomly内含的材料数据不仅全面,而且和材料实验的联系十分紧密。
材料库不仅提供已知化合物查询,也为材料创新提供更多可能。“面对尝试新材料的研究人员,我们开发了Run4U这一功能。这一功能支持用户在线自主上传新的结构,我们的后台会对这些结构进行初步的筛选,如果数据库中真的没有包含,就会自动进行第一性原理计算,两三天后用户便可在列表中看到想要的计算结果。”刘淼表示。这一功能也同样适用于不熟悉第一性原理计算软件的用户。使用Run4U功能时,用户可以“零学习成本”获得指定材料的DFT的计算数据;同时,计算的结果可以自动被后台分析入库,能复查、复用。
为材料学不断突破提供可能
爱迪生尝试了成百上千次才成功找到适合做灯丝的材料。从那时起到LED灯的出现,又过去了120年。由此可见,材料的研发过程十分缓慢。但是通过高通量计算,材料大数据让人工智能寻找新材料,却能让新材料研发过程不断缩短。过去70年人类平均每年发现3.3个氮化物材料,但是美国加州大学伯克利分校的Ceder组通过高通量计算等材料大数据方法,一年内发现了92种新材料,并用实验合成7种。
“我国研究人员一直使用国外材料数据库,国外数据库不但对国内研究人员在材料信息显示上有所保留,而且对我国的数据安全也有威胁。对方能通过监测我国研究人员访问行为获得我们材料研发的信息,不利于我国材料学的发展。”刘淼坦言。Atomly的上线彻底改变了这一现状。
为了更好地让人工智能学习势函数,刘淼与其他研究人员一起开发了一套精准的机器学习势函数工具包(HAAIFF),可以精确拟合分子动力学中所需的体系能量、原子受力等参量。
此外,在保证精准的前提下,研究人员对程序包进行了优化,使其可在GPU上进行训练以及预测,极大提高了该机器学习势函数的速度,为运行分子动力学提供了便利。用户可以同时获得密度泛函理论计算的精度和经典分子动力学的速度。该工具包可供用户自行使用。同时,为了节省用户收集DFT计算数据带来的成本,研究人员还提供了由该工具包训练的机器学习势函数库,用户可在这些函数库的基础上,进行二度训练,这样既可以节省收集数据时间,又可以扩增机器学习势函数适用范围。
上线仅仅是一个开始
材料是人类社会的物质基础,实现材料的按需设计是一直以来人类的终极梦想。如今,材料计算已经成为指导新材料研发的常规方法。
刘淼表示,材料基因工程是物理所近期布局的重要发展领域,Atomly的上线仅仅是一个开始。目前,仍有数以万计的新结构正在计算,各材料的介电函数、声子谱等重要且独特的物理信息也正在上线的路上。
在拥有材料大数据积累的前提下,机器学习等更多新型人工智能方法将使材料数据库的整体性和优越性不断完善和提高,为新材料的研发提供更加智能的捷径。