首页 >> 仿真软件说明 >>ABACUS >>朱雪刚版 >> 3.1.1 起始阶段打算做一个大而全的数据集2024.04.03
详细内容

3.1.1 起始阶段打算做一个大而全的数据集2024.04.03

1.磁控溅射实验中,原子的入射能量高达十几电子伏,因此需要考虑较高的能量,及原子的位置较近的情况,该情况可以用DPGEN的init功能,给出较大的压缩构型来实现,或者做升温熔化来实现。

2.实验上给出的铜掺杂浓度在1%~4%/atom之间。由于铜的掺杂可能以单原子的形式掺杂,也可能以多元子的原子团簇的形式掺杂,因此需要考虑不同的原子掺杂浓度。不同的原子参差浓度会有多种情况出现,例如在铍的hcp、fcc、cubic等构型中掺杂等。两个原子的掺杂可能在同一个平面内,也可能在不同的平面内。三个原子可能相邻,也可能两到三个平面内,掺杂原子聚合越多则情况越复杂。

3.在实验过程中也可能会出现合金的情况,因此起初也考虑合金,合金也有不同的构型,在materials project上搜索到,Be3Cu的cubic构型,Be2Cu的cubic构型,BeCu的cubic构型,Be3Cu的Trigonal构型等。

4.实验中还可能会涉及相变等物理现象,因此需要考虑不同的物质构型,例如铍晶体的hcp,fcc,cubic,tetragonal等构型。

5.铜在实验上扩散较大,主要体现在境界和空洞位置,而空洞对应的是模拟中的表面,因此需要考虑表面构型,晶界构型,缺陷构型等。

6.实验上会通过激光对铜掺杂铍晶体进行局部加热,实验上测得扩散温度在300-600℃,但涉及到激光打孔,因此最好考虑熔化升华等内容。

7.DPGEN迭代探索补充未考虑到的探索环境等,DPGEN探索温度范围暂定50K到熔化温度1560 K以上,压力控制在0-5Gpa。


这些问题是我能人为想到的可能得情况,虽然我以为我会得到这样的DP势函数,但后续的训练时间是用几年的时间。因此计算资源不足的情况下,想做一个大而全的势函数从当前DP势函数的测试来看基本是不可行的,耗时耗精力。不过目前深势科技做的大原子模型openLAM可能会在这方面有所帮助,但目前我还没涉及相关的领域。

  1. 计算时间预估(注意构型太多,计算资源较少课题组则不可参考)

总之准备训练集之前需要确定研究问题的范围,大而全固然好,但计算量也会非常大,且在计算过程中更容易出现人为失误的错误,且排错对于新人来说难度比较大。按上边考虑的问题来准备数据集的话,以下大概估计下计算内容和时间。


搜集到铍单晶4种构型(hcp、fcc、tetragonal、cubic);

铍铜合金4种构型(Be3Cu、Be2Cu、BeCu、Be3Cu);

铜单晶6种构型(hcp、fcc、tetragonal、cubic、Trigonal、Orthorhombic);

铜单原子掺杂构建4种铍单晶替换构型;

铜双原子掺杂,则构型比较多,0001平面内原子相邻掺杂、0001面内间隔一个原子掺杂、0001面内菱形原子对角替换掺杂、不同面内相邻原子掺杂、不同面内不相邻原子掺杂等

铜三原子掺杂考虑问题更复杂,不再列出。

以上考虑情况再加上不同晶胞大小情况,例如hcp的铍单晶,扩胞后晶胞内分别包含16、54、128个铍原子等,则需要考虑的情况比较多。


总共构型数量估算:铍单晶4个,铍铜合金4个,单原子铜掺杂铍单晶构型4个,双原子掺杂铍单晶构型(不全选择)12个,三原子掺杂构型(36个)等,再考虑单个铍掺杂铜晶体,则基本构型多于一百。


估算需要计算的构型数量,以铍单晶hcp构型为例,经过三次扩胞(扩胞如果计算精度不同则可能不是好的选择,后续我再测试);再对构型进行盒子缩放8次(0.94-1.06范围,按0.02为阶),原子坐标微扰3次(移动0.01埃),跑10次md模拟操作,则需要计算8*3*10=240构型的scf计算(md中的scf迭代计算)。


总共初始训练集的构型为基本构型数量乘以单个微扰需要的scf计算个数,则需要100*240=24000个构型。如果不对所有构型扩胞,则72000/3=24000 约计算两万四个基本构型的scf计算(或者说是MD过程中的scf计算,md计算可能会省一些时间)。


经过前期测试(服务器比较老,e52680 V2的cpu + 3090的GPU显卡,目前laco基组还不支持GPU,pw基组可以使用),在跑AIMD模拟过程中计算时间约为每个构型7分钟,单个scf计算时间约为10分钟,则准备初始训练集的计算总时间约为17万分钟,单机计算即需要118天(cpu为e5-2680 v2,我服务器太老,属于淘汰机器,新机器会快,可能也得几个月才能完成)。前边估算时间只是在0.94-1.06范围内做了训练集,如果考虑其他范围,则时间还得乘以多个倍数,可能计算时间会以年来结束,即需要大量的计算资源。


准备数据集之后还需要DPGEN迭代计算。这样来算,利用个人服务器单机做计算,可能准备一个理想的完美势函数势函数就到一年以上时间。显然这个计算时间和计算量对小课题组来说是不可接受的,目前深势科技做的大原子模型可能会在这方面有帮助,但目前我还不会。但是DP势函数能在特定构型下获得准确的能量和力,这个优势对于特定问题还是有用的,即针对特定问题的研究,我们只需要准备能覆盖研究问题的构型做初始训练集即可,因此需要我们熟悉我们的具体研究问题和了解最终课题想要模拟的模型。


当然对于特定的计算问题,可能不用考虑以上这么全面,但一般而言,如果想获得非常精确的结果,DP的训练集也得有一万来个,这样按照一个scf计算时间为10分钟来说也得10万分钟,即单机一般需要70天来训练一个势函数,如果服务器配置较好,估计非常熟的专业人员针对特定问题来从头训练DP势函数也得一两个来月。

这里就显示出计算集群的优势了,计算集群例如Bohrium平台可以同时调用很多服务器计算,在一定程度上可以降低计算所需的时间,如果研究人员经费充足,可以考虑使用Bohrium服务器来做DP势函数的训练,在做之前可通过测试,预估一下大致需要多少服务器经费,进而可以按照大致预算向课题组申请。Bohrium平台上有不同机型的计算价格,通过测试选取合适的机型进行计算,可加快计算速度,并且尽可能的节省科研经费。

对于新手练习来说,目前(2024.03.03)Bohrium平台的案例中可以使用免费的2核心的机型,当然计算速度比较慢,新手练习上手可尝试。


作者:朱雪刚 邮箱:xuegangzhu@qq.com; 工作单位:石家庄学院 理学院/北京科学智能研究院(AISI)访问学者2023.07-2024.09,访问导师北京大学陈默涵; 徐张满仓 邮箱: xuzhangmancang@dp.tech

截止2024.07.21录制视频教程已上传至Bohrium的课程《DeePMD应用案例讲解:铜原子掺杂铍晶体的机器学习势函数拟合过程演示》网址: https://bohrium.dp.tech/courses/1075495070?tab=courses 后续会在Bohrium平台更新

注意:后续的更新,大部分会在Bohrium课程平台进行,请看教程入门的同学加入课程进行学习;且录制的视频课程会把一些个人观点给加入,从个人观点来看比文字教程的内容更多

写教程内容讨论QQ群:143276924 DPGEN+ABACUS教程准备;

ABACUS软件的QQ群:759914681,群内有专职开发人员,目前ABACUS提问问题以github的issue为主,群内可作为辅助提问。

欢迎大家推广本教程,让更多的dp入门学习者有个参考,目前2024.09.16我联系的微信公众号推广是 lammps加油站的小马老师(我也报名了小马老师的一对一辅导)。当然也看到lammps爱好者在转发推广。感谢大家公众号的推广。


技术支持: CLOUD | 管理登录
seo seo