智能超算帮助创建宇宙的3D地图

2020-07-27 14:05:34 朱明劲 16

当神经科学家可以更好地理解大脑的复杂内部运作时,他们的工作重点在于重新想象和重新发明其最基本的研究工具之一:显微镜。同样,随着天体物理学家和宇宙学家努力获取有关宇宙及其起源的新见解,他们渴望通过增强其主要仪器-望远镜来观察更远,更快,且细节越来越多。

景派科技丨超算丨HPC

Mayall望远镜(最高的结构),暗能量光谱仪位于Mayall圆顶内


不过,像“ 
暗能量光谱仪”这样的项目,能够近乎实时地进行此类数据收集和处理已成为现实。
  (DESI)是由劳伦斯·伯克利国家实验室(Lawrence Berkeley National Laboratory)领导的多设施协作,其目标是制作有史以来最大的宇宙3D地图。DESI安装在亚利桑那州图森附近基特峰国家天文台的Mayall望远镜上,正在将高速自动化,高性能计算和高速网络连接到其五年的星系映射任务中,从3500万个星系中捕获光240万类星体并将该数据传输到国家能源研究科学计算中心,该中心是位于伯克利实验室的美国能源部用户设施,它是DESI的主要计算中心。在每种情况下,要揭开太大或太小而无法仅凭物理仪器就能看到的科学奥秘,它们就必须与另一个重要设备一起工作:智能超算平台。
这意味着更多的数据和日益复杂的数据集,这反过来又影响了科学家筛选这些数据集的速度,以找到关于下一步研究应该去往的最相关线索。

“我们将原始数据变成有用的数据,”伯克利实验室的物理学家斯蒂芬·贝利说,他是DESI数据系统的技术负责人和经理。“来自望远镜的原始数据不是地图,因此我们必须获取该数据,对其进行校准,处理并将其转换为3D地图,以便更广泛的合作(全球约600名)的科学家将其用于分析。”

在过去的几年中,DESI团队一直在使用NERSC建立最有趣的观测目标的目录,对通过三项大规模天空调查收集的430万张图像中检测到的超过16亿个独立星系的形状和颜色进行建模NERSC主持的DESI传统影像调查已在NERSC进行了八次数据发布的过程中完成了目录生成。DESI项目还利用NERSC托管的Cosmology数据存储库(其中包含约900TB的数据)以及NERSC的社区文件系统,暂存器和HPSS存储系统。  

Bailey说:“以前的大调查是几百万个对象,但是现在我们将增加到3500万-5000万个对象。” “这是地图尺寸和科学基础上的一大进步。”

但是存储只是NERSC为DESI提供的服务的一部分。超级计算中心在开发和支持DESI的数据处理管道方面也发挥了重要作用,这促进了数据从调查到计算中心以及用户的传输。该项目超级计算机上的10个专用节点,使DESI在调查期间的每个晚上都可以运行,并确保结果在早晨之前可供用户进行当天分析,这通常有助于告知第二天晚上的观测计划。DESI团队还使用数百个节点进行其他处理,并期望随着数据集的增加而扩展到数千个节点。为了促进数据I / O,DESI取决于NERSC数据传输节点,DESI正在使用完整的NERSC生态系统:计算服务,存储,实时队列和实时数据传输。

针对CPU和GPU优化Python

在准备进行为期5年的DESI调查(预计于2020年末开始)的同时,NERSC与DESI团队一起确定了数据处理中计算最密集的部分,并进行了更改以加快处理速度。通过NERSC Exascale科学应用程序(NESAP)。

该管道几乎完全用Python编写的,这使领域科学家能够在相对较短的时间内编写可读且可维护的科学代码。目标是提高管道的性能,同时满足DESI团队对软件保留在Python中的要求。挑战在于坚持原始代码,同时寻找新的高效方法来提高其性能。

保持其代码的可读性和可维护性,并在超级计算机的KNL manycore体系结构上加快代码的速度。将他们的处理吞吐量提高了5到7倍,这意味着以前要花费48小时才能完成的计算任务,现在要在一夜之间就已经完成,因此白天可以进行分析,并反馈给第二天晚上的观测结果。每年还可以为NERSC节省DESI项目数千万小时的计算时间。

优化工作尚未结束。下一个挑战是使DESI代码与NERSC的Perlmutter系统中的GPU兼容,该系统计划于2020年末推出。

到目前为止,Margala的重点是为GPU准备DESI的代码,以便准备利用Perlmutter系统的全部潜力。他目前正在Cori的GPU测试平台节点上处理一小部分DESI数据;长期目标是确保软件已准备就绪,可以处理DESI的整个五年数据集。

 DESI的天体物理学家和科学家对使用Python非常满意,因此都正在尝试使用Python来完成所有研究工作,以便他们能够理解正在编写的代码,并能从中学习,回馈和维护。

在接下来的几年中,NERSC资源对于DESI项目的另一个更大目标:重新处理和更新数据。

每年,将从一开始就使用我们所有代码的最新版本对数据进行重新处理,这些将成为数据集,然后将这些数据集纳入合作的科学论文中。在NERSC上只需要10个节点,就可以在一夜之间实时了解数据,但是如果您想返回并处理2、3、5年的数据,则可以使用数百或数千个节点,将能够迅速赶上所有处理过程。

景派科技丨超算丨HPC

在线留言

电话咨询
邮件咨询
在线地图
QQ客服