(来源:中国科学院科技战略咨询研究院 2016-08-02)
2月11日,美国激光干涉引力波天文台(LIGO)的科学家宣布直接探测到了引力波[1]。6月16日,LIGO宣布又一次探测到引力波[2]。引力波是100年前爱因斯坦广义相对论所预言的一种以光速传播的时空波动,由于技术限制等原因,到现在才被科学家探测到。这是前沿物理的重大进展,在多方面具有革命性意义。
在LIGO连续探测到引力波的背后,超级计算等信息技术发挥了关键的支撑作用。例如,LIGO通过探测仪采集了海量数据,需要通过数据网格传输给相应计算中心的超级计算机进行快速分析,而为了识别引力波信号中的噪声、评估设备的响应函数和分析引力波的来源,LIGO采用了机器学习等先进算法对引力波天文大数据进行了深入挖掘,以上过程又受到了多核处理器、GPU、科学工作流系统等软硬件的支持。
我国正在策划三项引力波探测工程,这些工程都离不开信息技术的支持,研究LIGO如何使用信息技术为引力波探测提供有效支持的成功经验,对于我国引力波探测计划取得成功具有重要的参考价值。
一、LIGO利用信息技术支持引力波探测的经验
LIGO探测器由10个子系统组成,其中之一是数据与计算系统,该系统负责LIGO探测数据的采集、分配和计算等任务。LIGO建设该系统并利用信息技术为引力波探测提供有效支持的主要经验可归纳为以下三点。
1、构建多模式、多样化的计算资源体系
为满足科学家对计算资源的不同需求,LIGO采用了4种模式来构建多样化的计算资源体系。
(1)专用计算。LIGO的成员机构利用自己的计算资源构建了“LIGO数据网格”[3],负责常规性的、需要及时处理的计算任务,即在数据产生的同时对其进行实时分析。
(2)机动计算。根据动态需求,LIGO可通过美国国家科学基金会(NSF)资助的“开放科学网格”(OSG)获取机动计算资源,OSG可为LIGO提供大量高通量计算服务。
(3)分配式计算。LIGO向NSF申请其“极端科学与工程探索环境”(XSEDE)的计算资源,XSEDE分配给LIGO的资源包括传统的超算环境(批量提交,用户登陆,共享文件系统),也包括基于虚拟化的用户界面、无需再批量提交任务的超算环境。
(4)自愿者计算。LIGO通过“伯克利网络计算机开放基础设施”(BONIC)项目开展了Einstein@Home计划,能利用自愿者的个人计算机来寻找中子星信号。该计划适用于数据量较小、耗时很长的计算任务,负责搜寻连续的引力波信号(如脉冲星自转产生的引力波)。
在架构上,LIGO的数据与计算系统分为两级,其中一级系统由位于探测站点(利文斯顿和汉福德)和加州理工学院的计算中心组成,探测站点的计算中心主要负责检测激光干涉仪的状态,加州理工学院的计算中心则负责处理一些需要及时完成的任务。原始数据经一级系统处理后,被分配给二级系统进行深入分析,包括LIGO成员机构、OSG、XSEDE、Einstein@Home等。
2、打造便捷、高效的科学工作流系统
LIGO的科学家通常需要组合不同领域、多个组织的复杂应用程序对海量数据进行查找、移动、分析、仿真及可视化等操作,这使得系统的易用性显得十分重要。LIGO通过“飞马座”科学工作流管理系统(Pegasus)等管理工具来为科学家打造便捷易用的工作流管理系统,使得科学家可以专注于科学问题,不被网络基础设施的底层问题所困扰。
Pegasus是由美国南加州大学开发的工作流管理系统,它支持应用程序在许多不同的环境计算中执行。Pegasus通过自动地把抽象的工作流描述映射到分布式的执行环境中,将各个科学领域和实际运行环境联系起来。当LIGO将计算任务从内部的“LIGO数据网格”向OSG、XSEDE等外部系统扩展时,Pegasus提供可靠、可伸缩、高效的跨站点数据传输与计算支持,最终帮助LIGO的科学家通过基于Web的控制页面及工具箱即可轻松完成工作流监控与分析。在LIGO最终发现引力波的数据分析工作中,Pegasus帮助科学家完成了一个主要的工作流分析。
3、探索先进算法、提高数据分析效率
LIGO需要分析的数据包括激光干涉仪引力波探测器输出的数据,还包括有关各种环境条件和引力波探测器自身状态的监测数据。从2015年9月14日探测器接收到引力波信号到2016年2月11日LIGO正式宣布发现引力波,共经历了近5个月的数据分析。因此除了强大的计算资源,更需要探索先进的算法来提升数据分析效率。在这方面,清华大学、剑桥大学等LIGO成员机构在探索机器学习算法在引力波天文学中的应用,包括识别引力波信号中的噪声、评估设备运行状态和分析引力波的来源等。
此外,还需要研究先进算法来突破现有研究方法的局限。科研界目前主要采用匹配滤波技术来搜寻引力波信号。匹配滤波要求对引力波波源建立合理的物理模型,根据模型产生成千上万的模板,然后用这些模板去匹配引力波数据中的信号,从而找到相关引力波信号。但在引力波探测中,大量波形是未知的,无法用匹配滤波器技术来分析。LIGO所确认的引力波信号源于双黑洞并合事件,这是理论上知道得最清楚的引力波源,但对是否有其他引力波源产生的信号,目前仍然在对数据进行分析处理。
二、对我国引力波探测工程的启示
信息技术在LIGO探测引力波的工作中起到了极其重要的作用,可为我国引力波探测工程带来以下启示:
1、从整体上构建信息化支撑体系
作为大科学工程,LIGO在顶层设计中把信息化支撑体系作为核心系统之一来构建。我国引力波探测工程应从整体上开展信息化支撑体系的规划与部署,从软硬件系统、协调制度等方面实现信息化系统与其他系统的有机结合,构建多样化、灵活的计算资源体系,以满足不同层次的需求,打通引力波探测工程与相关信息化资源之间的壁垒。
2、重视开发科学工作流系统,支持协同创新
为了扫除科学家在信息化平台上高效开展协同创新的障碍,LIGO特别重视科学工作流系统的开发与应用。我国引力波探测工程应充分研究国内外现有科学工作流的关键技术,通过改进与优化,打造符合自身需求的科学工作流管理系统,有效降低科学家使用底层计算资源的门槛,提高计算资源的利用率,为跨领域、跨组织的大规模协同开发和交流合作提供便利,保障科研人员能够轻松、便捷地在信息化科研平台上开展协同创新。
3、将先进算法作为核心目标,引领未来关键技术
虽然LIGO已通过数据分析成功发现了引力波信号,但其分析效率仍待提高,且现有分析技术无法识别理论上未知的引力波,因此更加先进、更加智能的数据分析算法将成为未来引力波探索的一个核心问题。建议我国引力波探测工程:(1)为开发先进算法提供专项支持;(2)将人工智能技术应用于分析处理引力波大数据,发展更高效智能的引力波数据分析算法,增加识别理论上未知引力波的可能性;(3)开放引力波天文数据、举办挑战赛,吸引企业和公民科学家参与,利用群体智慧攻克难题。
(唐川)
[1] Gravitational Waves Detected 100 Years After Einstein's Prediction. https://www.ligo.caltech.edu/news/ligo20160211
[2] A Second Robust Binary Black Hole Coalescence Observed. https://www.ligo.caltech.edu/news/ligo20160615
[3] What is the LSC DataGrid? https://www.lsc-group.phys.uwm.edu/lscdatagrid/overview.html