您现在的位置是:首页 >互联网 > 2021-01-11 11:10:04 来源:

CERN的计算机科学家管理宇宙数据

导读 由于30年前,一位计算机科学家从他的研究小组的粒子物理学研究中脱颖而出,开始研究一种新的管理和共享信息的方式,因此,这篇文章以及数以

由于30年前,一位计算机科学家从他的研究小组的粒子物理学研究中脱颖而出,开始研究一种新的管理和共享信息的方式,因此,这篇文章以及数以亿计的其他文章可以在全球范围内在线观看。

该小组是欧洲核研究组织(CERN);计算机科学家是Tim Berners-Lee。他对第一个超文本浏览器的建议实质上为最终成为现代互联网奠定了基础。

尽管1989年3月的这个历史性里程碑导致了万维网的创建,它是一种自动在全球科学家之间共享信息的方式,但CERN真正成名的举动涉及其在宇宙中可见甚至不可见物质中的开创性工作。在世界上最大的粒子加速器大型强子对撞机(LHC)的发展推动下,欧洲核子研究组织(CERN)一直走在科学研究的最前沿,在2012年发现了难以捉摸的希格斯玻色子粒子。

这项繁重的科学工作背后是一个重要的计算组织,该组织必须以我们大多数人只能想象的规模处理数据。CERN计算工程师Ricardo Rocha(右图)表示,其中包括一个拥有300,000个内核的数据中心。

Rocha说:“这还不够,因此我们在过去15至20年中所做的就是在全球范围内创建这种大型分布式计算环境。” “我们链接到许多不同的研究所和研究实验室,这使我们的能力提高了一倍。”

在巴塞罗那举行的KubeCon + CloudNativeCon活动中,Rocha采访了SiliconANGLE Media移动直播工作室CUBE的联合主持人Stu Miniman 和Corey Quinn。他与欧洲核子研究组织(CERN)的物理学家卢卡斯·海因里希(Lukas Heinrich)(左)一起参加了会议,他们讨论了科学发现所需的数据管理过程,Kubernetes在组织工作中的作用以及欧洲核子研究组织在为开源世界做贡献的同时如何分享其发现(请在此处查看完整的采访记录。

本周,CUBE将Lukas Heinrich和Ricardo Rocha评为本周嘉宾。

发现无形

希格斯玻色子的发现是一项重大突破,因为在那之前,科学家一直无法最终看到粒子与不可见的“希格斯场”之间的相互作用,在这种隐形“希格斯场”中粒子在宇宙内部获得质量。七年前的这个发现于今年7月获得了包括物理学家Peter Higgs在内的相关科学家的诺贝尔奖。

通过使用CERN的大型强子对撞机,这一发现成为可能。粒子加速器建于2008年,采用27公里长的超导磁体环来增强粒子能量。根据海因里希(Heinrich)的说法,质子每秒碰撞4000万次,然后必须仔细捕获所得数据,以供CERN科学家进行全面评估。

海因里希解释说:“我们将作为氢核的质子加速到非常高的能量,因此它们几乎以光速前进。” “实际上,我们仅运行10,000个核心实时应用程序即可分析这些数据。”

使用Kubernetes进行数据分析

在巴塞罗那举行的KubeCon活动上,罗莎(Rocha)和海因里希(Heinrich)向与会者简要介绍了如何使用开放源代码和容器化计算工具(2012年尚不可用)来重建数据分析,从而使诺贝尔奖得主希格斯·玻色子得以发现。

工程师在CERN私有云内的小型集群上使用Jupyter笔记本和Kubernetes,展示了应用程序和集群本身如何扩展并满足密集的数据分析需求。他们还展示了Kubernetes Multicluster特别兴趣小组内部的工作如何帮助定义调度策略和利用外部云资源。

Rocha说:“虚拟机仍然具有非常复杂的设置,才能支持我们的软件多样性。” “有了集装箱化,所有人都必须给我们提供运行的基础。这是一个标准接口,因此我们只需要构建基础结构即可处理这些部分。”

CERN的持续挑战之一是处理其必须能够处理的快速增长的数据量。2017年,该组织传递了存储在其档案中的200 PB数据,这些数据部分是由其LHC生成的,后者每秒产生1 PB的碰撞数据。据Rocha称,尽管通过过滤最终减少了这些数据,但CERN很快将谈论数十亿字节的信息。

“仍然有很多数据,” Rocha说。“我们现在每年收集大约70 PB的数据。”

为了处理如此大规模的数据,CERN超过90%的数据中心资源是通过基于OpenStack的私有云进行配置的。CERN在2012年开始时只有四个OpenStack项目和几个分散的虚拟机管理程序。它的云现已演变为在两个地区运行16个OpenStack项目,9,000个虚拟机管理程序和400多个Kubernetes集群。

回顾Berners-Lee的信息共享愿景,CERN的OpenStack云是Worldwide LHC Computing Grid的一部分。这个分布式科学网络涉及42个国家/地区的170个数据中心,利用80万个内核的能力来处理Collider的数据消耗。

Rocha说:“我们正在研究GPU和机器学习以改变我们的计算方式,并且正在寻找可能获得的任何其他资源,并且公共云可能会发挥作用。”

对OpenStack的依赖

欧洲核子研究组织一直在努力将其学习成果反馈给开源社区。根据一份已发布的报告,该组织已经对各种OpenStack代码项目进行了745次代码提交,并发现了339个错误。

CERN的科学家和计算机工程师还展示了愿意利用开源工具(例如Kubernetes和公共云)来共享实验数据的意愿。根据Heinrich的说法,由大型强子对撞机的紧凑型μ子电磁阀或CMS产生的部分信息已公开发布,使CERN轨道以外的科学研究人员受益。

海因里希说:“通过使用Kubernetes和公共云基础设施,实际上,对于不在CERN工作的人们来说,分析这种大规模科学数据成为可能。” “这是一个70 TB的数据集,这要归功于我们的Google Cloud合作伙伴,我们能够使用公共云基础架构,然后在大型Kubernetes集群上对其进行了分析。”

在30年前启动了一个信息共享项目(可以说是现代最重要的创新)之后,Berners-Lee一直活跃于计算机世界。他在2004年被伊丽莎白女王(Queen Elizabeth)封为爵士之后,在名字上加上了“先生”,并一直担任他于1994年成立的全球Web标准组织万维网联盟的董事。

在伦敦举行的2012年奥运会开幕式上,计算机工程师发挥了作用。活动期间,Berners-Lee可能会在一台特殊的计算机上通过推特语“为每个人准备”,并一直在评论CERN本身的科学贡献,CERN的职业生涯始于此。