公司欧洲核子研究中心 位置瑞士日内瓦 行业粒子物理研究

挑战

在欧洲核子研究中心,欧洲核研究组织,物理学家进行实验来学习基础科学。粒子加速器,“我们加速质子能量很高,接近光速,我们使两束质子碰撞,”欧洲核子研究中心的软件工程师里卡多·罗卡说。“最终的结果是大量的数据,我们必须过程。”欧洲核子研究中心currently stores 330 petabytes of data in its data centers, and an upgrade of its accelerators expected in the next few years will drive that number up by 10x. Additionally, the organization experiences extreme peaks in its workloads during periods prior to big conferences, and needs its infrastructure to scale to those peaks. "We want to have a more hybrid infrastructure, where we have our on premise infrastructure but can make use of public clouds temporarily when these peaks come up," says Rocha. "We've been looking to new technologies that can help improve our efficiency in our infrastructure so that we can dedicate more of our resources to the actual processing of the data."

解决方案

欧洲核子研究中心的技术团队接受集装箱化和云本土实践,选择Kubernetes编排,执掌的部署,普罗米修斯为监控、集群内部和CoreDNS DNS解析。Kubernetes联盟允许组织运行一些生产工作负载的前提和公共云。

影响

“Kubernetes给我们应用程序的完全自动化,“罗查说。“它有内置的监控和日志记录所有在Kubernetes部署的应用程序和工作负载。这是一个巨大的简化我们的当前部署。”The time to deploy a new cluster for a complex distributed storage system has gone from more than 3 hours to less than 15 minutes. Adding new nodes to a cluster used to take more than an hour; now it takes less than 2 minutes. The time it takes to autoscale replicas for system components has decreased from more than an hour to less than 2 minutes. Initially, virtualization gave 20% overhead, but with tuning this was reduced to ~5%. Moving to Kubernetes on bare metal would get this to 0%. Not having to host virtual machines is expected to also get 10% of memory capacity back.

基础科学研究的任务,和一个稳定的非常大的机器,欧洲核研究组织(CERN)操作只能被描述为超大型。

实验是在粒子加速器中,最大的是周长27公里。“我们质子加速到很高的能量,接近光速,我们使两束质子碰撞在定义良好的地方,”欧洲核子研究中心的软件工程师里卡多·罗卡说。“我们构建实验在这些地方做碰撞。最终的结果是大量的数据,我们必须过程。”

他意味着很多:欧洲核子研究中心目前商店和流程330 pb的数据从4300年项目和3300年在其10000用户使用虚拟机监控程序和320000核数据中心。

多年来,欧洲核子研究中心技术部门已经建立了一个大型的计算基础设施,基于OpenStack私有云,帮助组织的物理学家们分析和治疗所有的数据。组织经历极端峰值工作负载。“通常,就在会议之前,物理学家想做大量的额外的分析来发布他们的论文,我们必须扩展到这些山峰,这意味着承诺过多资源在某些情况下,“罗查说。“我们想要更多的混合动力的基础设施,我们在前提基础设施但可以利用公共云暂时当这些山峰上来。”

另外,几年前,欧洲核子研究中心宣布将做一个升级的加速器,这将意味着增加十倍的数据量,可以收集。“我们一直在寻找新的技术,可以帮助提高我们的效率在我们的基础设施,这样我们就可以把更多的资源的实际处理数据,“罗查说。

罗查的团队开始看Kubernetes并在2015年下半年集装箱化。“我们已经使用分布式基础设施几十年来,“罗查说。“Kubernetes是我们可以与非常自然,因为它是分布式的。它给我们的是一个统一的API跨异构资源来定义我们的工作负载。这是我们在过去很多当我们想扩大我们的外部资源的基础设施。”

团队创建了一个原型系统为用户部署自己的Kubernetes集群在欧洲核子研究中心的基础设施,并在六个月内验证用例和确保Kubernetes与欧洲核子研究中心的内部系统集成。主要的用例是批处理工作负载,它代表超过80%的在欧洲核子研究中心的资源使用情况。(一个项目,大部分的物理数据处理和分析就消耗250000核。)”这是投资简化部署,日志记录、和监控回报非常快,“罗查说。其他用例包括Spark-based数据分析和机器学习来提高物理分析。“事实上,大多数这些技术整合与Kubernetes很好让我们的生活更加轻松,”他补充道。

系统进入生产2016年10月,也为部署使用舵,普罗米修斯的监视和CoreDNS集群中的DNS解析。“Kubernetes给我们的一件事是完全自动化的应用程序,“罗查说。“所以它有内置监控和日志记录所有在Kubernetes部署的应用程序和工作负载。这是一个巨大的简化我们的当前部署。”The time to deploy a new cluster for a complex distributed storage system has gone from more than 3 hours to less than 15 minutes.

向集群添加新节点用来花一个多小时;现在只需要不到2分钟。所花费的时间自动定量的副本系统组件从一个多小时减少到少于2分钟。

罗查指出粒子加速器可能事件中使用的度量每秒,但实际上“是多少速度的数据我们可以处理计数。”And efficiency has certainly been improved with Kubernetes. Initially, virtualization gave 20% overhead, but with tuning this was reduced to ~5%. Moving to Kubernetes on bare metal would get this to 0%. Not having to host virtual machines is expected to also get 10% of memory capacity back.

Kubernetes联盟,欧洲核子研究中心已经使用了2018年2月以来的生产工作负载的一部分,允许该组织采用一种混合云战略。这是非常简单的。“我们有一个暑期实习生工作联合会”罗查说。“多年来,我一直在开发分布式计算软件,历时十年和很多来自很多人的努力来稳定和确保它是有效的。对我们实习生,过几天他能够演示,我和我的团队,我们有一个集群在欧洲核子研究中心和一些集群在公共云,联合在一起,我们可以提交工作负载。对我们来说这是令人震惊的。真的显示的力量使用这种行之有效的技术。”

这样的结果,采用Kubernetes已经在欧洲核子研究中心的快速上涨,和团队渴望回馈社区。“如果我们回顾到90年代和2000年代早期,没有很多公司专注于系统规模,这种大小,存储海量数据,分析pb的数据,“罗查说。“事实上,Kubernetes支持这样一个广泛的社区和不同背景,它激励我们作出贡献。”

这些新技术不仅使基础设施的改进。欧洲核子研究中心也使用Kubernetes-basedReana /重塑可重用的分析平台,“能够定义物理分析作为一套完整的工作流的集装箱在一个单一的入口点,“罗查说。“这意味着物理学家可以建立他或她的分析和发布库,与同事分享,和10年重做同样的分析与新数据。如果我们回头甚至10年,这只是一个梦。”

所有这些大大改变了文化在欧洲核子研究中心。十年前,“趋势总是:“我需要这个,我得到两个开发人员,我实现它,”“罗查说。“现在我需要这个,我相信别人也需要这个,所以我去问问周围的人。“CNCF是个不错的来源,因为有一个非常大的可用的应用程序目录。现在很难证明内部开发一个新产品。真的没有真正原因继续这样做。容易得多试试,如果我们看到这是一个很好的解决方案,我们试图联系社区和社区开始工作。”

Baidu