挑战
巴比伦的大量产品利用了机器学习和人工智能,2019年,公司内部没有足够的计算能力来运行一项特定的实验。该公司还在增长(三年内从100家增长到1600家),并计划向其他国家扩张。
解决方案
2018年,巴比伦将其面向用户的应用程序迁移到Kubernetes平台上,因此基础设施团队转向Kubeflow,这是Kubernetes上的一个机器学习工具包。AI基础设施主管Jérémie Vallée表示:“我们试图创建一个Kubernetes核心服务器,部署了Kubeflow,并精心安排了整个实验,最终取得了巨大成功。”该团队开始在Kubernetes平台上搭建一个自助人工智能培训平台。
影响
团队无需等待数小时或数天才能进行计算,而是可以立即访问。临床验证过去需要10个小时;现在它们在20分钟内就完成了。本地云平台的可移植性也使得Babylon能够扩展到其他国家。
自2013年在英国成立以来,这家初创公司已经在世界各地为数百万人提供了数字咨询服务。在英国,病人通常要等上一两个星期才能预约医生。通过巴比伦的NHS服务,手持全科医生(GP at hand)有超过75,000名注册患者,39%的人在30分钟内通过手机预约,89%的人在6小时内预约。
这仅仅是个开始。巴比伦AI基础设施负责人Jérémie Vallée表示:“我们试图将不同类型的技术与我们内部拥有的医疗专业知识相结合,以构建产品,帮助患者管理和了解自己的健康状况,并帮助医生提高工作效率。”
大量此类产品利用了机器学习和人工智能,2019年,研究人员遇到了一个痛点。Vallée表示:“我们有一些内部服务器,我们的研究人员在那里做了大量的人工智能实验和一些模型培训,我们到达了一个点,我们没有足够的内部计算来运行特定的实验。”
Babylon在2018年将面向用户的应用程序迁移到Kubernetes平台,“多亏了这次迁移,我们获得了很多Kubernetes的知识,”他补充道。为了优化已经创建的一些模型,该团队转向Kubeflow,这是Kubernetes上的一个机器学习工具包。他说道:“我们尝试着创造一个Kubernetes核心服务器,我们部署了Kubeflow,并精心策划了整个实验,最终取得了巨大的成功。
基于这一经验,Vallée团队的任务是建立一个自助服务平台,帮助巴比伦的人工智能团队变得更高效,进而帮助产品更快地进入市场。主要要求:(1)无论实验规模有多大,研究人员和工程师都能访问他们需要的计算机;(2)一种为团队提供他们需要的最好的工具来完成他们的工作的方式,按需和集中的方式;(3)培训平台必须接近正在管理的数据,因为公司正在向不同的国家扩张。
库伯内特斯在各方面都是推动者。Vallée表示:“Kubernetes是一个很棒的机器学习平台,因为它提供了你需要的所有调度和可扩展性。”需要在每个巴比伦运营的国家保存数据,这需要一个多地区、多云的战略,有些国家甚至可能根本没有公共云提供商。他说:“我们想让这个平台便携式,这样我们就可以在任何地方开展培训工作。”Kubernetes提供了一个基础层,允许你在云提供商之外部署平台,然后部署你需要的任何工具。这对我们来说是一个很好的卖点。”
当团队决定在Kubernetes之上建立巴比伦AI研究平台时,他们引用了云原生景观来构建堆栈:用于监测的Prometheus和Grafana;Istio服务网格用于控制培训平台上的网络,并控制所有工作流的访问权限;舵向堆栈部署;和Flux管理管道的GitOps部分。
云原生AI平台在巴比伦产生了巨大的影响。在该平台上运行的首批研究项目主要涉及机器学习和自然语言处理。这些实验需要巨大的计算量——1600 CPU, 3.2 TB ram——这比巴比伦内部拥有的要多得多。另外,根据平台团队的繁忙程度,访问计算过去需要几个小时,有时甚至几天。Vallée表示:“现在,有了Kubernetes和我们提供的自助服务平台,这几乎是即时的。”
在该平台上完成的另一项重要工作是对新应用程序的临床验证,如巴比伦的症状检查器,它根据用户输入的证据计算出疾病的概率。Vallée表示:“在医疗保健行业,我们希望我们的所有模型在投产前都是安全的。”将Argo用于GitOps“使我们能够大规模地扩展这个过程。”
研究人员过去要等上10个小时才能得到新版本模型的结果。在Kubernetes的帮助下,时间缩短到不到20分钟。此外,以前他们一次只能进行一项临床验证,现在如果他们需要的话,他们可以进行许多并行验证——考虑到过去三年里,巴比伦的员工从100人增长到1600人,这是一个巨大的好处。
首席技术官Caroline Hargrove表示:“提供一个自助平台,让用户能够运行自己的工作负载,使我们的数据科学家社区无需任何云技能,也无需平台工程师的帮助,就可以进行超参数调整和通用算法开发,从而加快了我们的创新。”
平台运营总监Jean Marie Ferdegue补充道:“为我们的数据科学家提供一个基于kubernetes的平台,意味着提高安全性,通过授权增加创新,以及更廉价的医疗服务,因为我们的云工程师正在构建一种每天有数百人使用的体验,而不是支持特定的定制用例。”
此外,随着巴比伦的继续扩张,“它将很容易搭载新的国家,”Vallée说。“15个月前当我们部署这个平台,我们有一个大的环境在英国,但是现在我们有一个在加拿大,我们有一个在亚洲,和我们有一个在美国这是一个的Kubernetes和其他原生云项目支持我们。”
Babylon的本地云计算路线图包括将公司所有的人工智能工作纳入该平台。越来越多地包括人工智能护理服务。Vallée表示:“我认为这将是人工智能和医疗保健相结合的一个有趣领域。”“这是一个复杂的问题,围绕这个问题有很多问题。所以通过我们的平台,我们想说,‘我们能做些什么来减轻我们的开发者和机器学习工程师的痛苦?'"