哈佛大学的研究人员使用谷歌LLC的公共云基础设施平台创建了超级计算机的克隆。
他们声称这是对云计算资源的高度原创使用,可以帮助其他正在努力访问强大超级计算机的研究人员完成他们的研究。
根据Koumoutsakos的说法,研究小组只能保留足够的超级计算机时间来进行一次完整的模拟,但它无法重复该练习以完善或优化测试的任何方面。
这是科研团队的常见问题。
在美国,只有少数超级计算机可供科学家使用,它们有足够的能力来执行像Koumoutsakos这样的研究所需的数十亿次计算。
因此,对于那些想要访问这些机器的人来说,有一个很长的等待名单。
为了应对这一挑战,Koumoutsakos和他的团队求助于Citadel Enterprise Americas LLC的合作伙伴,看看他们是否可以在公共云中复制超级计算机,在那里无需等待访问资源。
公共云不是一个简单的解决方案,因为像谷歌云这样的平台并不是为了处理研究人员通常执行的任务而设计的。
相反,云实例是为数百万个小得多的计算任务而设计的,例如提供网页、托管应用程序、流式视频和数据库访问。
另一方面,云通常非常可靠和有弹性,并且没有等待访问的名单。
Koumoutsakos和来自Citadel的团队,以及瑞士苏黎世联邦理工学院的研究人员,展示了他们如何使用谷歌云上的数千个虚拟机来复制超级计算平台。
他们使用“广泛调优的代码”来利用这些分布式云资源,实现了专用超级计算机设施提供的令人印象深刻的80%的效率。
谷歌云高性能计算首席技术专家比尔·马格罗表示,云在解决技术科学工程计算问题方面具有独特的潜力。
他解释说,要修改云基础设施使其表现得像一台超级计算机,需要在硬件的软件、网络和物理设计方面进行更改。
“谷歌云的高性能计算技术和解决方案旨在简化和扩展最大,最复杂的工作负载,使研究人员能够大大加快发现和影响的时间,”他补充说。
这项研究是一个很好的发现,可能会为需要大量计算能力的研究人员和组织带来替代方案,但对于业内人士来说,Koumoutsakos和他的团队能够做到这一点并不奇怪,Constellation Research Inc.的分析师Holger Mueller说。
他指出,谷歌的云一直是高度可配置的,因为谷歌的内部工作负载一直需要这种可配置性。
“一个例子是谷歌的翻译模型,它已经运行了很多年,”穆勒说。
“他们需要高端实例和快速网络,这是超级计算机的标志,而这正是谷歌云提供的。
穆勒补充说,少数超级计算机提供商不太可能过于担心公共云成为高性能计算行业的竞争对手,因为云平台的需求同样很高。
“现在,由于对人工智能工作负载的兴趣,几乎每个云平台都看到了容量限制,并且在可预见的未来仍将如此。