谷歌本周推出了其托管Google Kubernetes Engine服务的企业版,除了应用客户配置和策略护栏外,它还将管理集群队列。
GKE Enterprise 在 Google Cloud Next 2023 大会上宣布。除了更容易隔离工作负载之外,GKE Enterprise 还提供安全服务,包括工作负载漏洞洞察、治理和策略控制以及基于谷歌最初共同开发的开源 Istio 软件的托管服务网格。
GKE Enterprise已与Google Distributed Cloud集成,Google Distributed Cloud是一个基于谷歌软件和硬件的集成平台,使IT团队能够部署分布在公共云和本地IT环境中的应用程序。
最后,谷歌宣布 GKE Enterprise 现在也支持 Cloud TPU v5e 实例,以便更轻松地在 Kubernetes 集群上部署复杂的人工智能模型。谷歌一直在提出采用其TPU ASIC来运行神经网络来训练生成AI应用程序的理由。
谷歌和英伟达本周还宣布了其最新A3实例的正式上市,该实例由NVIDIA H100 Tensor Core图形处理器单元提供支持。
谷歌云首席执行官Thomas Kurian告诉与会者,谷歌已经在广泛使用NVIDIA GPU来训练驱动其生成人工智能模型的基础模型。
NVIDIA首席执行官黄仁勋补充说,生成式人工智能正在彻底改变计算堆栈的每一层。他补充说,两家公司正在合作重新设计云基础设施,以针对生成人工智能模型进行优化。
目前尚不清楚像Kubernetes这样的云原生计算平台是否是构建和部署人工智能模型的核心。至少,几乎每个云原生应用程序都需要通过应用程序编程接口调用多个人工智能模型。不可避免地,这将引入一些编排挑战,而Kubernetes等平台旨在解决这些挑战。
与此同时,每个组织都需要决定是更喜欢自己管理 Kubernetes 集群,还是依赖托管服务,使他们能够将更多资源用于应用程序和人工智能模型的开发。从历史上看,权衡是托管服务对 DevOps 工作流施加的限制,这些限制在每个组织中往往相当独特。
当然,就 Kubernetes 而言,管理这些平台所需的专业知识仍然很难找到和保留。随着人工智能的不断进步,更多的基础设施管理任务自动化只是时间问题。与托管服务提供商相比,内部IT团队将从这些进步中受益的速度还有待观察,托管服务提供商也恰好构建和托管用于创建AI模型的大型语言模型。
无论结果如何,很明显,由于更高的抽象级别,许多曾经使 Kubernetes 集群难以管理的任务正在自动化。