Facebook 母公司 Meta 加入 Google、亚马逊、微软的半导体大战,首度公开自行研发 AI 芯片进展。
Meta正在打造特别为 AI 设计的基础设施架构,涵盖硬件与软件堆栈的各个层面,以及串联这些技术的定制化网络,包括 Meta 第一款用于执行 AI 模型的定制芯片、针对 AI 最佳化的数据中心设计,以及目前进展至第二阶段的 AI 超级计算机。
名为Meta Training and Inference Accelerator(MTIA)的全新ASIC芯片,是Meta第一款自行研发的定制芯片,宣称运算效能和处理效率胜过CPU,专门用于处理与AI推荐系统相关的工作,帮助用户找出最佳贴文内容并更快呈现在你眼前。 Meta在2020年开发出第一代MTIA(MTIA v1),采用台积电7纳米制程。 而据国外媒体TechCrunch报道,MTIA至少要到2025年才会正式问世、投入服务当中。
▲ Meta 首席执行官扎克伯格亲自展示MTIA。
除了MTIA,Meta自行研发另一款芯片,是称为Meta Scalable Video Processor(MSVP)的ASIC芯片,以支持持续成长的影音内容处理需求,最终希望将大部分成熟且稳定的影音内容处理工作交由MSVP执行。
至于Meta新一代数据中心设计除了将支持现有产品以外,更将协助未来新的AI硬件展开训练和推理。 新的数据中心针对AI优化,支持液体冷却式AI硬件设备和高效AI网络,将数千个AI芯片串联在一起形成数据中心规模的AI训练集,能与MSVP等新硬件设备相辅相成。
Meta 的 Research SuperCluster(RSC)AI 超级计算机,可训练新一代大型 AI 模型以支持新的 AR 工具、内容理解系统、实时翻译技术等等,它配备 16,000 个 Nvidia A100 Tensor Core GPU( 2,000 个 Nvidia DGX A100 系统)。 从去年开始 RSC 参与各项研究计划,例如 Meta 推动的大型语言模型 LLaMA(Large Language Model Meta AI)。
除了日前宣布将生成式 AI 运用在广告工具上,Meta 也计划调整编程编写方式,通过内部开发的生成式 AI 程序编写辅助工具 Code Compose,提升开发者的工作效率。
自 2016 年以来,Google 一直在设计和部署称为 Tensor Processing Units(TPU)的 AI 芯片,用于训练生成式 AI 系统如 PaLM-2、Imagen 等,亚马逊则向 AWS 客户提供 AWS Trainium、AWS Inferentia 两款自研芯片进行应用,微软也传出正与 AMD 合作开发一种名为 Athena 的 AI 芯片。
Meta 过去主要使用CPU 以及用于加速 AI 算法而设计的定制芯片来处理 AI 运算工作,为了扭转局面,Meta 开始自行研发客制化芯片,并与同样向 AI 领域投入大量资源的 Google、亚马逊、微软等竞争。