12月7日消息,谷歌在发布多模态大模型Gemini的同时,还推出了全新的面向云端AI加速的TPU v5p ,这也是谷歌迄今为止功能最强大且最具成本效益的 TPU(云张量处理单元)。
据介绍,每个 TPU v5p Pod 由多达 8,960 个芯片组成,使用最高带宽的芯片间连接(每芯片 4,800 Gbps)进行互连,确保快速传输速度和最佳性能。
在性能方面,谷歌 TPU v5p 在 bfloat16 精度下,可以实现 459 teraFLOPS;在 Int8 精度下,可以实现 918 teraOPS。
谷歌 TPU v5p 配备 95GB 的 HBM3 内存,内存带宽为 2.76TB / sec,每个 Pod 最多有 8960 个加速核心,并自研搭载 600GB/sec 芯片互联主控,可以更快、更准确地训练 AI 模型。
谷歌表示在 BF16 精度下,训练 OpenAI 拥有 1750 亿参数的 GPT3,比此前的 TPU v4 AI 加速器芯片快 90%;如果在 Int8 精度下可以达到 180%。
价格方面,每个 TPU v5p 加速器的运行费用为每小时 4.20 美元,这比 TPU v4(每小时运行费用为 3.22 美元)和 TPU v5e(每小时运行费用为 1.20 美元)贵一点。