4月6日消息,当地时间周二,Alphabet旗下的谷歌公开了一些新细节,展示了用于训练人工智能模型的超级计算机,称其比英伟达A100芯片的系统更快、更节能。
谷歌公司设计了自己的定制芯片,称为Tensor Processing Unit(TPU),并将这些芯片应用于90%以上的人工智能训练工作。这个过程通过模型对数据进行训练,以提高其在类似人类文本响应或生成图像等任务中的实用性。
目前,谷歌TPU已经进入第四代。谷歌公司在周二发布了一篇科学论文,详细介绍了如何利用自己开发的定制光开关将4000多个芯片连接成一个超级计算机。
谷歌的PaLM模型,是迄今为止公开披露的最大语言模型,它通过分布在两台4000芯片的超级计算机上进行了50天的训练。
谷歌表示,其超级计算机可以轻松地动态重新配置芯片之间的连接,有助于避免故障并进行性能优化。
“电路交换使得我们能够轻松避开故障组件,”谷歌高级研究员Norm Jouppi和谷歌杰出工程师David Patterson在一篇关于该系统的博客文章中写道。“这种灵活性甚至使我们能够改变超级计算机互联网络的拓扑结构,以加速ML(机器学习)模型的性能。”
谷歌在论文中表示,与相同规模的系统相比,它的超级计算机比基于英伟达A100芯片的系统更快1.7倍,更节能1.9倍。据了解,A100芯片早于第四代TPU面市。