全球首个7nm世界最大芯片打造AI集群
新智元报道 来源:wired 编辑:yaxinsuCatherine 突触是神经网络的「桥梁」。今日,Cerebras宣布世界首个「大脑级」AI集群,能够训练万亿参数模型,击败人脑百万亿个突触!突触,是神经网络的「桥梁」。 人类大脑有大约万亿个突触,亿个神经元。 因为有了突触,才可以把神经元的电信号传递到下一神经元。 而现在,Cerebras宣布了「第一个大脑级AI解决方案」! 一个可以支持万亿参数AI模型的单一系统,击败了人脑万亿个突触。 相比之下,最大的AI硬件集群大约占人类大脑规模的1%,约1万亿个突触(参数)。 Cerebras可以通过单个CS-2系统(85万个内核)实现首创! 世界第一!个AI集群,解锁万亿参数模型 参数越多,人工智能模型就越复杂。 谷歌在短短2年内将模型参数的数量提高了大约0倍。 参数的数量,所需的算力,都呈指数级增长。 Cerebras的创始人兼首席执行官AndrewFeldman表示,最新的处理器如此强大的原因就是,在晶片上打造而不是单个芯片上。 个CS-2集中在一起,将使最大的人工智能神经网络的规模扩大倍。 Cerebras系统由其第二代晶圆WSE-2提供动力。 WSE-2有2.6万亿个晶体管和85万个AI优化内核,再次刷新记录。 相比之下,最大的图形处理器只有亿个晶体管,比WSE-2少2.55万亿个晶体管。 与英伟达相比,WSE-2还拥有内核数是A的倍;缓存是其0倍;可提供的内存带宽,则达到了A的13万倍。 「大脑级」AI解决方案 首个大脑级AI解决方案如何诞生呢? 除了用到最大芯片,Cerebras还揭露了4项新技术。 这种技术组合可以轻松组建大脑规模的神经网络,并将工作分配到人工智能优化的核心集群上。 一、CerebrasWeightStreaming:分解计算和内存 这是一种新的软件执行模式,可以将计算和参数存储分解,使规模和速度得以独立且灵活地扩展,同时解决了小型处理器集群存在的延迟和内存带宽问题。 具体来说,这项技术首次实现了在芯片外存储模型参数,同时提供与在芯片上相同的训练和推理性能。 建立在WSE庞大规模的基础上,一个小型参数存储可以连接包含数千万个内核的许多晶圆,或者说,万亿个参数模型需要的2.4PB存储可以分配给单个CS-2。 模型权重保存在中央芯片外,它们被传输到晶片上,用于神经网络每一层的计算。 在神经网络的增量训练中,梯度从晶圆流到中央存储,然后被用于更新权重。 最终,用户可以将CS-2的使用数量从1个扩展到个,同时无需更改软件。 二、CerebrasMemoryX:启用百万亿参数模型 这是一种一内存扩展技术,它使模型参数能够存储在芯片外,并有效地流式传输到CS-2,实现同在芯片上那样的性能。 这一架构灵活性极强,支持4TB到2.4PB的存储配置,亿到万亿的参数大小。 也就是说,最终,WSE2可以提供高达2.4PB的高性能内存,CS-2可以支持具有多达万亿个参数的模型。 三、CerebrasSwarmX:提供更大、更高效的集群 这是一种人工智能优化的高性能通信结构,可将Cerebras的芯片内结构扩展到芯片外,从而扩展AI集群,而且使其性能实现线性扩展。 也就是说,10个CS-2有望实现比单个CS-2快10倍的相同解决方案。 最终,SwarmX可以将CS-2系统从2个扩展到个,鉴于每个CS-2提供85万个AI优化内核,Cerebras便可连接1.63亿个AI优化内核集群。 连接SwarmX的CS-2计算机接收神经网络的权重流、分割后的训练数据,同时计算传送到MemoryX的反向传播梯度。 四、SelectableSparsity:缩短时间 CerebrasWSE基于细粒度数据流架构,其85万个AI优化计算内核可以单独忽略零。 Cerebras架构独有的数据流调度和巨大的内存带宽,使这种类型的细粒度处理能够加速所有形式的稀疏性。 Cerebras 简言之,用户可以在他们的模型中选择权重稀疏程度,直接减少FLOPs和解决时间。 比iPad还大,「巨无霸」芯片迭代史 「巨芯」一代问世,大有可为 科技行业日新月异,变化发展飞快。芯片行业更是如此,之前再先进的工艺,两年后就有可能面临淘汰。这是信息时代不可逆转的趋势。 作为全球芯片龙头,NVIDIA依然占据着庞大的市场份额。 位于美国硅谷的AI创企Cerebras虽然没有NVIDIA那么全面,但其技术解决方案显然已经吸引到了许多客户。 早在年,Cerebras曾发布了第一代WSE(WaferScaleEngine)芯片。 这款芯片是有史以来最大的AI芯片,有40万个内核和1.2万亿个晶体管,使用台积电16nm工艺制程。 与多数芯片不同,一代「巨芯」不是在12英寸硅晶圆上制作的,而是在单个晶圆上通过互联实现的单芯片。互联设计可保持高速运行,使万亿个晶体管同时工作。 与传统芯片相比,WSE还包含倍的高速片上存储器,并具有00倍的存储器带宽。WSE的总带宽为每秒petabits,不需要诸如TCP/IP和MPI之类的通信协议支持。 由于大芯片可以更快处理信息,减少训练时间,研究人员能够测试更多想法。WSE的问世在当时消除了整个行业进步的主要瓶颈。 「巨芯」二代另辟蹊径,良率更高 年,Cerebras推出了最新的WaferScaleEngine2(WSE-2)芯片,该芯片为超级计算任务而构建,具有破纪录的2.6万亿个晶体管和85万颗AI优化内核,采用台积电的7nm工艺制造。 与第一代WSE芯片相比,二代芯片更加先进。 WSE-2的晶体管数、内核数、内存、内存带宽和结构带宽等性能特征增加了一倍以上。 在先进工艺的支持下,Cerebras可以在同样的8*8英寸,面积约mm2的芯片中塞进更多的晶体管。 而且,正是采用了台积电的7nm工艺,电路之间的宽度仅有七十亿分之一米。 当有内核发生故障时,单独的故障内核并不影响芯片的使用。况且在台积电这样的晶圆代工厂中,很少会出现连续的内核缺陷。 由此可见,二代「巨芯」的良率较高。 参考资料:
|
转载请注明地址:http://www.nasaoa.com/nstq/9420.html
- 上一篇文章: 元,8款珍藏级模型全归你
- 下一篇文章: 没有了