自研芯片专家takeaways
展开
【国君电子 | 海外】自研芯片专家takeaways
玫瑰3-6个月大模型复杂度翻倍,摩尔定律18个月翻一倍。芯片、互联各个层面都出现很快速的迭代。
💡硬件层3个重要的变化:
1)超节点出现:英伟达36卡、72卡互联,下一代可能是288卡互联,国内大厂也都在跟进。
2)服务器互联:以前IB网络一家独大,现在更多采用以太网RoCE。
3)算力集群规模持续增大:海外大厂AI训练规模向10万卡演进,国内训练在万卡集群。推理集群相对更灵活。
🌟做超节点的必要性
用在超大模型、Moe模型里。用超节点之后,可以组更大的网络,千卡、万卡级别。
一机8卡,512用两层网络,千卡万卡就是三层,复杂度提升,网络拥塞会影响进度。
如果有超节点,机内已经有32/64卡互联了,千卡可以用两层网络,到1.6甚至3.2万卡才用3层的交换网络。
🌟腾讯芯片使用情况
24年采购20w张H20,大量使用GPU,训练以H20为主。内部没有自研AI芯片项目,推理场景有使用燧原芯片。
玫瑰3-6个月大模型复杂度翻倍,摩尔定律18个月翻一倍。芯片、互联各个层面都出现很快速的迭代。
💡硬件层3个重要的变化:
1)超节点出现:英伟达36卡、72卡互联,下一代可能是288卡互联,国内大厂也都在跟进。
2)服务器互联:以前IB网络一家独大,现在更多采用以太网RoCE。
3)算力集群规模持续增大:海外大厂AI训练规模向10万卡演进,国内训练在万卡集群。推理集群相对更灵活。
🌟做超节点的必要性
用在超大模型、Moe模型里。用超节点之后,可以组更大的网络,千卡、万卡级别。
一机8卡,512用两层网络,千卡万卡就是三层,复杂度提升,网络拥塞会影响进度。
如果有超节点,机内已经有32/64卡互联了,千卡可以用两层网络,到1.6甚至3.2万卡才用3层的交换网络。
🌟腾讯芯片使用情况
24年采购20w张H20,大量使用GPU,训练以H20为主。内部没有自研AI芯片项目,推理场景有使用燧原芯片。
话题与分类:
主题股票:
主题概念:
声明:遵守相关法律法规,所发内容承担法律责任,倡导理性交流,远离非法证券活动,共建和谐交流环境!