英伟达发布新一代M0E架构大模型Nemotron-4 340B

事件:英伟达于6月15日发布新一代AI大模型Nemotron-4 340B,最大的技术变化在于进一步拥抱MoE架构,引入ROPE优化算法:

架构端:Nemotron-4 340B采用Transformer架构,具备因果注意力掩码,使用旋转位置嵌入(ROPE)、SentencePiece分词器、MLP层平方ReLU激活函数等多项优化