英伟达发力下游应用,国产大模型何去何从?
展开
英伟达发布新一代M0E架构大模型Nemotron-4 340B
事件:英伟达于6月15日发布新一代AI大模型Nemotron-4 340B,最大的技术变化在于进一步拥抱MoE架构,引入ROPE优化算法:
架构端:Nemotron-4 340B采用Transformer架构,具备因果注意力掩码,使用旋转位置嵌入(ROPE)、SentencePiece分词器、MLP层平方ReLU激活函数等多项优化
事件:英伟达于6月15日发布新一代AI大模型Nemotron-4 340B,最大的技术变化在于进一步拥抱MoE架构,引入ROPE优化算法:
架构端:Nemotron-4 340B采用Transformer架构,具备因果注意力掩码,使用旋转位置嵌入(ROPE)、SentencePiece分词器、MLP层平方ReLU激活函数等多项优化