DeepSeek-V4国产算力产业链解析
展开
DeepSeek-V4国产算力产业链解析
一、大模型版本迭代与算力供需格局
1、近期DeepSeek官方正式上线并开源DeepSeek-V4预览版。V4版本基本参数:本次DeepSeek发布的V4为混合架构模型,兼具思考与非思考能力,未单独推出推理类模型,共推出两款同架构、定位不同的版本,分别为性能最优的Pro版与轻量化的Flash版。两款版本核心参数如下:Pro版总参数1.6万亿、激活参数49B、预训练数据量33T;Flash版总参数2840亿、激活参数130亿、预训练数据量32T。对比上一代V3(预训练数据量14T、总参数6710亿),V4 Pro预训练数据量较V3增长一倍有余,总参数较V3上涨2.5倍,符合大模型可扩展性定律(scaling law)下模型越大、训练数据越多性能越强的发展路径。这一迭代标志着国产开源模型在基础能力上正逐步收敛与闭源模型的差距,同时对底层计算集群的支撑能力提出了更高标准。当前大模型服务端的吞吐量扩张普遍面临高端算力受限的客观约束。受制于外部硬件获取门槛,现有算力集群的并发处理能力存在明显天花板。随着下半年昇腾950超节点等核心硬件的批量上市,底层算力成本有望得到规模化摊薄,进而为专业版模型服务提供降价空间与普及基础。
2、核心技术亮点与调研反馈:本次DeepSeek-V4在技术层面有两大核心亮点:一是保留了自研的DSA稀疏注意力机制,该机制为中国团队首创,目前智谱、Kimi等大模型均有所借鉴;二是采用Token压缩技术,解决了传统注意力机制下平方级存储导致的计算量与KV Cache显存占用过高的问题,可使GPU计算量减少30%以上,KV存储降至原来的20%以上,整体GPU计算与存储消耗仅为原来的1/3-1/4,大幅提升推理效率、降低推理成本,此外模型还采用了残差连接方式进一步提升运行效率。开发者社区自发调研显示,针对V4发布效果的评价包含超出预期、符合预期、不符预期、很拉垮四类选项,绝大部分开发者选择符合预期,为当前业内的主流评价。大模型应用端的繁荣直接催生了庞大的Token消耗需求,进而向上游传导至核心芯片环节。在供需两侧的双向共振下,本土硬件的产业化落地进程正在提速。当前产业数据显示昇腾全年出货指引已上修至110万至120万颗区间,进一步印证了国内算力基础设施建设的产业景气度。
二、大模型算力支撑与国产适配进展
1、DeepSeek-V4训练算力情况:DeepSeek-V4训练采用英伟达系列显卡,主力芯片为英伟达H800。训练阶段的精度设置分两阶段:前期采用FP8精度,末尾阶段采用混合INT4精度。采用低精度训练核心为适配国产算力卡推理需求:受光刻机限制、无法赴台积电流片等工艺因素影响,国产算力卡制程落后于英伟达7纳米以下的先进制程,算力性能弱于英伟达显卡,更适配8位、4位等低比特位的量化推理格式,因此DeepSeek-V4在训练末尾阶段加入混合INT4精度训练,可使模型更好匹配国产卡的推理性能。
2、DeepSeek与国产卡适配情况:本次DeepSeek-V4发布实现了首次模型发布与国产推理部署同步的里程碑,华为昇腾在模型发布当日召开发布会,展示了DeepSeek-V4在FP8、FP4量化推理中的优化策略,发布时已同步在昇腾等国产算力集群完成部署,同步推出搭载DeepSeek模型的微引擎API服务,充分适配国产算力生态需求。为实现多平台兼容,DeepSeek此前已完成多项技术储备:包括EP定型、attention机制优化、算子支撑等推理引擎开发,针对华为昇腾自研的CANN算子框架与英伟达 CUDA 体系不兼容的问题,DeepSeek专门开发了中间适配框架,可同时兼容英伟达CUDA及国产算力框架。适配工作为双向协同模式:DeepSeek从模型和推理引擎层面做框架与结构兼容,国产算力卡厂商也同步从硬件层面做对应适配,本次深度适配为行业首次。
三、大模型行业核心竞争要素
三大核心竞争要素:AI行业的核心竞争要素可分为算法、数据、算力三大类,三者相互交织,共同决定大模型厂商的市场竞争力。 1、算法层面核心是团队领军人物对技术路线与迭代节奏的判断。DeepSeek将V4模型参数定为1.6T,Kimi、GLM采用1万亿参数规模,均是领军人物基于技术路线判断做出的决策。训练万亿级参数模型需投入2-3万张卡训练2-3个月,往往需要初创团队集中全部资源all in,一旦路线押错可能导致融资受阻甚至团队停运,押对则可快速抢占市场生态位。Kimi此前模型能力与算力储备均较为落后,正是依托领军人物杨子林的正确判断,基于DeepSeek V3的6700亿参数底座,将参数规模扩至1万亿推出Kimi 2.0,实现产品力快速赶超。头部厂商均看重核心技术领军人物的经验,如腾讯引入曾在Facebook顶级实验室任职的梁胜宇,依托其丰富的高性能模型研发经验支撑大模型业务布局。
2、数据层面核心差异来自优质专属数据储备。公开互联网数据普遍可获取,但优质专属数据十分稀缺,且数据获取渠道属于企业核心保密信息,通常包括行业深度合作、数据增优等方式。不同厂商的数据禀赋差异直接决定模型长板:抖音拥有大量视频、短剧类数据,训练的CDS 2.0模型表现突出;快手可灵也依托自身海量视频数据储备,模型效果优于同类产品。DeepSeek V4的预训练数据规模达33T,远高于V3的14T,数据层面的大量投入是其模型能力跃升的核心支撑之一。
3、算力层面的核心价值是提升模型迭代效率。充足的算力储备可支持多团队并行试错,大幅缩短模型训练周期:原本需2-3万张卡训练2-3个月的任务,投入10万张卡可将周期压缩至1个月,投入20万张卡仅需半个月即可完成一轮迭代,算力规模越大,模型迭代试错的灵活性越高。
四、相关产业链:
DeepSeek-V4的真正意义,在于推动国产模型与国产算力进入规模化落地阶段。受益方向主要集中在AI芯片、服务器整机、光互联、液冷散热、先进封装和算力租赁六大环节。
1、国产AI芯片:产业链核心受益环节华为昇腾国产训练芯片绝对龙头。昇腾950已经成为DeepSeek-V4重点适配平台,下半年量产后,有望进一步提升国产训练算力供给能力。
①寒武纪( 688256 ):国内通用AI芯片龙头。率先完成DeepSeek-V4Day-0适配,软件生态和大模型兼容能力持续强化。
②海光信息( 688041 ):国产DCU代表企业。兼具高性能计算与AI推理能力,是信创和AI融合的重要平台。
③摩尔线程( 688795 ):国内全功能GPU领先企业。FP8原生支持优势明显,在推理和训推一体场景竞争力突出。
④沐曦股份( 688802 ):高端国产GPU核心厂商,重点布局训练和推理市场。
2、国产服务器:模型落地第一载体
①神州数码( 000034 ):华为昇腾服务器核心合作伙伴,深度受益国产AI服务器放量。
②拓维信息( 002261 ):华为昇腾生态核心伙伴,参与昇腾服务器和行业解决方案建设。
③软通动力( 301236 ):全面参与华为昇腾生态,AI一体机业务快速增长。高新发展通过华鲲振宇切入昇腾服务器,是当前市场关注度最高的国产AI服务器平台之一。
④常山北明( 000158 ):华为政企生态伙伴。
⑤四川长虹( 600839 ):旗下华鲲振宇为华为鲲鹏、昇腾核心整机合作伙伴。
3、国产光模块与交换:集群互联核心环节国产算力大规模部署离不开高速互联。
①仕佳光子( 688313 ):AWG芯片和高速光器件核心供应商,受益国产光模块升级。
②源杰科技(688498):国产光芯片龙头,重点布局高速EML芯片。
③光迅科技( 002281 ):国内光模块龙头,全面覆盖800G和1.6T产品。
④中际旭创( 300308 )、新易盛( 300502 )、天孚通信( 300349 ):虽然海外业务占比较高,但依然是国内AI光互联升级的重要受益标的。
4、国产液冷:高功率时代刚需DeepSeek-V4推动推理集群功耗持续提升,液冷渗透率加速上行。
①英维克( 002837 ):国内液冷绝对龙头,全面覆盖服务器、交换机和数据中心液冷。
②申菱环境( 301018 ):IDC温控核心供应商,深度布局液冷基础设施。
③高澜股份( 300499 ):液冷板和冷却系统重要供应商。
5、国产PCB与先进封装材料AI服务器升级直接拉动高端PCB和关键材料需求。
①沪电股份( 002463 ):高频高速PCB龙头,深度受益AI交换机和服务器升级。
②胜宏科技( 300476 ):高多层PCB领先企业,AI订单持续高增长。
③深南电路( 002916 ):高端PCB和封装基板双龙头。
④沃格光电( 603773 ):玻璃基板国产化核心受益企业。
6、国产算力租赁与AIDCDeepSeek-V4降低了国产大模型私有化部署门槛。
①润泽科技( 300442 ):AIDC龙头,承接头部互联网和AI客户需求。
②奥飞数据( 300738 ):区域算力中心龙头,弹性较大。
③莲花控股( 600186 ):积极布局国产算力租赁业务。
一、大模型版本迭代与算力供需格局
1、近期DeepSeek官方正式上线并开源DeepSeek-V4预览版。V4版本基本参数:本次DeepSeek发布的V4为混合架构模型,兼具思考与非思考能力,未单独推出推理类模型,共推出两款同架构、定位不同的版本,分别为性能最优的Pro版与轻量化的Flash版。两款版本核心参数如下:Pro版总参数1.6万亿、激活参数49B、预训练数据量33T;Flash版总参数2840亿、激活参数130亿、预训练数据量32T。对比上一代V3(预训练数据量14T、总参数6710亿),V4 Pro预训练数据量较V3增长一倍有余,总参数较V3上涨2.5倍,符合大模型可扩展性定律(scaling law)下模型越大、训练数据越多性能越强的发展路径。这一迭代标志着国产开源模型在基础能力上正逐步收敛与闭源模型的差距,同时对底层计算集群的支撑能力提出了更高标准。当前大模型服务端的吞吐量扩张普遍面临高端算力受限的客观约束。受制于外部硬件获取门槛,现有算力集群的并发处理能力存在明显天花板。随着下半年昇腾950超节点等核心硬件的批量上市,底层算力成本有望得到规模化摊薄,进而为专业版模型服务提供降价空间与普及基础。
2、核心技术亮点与调研反馈:本次DeepSeek-V4在技术层面有两大核心亮点:一是保留了自研的DSA稀疏注意力机制,该机制为中国团队首创,目前智谱、Kimi等大模型均有所借鉴;二是采用Token压缩技术,解决了传统注意力机制下平方级存储导致的计算量与KV Cache显存占用过高的问题,可使GPU计算量减少30%以上,KV存储降至原来的20%以上,整体GPU计算与存储消耗仅为原来的1/3-1/4,大幅提升推理效率、降低推理成本,此外模型还采用了残差连接方式进一步提升运行效率。开发者社区自发调研显示,针对V4发布效果的评价包含超出预期、符合预期、不符预期、很拉垮四类选项,绝大部分开发者选择符合预期,为当前业内的主流评价。大模型应用端的繁荣直接催生了庞大的Token消耗需求,进而向上游传导至核心芯片环节。在供需两侧的双向共振下,本土硬件的产业化落地进程正在提速。当前产业数据显示昇腾全年出货指引已上修至110万至120万颗区间,进一步印证了国内算力基础设施建设的产业景气度。
二、大模型算力支撑与国产适配进展
1、DeepSeek-V4训练算力情况:DeepSeek-V4训练采用英伟达系列显卡,主力芯片为英伟达H800。训练阶段的精度设置分两阶段:前期采用FP8精度,末尾阶段采用混合INT4精度。采用低精度训练核心为适配国产算力卡推理需求:受光刻机限制、无法赴台积电流片等工艺因素影响,国产算力卡制程落后于英伟达7纳米以下的先进制程,算力性能弱于英伟达显卡,更适配8位、4位等低比特位的量化推理格式,因此DeepSeek-V4在训练末尾阶段加入混合INT4精度训练,可使模型更好匹配国产卡的推理性能。
2、DeepSeek与国产卡适配情况:本次DeepSeek-V4发布实现了首次模型发布与国产推理部署同步的里程碑,华为昇腾在模型发布当日召开发布会,展示了DeepSeek-V4在FP8、FP4量化推理中的优化策略,发布时已同步在昇腾等国产算力集群完成部署,同步推出搭载DeepSeek模型的微引擎API服务,充分适配国产算力生态需求。为实现多平台兼容,DeepSeek此前已完成多项技术储备:包括EP定型、attention机制优化、算子支撑等推理引擎开发,针对华为昇腾自研的CANN算子框架与英伟达 CUDA 体系不兼容的问题,DeepSeek专门开发了中间适配框架,可同时兼容英伟达CUDA及国产算力框架。适配工作为双向协同模式:DeepSeek从模型和推理引擎层面做框架与结构兼容,国产算力卡厂商也同步从硬件层面做对应适配,本次深度适配为行业首次。
三、大模型行业核心竞争要素
三大核心竞争要素:AI行业的核心竞争要素可分为算法、数据、算力三大类,三者相互交织,共同决定大模型厂商的市场竞争力。 1、算法层面核心是团队领军人物对技术路线与迭代节奏的判断。DeepSeek将V4模型参数定为1.6T,Kimi、GLM采用1万亿参数规模,均是领军人物基于技术路线判断做出的决策。训练万亿级参数模型需投入2-3万张卡训练2-3个月,往往需要初创团队集中全部资源all in,一旦路线押错可能导致融资受阻甚至团队停运,押对则可快速抢占市场生态位。Kimi此前模型能力与算力储备均较为落后,正是依托领军人物杨子林的正确判断,基于DeepSeek V3的6700亿参数底座,将参数规模扩至1万亿推出Kimi 2.0,实现产品力快速赶超。头部厂商均看重核心技术领军人物的经验,如腾讯引入曾在Facebook顶级实验室任职的梁胜宇,依托其丰富的高性能模型研发经验支撑大模型业务布局。
2、数据层面核心差异来自优质专属数据储备。公开互联网数据普遍可获取,但优质专属数据十分稀缺,且数据获取渠道属于企业核心保密信息,通常包括行业深度合作、数据增优等方式。不同厂商的数据禀赋差异直接决定模型长板:抖音拥有大量视频、短剧类数据,训练的CDS 2.0模型表现突出;快手可灵也依托自身海量视频数据储备,模型效果优于同类产品。DeepSeek V4的预训练数据规模达33T,远高于V3的14T,数据层面的大量投入是其模型能力跃升的核心支撑之一。
3、算力层面的核心价值是提升模型迭代效率。充足的算力储备可支持多团队并行试错,大幅缩短模型训练周期:原本需2-3万张卡训练2-3个月的任务,投入10万张卡可将周期压缩至1个月,投入20万张卡仅需半个月即可完成一轮迭代,算力规模越大,模型迭代试错的灵活性越高。
四、相关产业链:
DeepSeek-V4的真正意义,在于推动国产模型与国产算力进入规模化落地阶段。受益方向主要集中在AI芯片、服务器整机、光互联、液冷散热、先进封装和算力租赁六大环节。
1、国产AI芯片:产业链核心受益环节华为昇腾国产训练芯片绝对龙头。昇腾950已经成为DeepSeek-V4重点适配平台,下半年量产后,有望进一步提升国产训练算力供给能力。
①寒武纪( 688256 ):国内通用AI芯片龙头。率先完成DeepSeek-V4Day-0适配,软件生态和大模型兼容能力持续强化。
②海光信息( 688041 ):国产DCU代表企业。兼具高性能计算与AI推理能力,是信创和AI融合的重要平台。
③摩尔线程( 688795 ):国内全功能GPU领先企业。FP8原生支持优势明显,在推理和训推一体场景竞争力突出。
④沐曦股份( 688802 ):高端国产GPU核心厂商,重点布局训练和推理市场。
2、国产服务器:模型落地第一载体
①神州数码( 000034 ):华为昇腾服务器核心合作伙伴,深度受益国产AI服务器放量。
②拓维信息( 002261 ):华为昇腾生态核心伙伴,参与昇腾服务器和行业解决方案建设。
③软通动力( 301236 ):全面参与华为昇腾生态,AI一体机业务快速增长。高新发展通过华鲲振宇切入昇腾服务器,是当前市场关注度最高的国产AI服务器平台之一。
④常山北明( 000158 ):华为政企生态伙伴。
⑤四川长虹( 600839 ):旗下华鲲振宇为华为鲲鹏、昇腾核心整机合作伙伴。
3、国产光模块与交换:集群互联核心环节国产算力大规模部署离不开高速互联。
①仕佳光子( 688313 ):AWG芯片和高速光器件核心供应商,受益国产光模块升级。
②源杰科技(688498):国产光芯片龙头,重点布局高速EML芯片。
③光迅科技( 002281 ):国内光模块龙头,全面覆盖800G和1.6T产品。
④中际旭创( 300308 )、新易盛( 300502 )、天孚通信( 300349 ):虽然海外业务占比较高,但依然是国内AI光互联升级的重要受益标的。
4、国产液冷:高功率时代刚需DeepSeek-V4推动推理集群功耗持续提升,液冷渗透率加速上行。
①英维克( 002837 ):国内液冷绝对龙头,全面覆盖服务器、交换机和数据中心液冷。
②申菱环境( 301018 ):IDC温控核心供应商,深度布局液冷基础设施。
③高澜股份( 300499 ):液冷板和冷却系统重要供应商。
5、国产PCB与先进封装材料AI服务器升级直接拉动高端PCB和关键材料需求。
①沪电股份( 002463 ):高频高速PCB龙头,深度受益AI交换机和服务器升级。
②胜宏科技( 300476 ):高多层PCB领先企业,AI订单持续高增长。
③深南电路( 002916 ):高端PCB和封装基板双龙头。
④沃格光电( 603773 ):玻璃基板国产化核心受益企业。
6、国产算力租赁与AIDCDeepSeek-V4降低了国产大模型私有化部署门槛。
①润泽科技( 300442 ):AIDC龙头,承接头部互联网和AI客户需求。
②奥飞数据( 300738 ):区域算力中心龙头,弹性较大。
③莲花控股( 600186 ):积极布局国产算力租赁业务。
主题股票:
主题概念:
声明:遵守相关法律法规,所发内容承担法律责任,倡导理性交流,远离非法证券活动,共建和谐交流环境!

打赏
点赞(0)
Ta
回复