杭州深度求索人工智能宣布,全新系列模型DeepSeek-V3首个版本上线, API服务已同步更新,接口配置无需改动DeepSeekV3。模型发布即完全开源,参数量671B,预训练成本557.6万美元,训练时间不到280万GPU小时,性能超越Llama3.1405B,与GPT-4o等顶尖模型相当,价格更便宜,API价格优惠。
深度求索表示,DeepSeek-V3在知识类任务上的水平相比前代 DeepSeek-V2.5显著提升,接近当前表现最好的Anthropic公司于10月发布的一款模型。另外,在生成速度上,相比V2.5模型实现了3倍的提升,能够带来更加流畅的使用体验。在美国数学竞赛和全国高中数学联赛上,DeepSeek-V3大幅超过了其他所有开源闭源模型,表现说实话令人非常惊讶。
据最新发布的 DeepSeek-V3 技术报告,在英语、代码、数学、汉语以及多语言任务上,基础模型 DeepSeek-V3 Base 的表现非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比,DeepSeek-V3 也毫不逊色,并且在 MATH 500、AIME 2024、Codeforces 上都有明显优势。
著名 AI 科学家 Andrej Karpathy 也表示,如果该模型的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。
著名研究者贾扬清也给出了自己的深度评价。他认为 DeepSeek-V3 的诞生标志着我们正式进入了分布式推理的疆域。
深度求索国产大模型已经深深的震撼了AI世界,这意味着大模型不再是科技巨头独享的事物,而是所有中小型科技公司和初创公司有能力后发先至的赛道,因为这样的预训练金额是很多初创公司都能完成的一笔融资。在高端算力芯片可能被限制的时代,DeepSeek-V3对于国产AI产业的发展和创新具有里程碑的意义。