首页双碳基础知识碳达峰碳中和其他报告文献赛迪前瞻2025年第11期(总892期):DeepSeek创新性突破与影响分析-11页 (1)
admin

文档

5147

关注

0

好评

0
PDF

赛迪前瞻2025年第11期(总892期):DeepSeek创新性突破与影响分析-11页 (1)

阅读 958 下载 411 大小 1.15M 总页数 9 页 2025-04-09 分享
价格:¥ 9.90
下载文档
/ 9
全屏查看
赛迪前瞻2025年第11期(总892期):DeepSeek创新性突破与影响分析-11页 (1)
还有 9 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 9 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

5、有任何问题,文件需求请联系WX:baomafenxiang520

CCD赛迪智库前澹2025年3月13日第11期总第892期DeepSeek创新性突破与影响分析2025年1月,我国人工智能企业DeepSeek以全新技术路径和开源策略引发全球瞩目。通过创新模型架构和训练方法,DeepSeek实现了低成本与高性能的有机统一。其开放包容的发展理念有望推动人工智能开源生态繁荣,为我国人工智能产业实现跨越式发展、各行业推进智能化升级带来重要机遇。建议加快构建以原创理论突破为引领、以开放创新生态为支撑、以安全发展体系为保障的人工智能发展新格局,推动我国人工智能产业发展实现跃升。一、DeepSeek的创新性突破(一)以技术创新构筑成本与性能优势DeepSeek不同于依赖巨量参数及算力堆砌的主流大模型发展模式,其凭借模型架构创新实现成本与性能的双重突破,为人工智能技术发展开辟新路径。一方面,通过压缩时间空间复杂度降低模型开发成本。其V3版本通过多头潜在注意力机制和FP8混合精度训练等技术手段减少内存占用,降低运算资源消耗。利用DualPipe跨节点通信、无辅助损失的负载均衡策略、跨节点全对全通信等方法,增加并行计算规模,提升模型训练效率。DeepSeek V3技术报告披露其以557.6万美元的投入,用2048块英伟达H800GPU完成了训练,据公开数据测算,该成本约为大模型Meta Llama3.1的10%,OpenAI Gpt--4o的6%。另一方面,运用强化学习技术提升模型性能。在V3版本基础上,DeepSeekR1利用冷启动数据监督微调与多阶段强化学习训练策略,提升模型推理能力,优化输出可读性。在数学推理、编程竞赛等复杂任务中,DeepSeek R1表现优异,比肩顶尖大模型OpenAI-.ol-1217。2
返回顶部