王曦软件

DeepSeek的DeepEP和FlashMLA各是什么意思?人工智能进入全民普及阶段




  
2025年2月25日,开源放福利的DeepSeek甩出了一张王炸
——开源全球首个面向MoE模型的全栈通信库DeepEP
因为直接解决了AI算力焦虑,GitHub瞬间飙出1500星(指收藏量),圈内集体炸锅,其重要性可见一斑。



很多人好奇DeepEP意味着什么?
想象一下双十一的快递驿站:
2048个快递小哥(GPU)在200个仓库(服务器)间疯狂搬运包裹(AI数据),传统运输系统就相当于让小哥们蹬三轮送货,而DeepEP直接给全员配上了“磁悬浮+量子传送”套装,稳定高效的传递信息。

特点一:直接改变运输规则

在2024年8月29日的英伟达电话会议上,黄仁勋曾经专门强调了NVLink(英伟达开发的一种让GPU之间直接互连的技术,双向互传速度可达1.8TB/S)对于低延迟、高输出和大型语言模型的重要性,认为它是推动大模型发展的关键技术之一。

然而这个被吹爆的NVLink技术,这次直接被中国团队玩出了新高度。
DeepEP玄妙之处就在于对NVLink的优化,这意味着在同个仓库的快递员之间,用磁悬浮轨道运输,速度高达每秒158个集装箱(GB/s),相当于把北京到上海的距离缩短到喝一口水的时间。

黑科技二是其所包含的RDMA技术的低延迟内核,试想下,不同城市的仓库之间,货物直接“量子传送”,每架飞机(网卡)运力达每秒47个集装箱,还能让飞机一边装货一边飞行,计算与通信重叠,彻底告别停机等待。

特点二:智能分拣黑科技:AI版“最强大脑”

当货物需要分发给不同专家(MoE模型中的子网络)时,传统分拣员要逐个拆箱检查,而DeepEP的“调度-组合”系统就像拥有预知能力:
在训练预填充模式,4096个数据包同时走智能传送带,自动识别同城或跨城件;
在推理预填充模式,128个加急包裹走VIP通道,163微秒送达比人类眨眼快5倍。
与此同时采用动态变轨技术,遇到流量洪峰秒切传输模式,完美适配不同场景需求。

特点三:FP8“缩骨术”

普通货物用标准箱子(FP32/FP16格式)运输,而DeepEP能把货物压缩成微型胶囊(FP8格式),同样卡车能多装3倍货物。更神奇的是,这些胶囊到达目的地后会自动恢复原状,既省邮费又省时间。

这套系统已在DeepSeek自家仓库(H800 GPU集群)实测:
同城货运速度提升3倍,跨城延迟降低到人类难以感知的程度,而最颠覆性的是它实现了真正的"无感传输"
——就像快递小哥边骑车边往快递柜里塞包裹,整个过程行云流水

现在DeepSeek把这张王牌开源,相当于把顺丰的无人分拣系统图纸公之于众,原本需要2000台GPU的重型任务,现在几百台就能轻松拿捏。

在更早之前,DeepSeek发布了其“开源周”的第一项成果:
FlashMLA(直译为快速多头潜在注意力机制)的代码,同样是减少大模型训练过程中成本的关键技术之一。
为了缓解产业链上下游的成本焦虑,DeepSeek正在倾囊相授。

此前潞晨科技创始人尤洋在社交媒体发文表示,“短期内,中国的MaaS模式可能是最差的商业模式”,其简单估算,如果每日输出1000亿token,基于DeepSeek的服务每月的机器成本是4.5亿元,亏损4亿元;用AMD芯片月收入4500万元,月机器成本2.7亿元,这意味着亏损也超过2亿元。

外媒热议

外媒热议DeepSeek的这两枚开源王炸在国际上引起了广泛关注。
外媒对DeepSeek的评价普遍较高,认为其打破了人们对人工智能研发需要“高投入、长周期”的传统认知,提供了低成本、高效能的解决方案。
同时,DeepSeek的开源策略也被视为一种促进全球科技进步的积极举措。
具体来说,外媒对DeepEP和FlashMLA的关注点有所不同。
对于DeepEP,外媒主要关注其在优化GPU通信效率、提升AI模型训练与推理效率方面的潜力。
而对于FlashMLA,外媒则更侧重于其在提升AI加速能力、挖掘显卡性能潜力方面的表现。

DeepSeek今日启动开源周 Open Source Week

首个开源代码库为FlashMLA

2025年2月24日,DeepSeek启动“开源周”,首个开源的代码库为FlashMLA——针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计。
据介绍,FlashMLA的灵感来自FlashAttention 2&3和cutlass项目。



其发布有以下几个重点内容:

FlashMLA是DeepSeek针对HopperGPU优化的高效型MLA(Multi-HeadLatentAttention,多头潜在注意力)解码内核,专为处理可变长度序列设计,已在生产环境中投入使用。

此项目是DeepSeek V2–V3系列大模型的重要技术创新,旨在通过优化解码过程和KV缓存来降低大语言模型的推理成本,同时提升响应速度和吞吐量。

FlashMLA在英伟达H800 SXM5 GPU上测试时,能够达到3000GB/s的内存带宽和580TFLOPS的计算上限,这显示出在内存访问和计算效率上的显著优势。

目前发布的版本支持BF16精度,并采用块大小为64的分页KV缓存,确保在处理大模型推理任务时更加高效。

官方指出,FlashMLA的设计灵感部分来源于FlashAttention2&3以及英伟达的CUTLASS项目,这表明该解码核在高效注意力计算方面进行了针对性优化。

通过采用低秩分解等技术,FlashMLA在压缩KVCache的同时仍保证了原有性能,能够在降低内存需求的同时提升推理效率。

FlashMLA特别适用于需要处理长序列文本的应用,如聊天机器人、文档分析以及实时翻译系统,能显著降低延迟和资源占用。

随着该项目开源,未来有望集成到vLLM、Hugging Face TransformersLlama.cpp等开源生态系统中,使得更多大语言模型(如LLaMA、Mistral、Falcon)能在相同硬件资源下获得更高效的推理性能。

发布的代码中包含内联PTX代码,这种做法使得开发者可以更精细地控制GPU执行流程,进一步提升计算性能,并可能部分绕开英伟达封闭生态的限制。

上周四(2025年2月20日,王曦软件备注),DeepSeek宣布在这周举办“开源周”活动,并开源五个代码库。

DeepSeek表示以完全透明的方式与全球开发者社区分享他们的研究进展,每日都有新内容解锁,进一步分享新的进展,并将这一计划定义为“Open Source Week”。
DeepSeek表示,其在线服务中的构建模块已经被记录、部署并进行了实际测试,希望分享的每一行代码都会变成强有力的势能,加速行业发展进程。
该团队还称,这个领域没有象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。

整理|王曦软件
来源|凤凰网科技、智慧工科、中国基金报


上一主题上一篇  >>更多王曦软件信息<<  下一篇下一主题

王曦网科编辑部  编辑:王悠然  编审:王北辰
• 加微信 80268606 好友请备注:王曦软件
• 合作、投稿、版权问题、进读者群…一步到位~
回复 270 王曦软件 2025-2-26 15:43:46

使用道具 举报


可爱搜索
有趣有用的精品信息
可爱点心 keai.cn 1999年至今

 
王曦软件@王曦网络科技 浙ICP备17005657号-1
关于我们联系我们版权声明软件条款综合声明网站地图
Copyright © 1999~ keai.cn All Rights Reserved.
 
快速回复 返回顶部 返回列表
keai.cn主站 频道首页
返回上页
商城
信息