Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
DeepSeek开源 Day1:FlashMLA深度解读,分块MLA利用Flash显存! | ZOMI酱 | Podwise
Prev
Next
YouTube
26 Feb 2025
38m
DeepSeek开源 Day1:FlashMLA深度解读,分块MLA利用Flash显存!
ZOMI酱
YouTube
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期节目深入探讨了 DeepSeek 团队发布的 FlashMLA,一种针对 HOVA GPU 的高效多头注意力机制 (MLA) 内核。节目首先解读了 DeepSeek V2 中提出的 MLA 论文,阐述了其核心思想:通过低秩 (Low-rank) 的 KV 联合压缩,利用潜在向量来减少 KV Cache 的显存占用,从而显著提升推理速度。论文中指出,DeepSeek V2 将训练耗时减少了 42%,KV Cache 显存降低了 93.3%,吞吐量提升了 5.76 倍。更进一步,节目详细分析了 FlashMLA 的实现原理,解释了其如何通过潜在空间变量 (Latent CTKV) 实现 KV Cache 的压缩和解压缩,并结合旋转位置编码 (Rotary Embedding) 来处理位置信息。 随后,节目深入代码层面,讲解了 FlashMLA 开源代码库的主要构成,包括 Python 接口、C++ 核心代码以及 CUDA 内核函数。 值得关注的是,代码中大量使用了 C++,并针对 H100 和 H800 进行了深度优化,实现了高达 3000Gbps 的内存带宽和 500TF 的计算峰值。 最后,节目总结了 FlashMLA 的四个核心特性:分页式 KV Cache 管理、异步内存拷贝、利用 HOVA 架构的 SM90 指令集以及双模式执行引擎。 这对于推理框架和中间件公司具有重要意义,预示着未来推理加速技术的发展方向,并可能对整个 AI 算力市场产生深远影响。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval