取消
加载中...
DeepSeek开源第三弹:300行DeepGEMM代码
Feng 2025-02-26 10:29

三言科技 2月26日消息,DeepSeek正式启动“开源周”,将陆续开源5个代码库。前两个开源代码库分别为FlashMLA、DeepEP。


今天,DeepSeek官方推出开源第三弹:DeepGEMM。


DeepGEMM:一个支持dense和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 训练和推理提供支持。Hopper GPU 上最高可达1350+ FP8 TFLOPS。

微信图片_20250226101620_1789.jpg

DeepGEMM可以做到:


1、没有过多的依赖,像教程一样简洁

2、完全即时编译

3、核心逻辑约为 300 行 - 但在大多数矩阵大小上均优于专家调优的内核

4、支持dense布局和两种MoE布局

Feng
文章总数
6594