DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率 – 蓝点网

 人参与 | 时间:2025-03-13 00:45:03
#人工智能 DeepSeek 开源 DeepGEMM 该开源库的开源核心代码仅用于提高效率 300 支持普通和混合专家模式。DeepSeek 这些开源库都是周开阵乘在自己的产品中使用的,经过测试和验证后再开源。源D用矩小怪物探险3查看全文:https://www.8ec.cn/108068。通提高DeepSeek AI 开源周现在是法库第三天,今天 DeepSeek 开源名为 DeepGEMM 通用矩阵乘法库 (GEMM),效率专门为英伟达设计 Hopper GPU 上的蓝点 AI 设计训练和推理任务。

DeepGEMM 它是开源清洁和高效的 FP8 GEMM 开源库的设计,FP8 它是周开阵乘小怪物探险3一种比传统更低精度的格式 FP32 或 FP16 对于大规模的吞吐量和较低的内存使用,计算更高的源D用矩吞吐量 AI 特别是设计矩阵乘法的任务,模型非常重要。通提高

这个开源库支持普通和混合专家 (MoE) 分组 GEMM,法库同时也适用于多种 AI 架构,效率DeepSeek 这些开源产品基本上都是蓝点在自己的模型中使用的,属于经过测试和验证后再开源的开源产品。

在 GitHub 中 DeepSeek 也对 DeepGEMM 详细说明:

DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率

DeepGEMM 实现以简单性和效率为基础,使用 CUDA 编写利用 NVIDIA 的 GPU 在操作过程中,编程模型通过轻量级即时编译模块对所有内核进行编译,无需安装旗舰进行编译。这一特点使 DeepGEMM 高度优化的代码可以根据特定的硬件和输入大小生成,从而提高性能。

这个开源库借鉴了开源项目 CUTLASS 和 CuTe 相反,依赖这些项目的复杂模板或代数避免了概念 DeepGEMM 设计简单,核心内核函数在 300 从而提高简约性和易用性。

支持各种不同的布局:

DeepGEMM 还支持密集布局和两种布局 MoE 适用于标准矩阵乘法和特殊布局 MoE 在大型语音模型中使用这些架构来有效地处理稀疏数据。

DeepGEMM 性能在各种矩阵形状上匹配或超过专家优化库,这只是 300 对于银行代码的开源库来说,这是一个巨大的成就。专家优化的核心通常是为特定的硬件设计而设计的,如循环扩展和块手动优化 DeepGEMM 使用双极累积解决方案 FP8 确保计算的准确性,从而提高模型性能。

有兴趣的开发者可以通过 GitHub 获取代码:https://github.com/deepseek-ai/DeepGEMM。

顶: 4619踩: 29