加速国产GPU开发!摩尔线程开源高性能计算库MUTLASS

时间:2024-11-12 20:30:00分类:显卡浏览:15

快科技讯11月12日摩尔线程宣布,正式开源高性能线性代数模板库MUTLASS,以便开发者能够更高效地针对摩尔线程GPU MUSA Core、Tensor Core等单元进行编程,加速基于国产GPU的算子开发以及算法创新。此前,摩尔线程已陆续开源OpenCV-MUSA计算机视觉库、MooER音频理解大模型、vLLM-MUSA大语言模型高速推理框架。

MUTLASS开源地址:https://github.com/MooreThreads/mutlass

在数值计算和深度学习领域,矩阵乘法(GEMM)及其变体,例如FlashAttention和Convolution,是构建复杂上层应用的基石。

为了追求更高的算子融合效率或者更具创新性的算法,开发者往往需要超越标准化计算接口的限制,如标准BLAS接口和芯片厂商的计算库接口,实现高性能的定制计算。儿子。

MUTLASS(MUSA Templates for Linear Algebra Subroutines)就是为了满足这种需求而设计的。

作为摩尔线程专为自研MUSA架构优化的高性能计算库,MUTLASS是基于开源模板库CUTLASS进行的MUSA适配和定制化开发、优化。对于矩阵乘法和相关变体,MUTLASS提供了一系列高性能的C++模板组件采用类似于muDNN 库的分层分解和数据处理策略,以确保充分的性能。

在这个开源版本摩尔线程适配了CuTe后端库中,增加了第三代MUSA架构的MMA计算原语,支持TF32/FP16/BF16/INT8等各种数据精度,并在此基础上初步实现了对矩阵乘法的支持、默认实例库、性能测试器及相关工具包。

通过MUTLASS,开发者不仅可以灵活复用不同层级的模板组件,还可以根据需要修改各种模板组件的实现细节,以更低的开发成本实现定制的高性能算子,从而使摩尔线程能够充分发挥性能在功能GPU上尝试更多的算法创新。

Moore Threads将继续优化MUTLASS的性能并推出新功能。

加速国产GPU开发!摩尔线程开源高性能计算库MUTLASS