H100提速：无需CUDA，新作引爆关注！

近年来，人工智能技术的蓬勃发展对计算硬件提出了前所未有的挑战。为了满足日益增长的算力需求，硬件厂商不断推出性能更强大的GPU，而开发者则致力于优化AI模型的性能，以充分利用这些硬件资源。英伟达的H100 GPU，作为当前最顶级的AI加速器之一，其性能优化一直是研究的热点。然而，传统的性能优化往往依赖于CUDA C++等底层编程语言，这需要开发者具备深厚的硬件知识和编程技巧，使得高性能计算领域长期以来被少数精通底层技术的专家所垄断。但令人振奋的是，最近一系列突破性的研究成果表明，无需CUDA代码，同样可以显著提升H100的性能，甚至达到33%-50%的加速效果，这无疑给整个行业带来了惊喜，也预示着AI模型优化领域正迎来一场变革。这些进展不仅简化了AI模型的优化流程，也为更广泛的开发者群体参与高性能计算提供了可能，极大地推动了AI技术的普及和创新。

新型框架的出现正在改变着传统的GPU编程范式。其中，由Flash Attention和Mamba的作者之一Tri Dao及其团队推出的QuACK新型SOL内存绑定内核库，更是引发了业界的广泛关注。

1. QuACK：Python与CuTe-DSL的完美结合

QuACK的核心在于完全使用Python和CuTe-DSL进行开发，完全摒弃了传统的CUDA C++代码。CuTe-DSL作为一种领域特定语言，专注于张量计算，极大地降低了GPU编程的门槛。开发者可以使用更简洁、更高级的语言来描述算法逻辑，而无需深入了解复杂的硬件细节。这种方法使得开发者能够更专注于算法的优化，例如调整张量布局、选择最佳的并行策略等等，而无需被底层的硬件架构所困扰。QuACK的设计理念是“性能是设计出来的”，Tri Dao团队在深入理解现代加速器的线程与内存层级结构的基础上，对细节进行精细雕琢，最终在带宽高达3TB/s的H100上，实现了超越PyTorch中torch.compile和Liger等已经过深度优化的库的性能表现。这证明了即使不使用CUDA，同样能够获得出色的性能。QuACK的成功不仅在于其独特的编程方法，更在于其对硬件的深入理解和对算法的精细优化。

2. ThunderKittens：百行代码释放H100潜能

除了QuACK，斯坦福大学的研究人员也开源了一个名为ThunderKittens的AI加速框架。令人难以置信的是，仅需百行代码，ThunderKittens就能让H100的性能提升高达30%。该框架的设计理念是简单、可扩展和快速。它简化了编写高性能深度学习内核的过程，并能够在现代硬件上实现高利用率。ThunderKittens通过巧妙的算法设计和代码优化，实现了对H100的有效利用。这表明，即使不直接操控CUDA，通过对算法的深入理解和对代码的精心优化，也能充分挖掘H100的潜力，获得显著的性能提升。ThunderKittens的出现，为那些希望在H100上实现高性能的开发者提供了一个更简单、更高效的选择。

3. DeepSeek-R1：绕过CUDA的尝试

DeepSeek公司研发的DeepSeek-R1模型引发了关于硬件优化策略的讨论，进一步推动了无需CUDA代码加速的可能性。DeepSeek选择了一种不同的路径，尝试绕过CUDA，这在一定程度上也反映了对CUDA生态系统垄断地位的挑战。DeepSeek的举动表明，除了CUDA，还有其他的实现高性能计算的可能途径。这促使人们开始思考，是否可以通过其他更开放、更易用的方式来开发高性能AI模型。DeepSeek-R1的出现，也鼓励了更多开发者去探索其他的硬件平台和编程框架，推动了AI领域的创新。

这些新的研究成果预示着，AI加速领域正朝着更开放、更易用的方向发展。传统CUDA编程的复杂性和学习曲线，一直阻碍着更多开发者进入高性能计算领域。而QuACK和ThunderKittens等新型框架的出现，则通过抽象底层硬件细节，降低了开发门槛，提高了开发效率。与此同时，这些框架的出现也对英伟达的CUDA生态系统构成了一定的挑战。例如，DeepSeek甚至绕过了CUDA，这无疑给英伟达带来了新的压力。并且，一些初创公司正在积极尝试通过模拟CUDA的方式，在AMD等非英伟达的硬件平台上运行原版CUDA程序，进一步打破了CUDA的垄断地位。

总之，无需CUDA代码加速H100的趋势正在兴起。QuACK、ThunderKittens以及DeepSeek等项目的出现，为AI模型的性能优化提供了新的思路和工具。这些进展不仅简化了开发流程，降低了开发成本，也推动了AI技术的普及和创新。未来，随着领域特定语言和自动化代码生成技术的不断发展，我们有理由相信，无需CUDA代码的AI加速方案将变得更加成熟和普及，为人工智能的未来发展注入新的活力。这种变革不仅会影响AI模型的开发方式，也会加速AI技术的普及，推动人工智能在各个领域的应用。

H100提速：无需CUDA，新作引爆关注！

评论

发表回复取消回复

更多文章

松树布里夫社区简讯 (7月13日)

月之暗面K2开源：代码与Agent专家

中国海洋经济：创新驶向绿色未来

智谱AI Slides：5分钟速成PPT！

H100提速：无需CUDA，新作引爆关注！

评论

发表回复 取消回复

更多文章

松树布里夫社区简讯 (7月13日)

月之暗面K2开源：代码与Agent专家

中国海洋经济：创新驶向绿色未来

智谱AI Slides：5分钟速成PPT！

发表回复取消回复