H100提速：无需CUDA，新作引爆关注！

近年来，人工智能领域的爆发式增长，对算力提出了前所未有的需求。这推动了高性能计算（HPC）硬件的快速发展，其中，英伟达的H100 GPU凭借其卓越的性能，成为了训练和部署大型模型的核心。然而，传统上，开发人员若想充分利用H100 GPU的强大算力，往往需要依赖CUDA C++进行编程。这种方式对开发者的专业技能提出了极高要求，且开发周期长，效率相对较低。在这种背景下，一系列突破性的研究成果打破了这一传统，为H100 GPU的加速带来了新的可能性，同时也引发了业界对未来GPU编程范式的深入思考。

新的编程范式正在崛起，以应对H100 GPU对性能的需求。

QuACK内核库的诞生是这场变革中的重要一笔。由Flash Attention的共同作者Tri Dao与普林斯顿大学的两位博士生联合推出的QuACK，其核心创新在于彻底摆脱了对CUDA C++代码的依赖。它采用Python和CuTe-DSL进行开发。CuTe-DSL是一种领域特定语言，专为简化GPU内核的编写过程而设计。这意味着，开发者无需深入了解底层的硬件架构和复杂的CUDA编程，就能编写出高效的GPU内核。这种低门槛的编程方式，极大地降低了GPU编程的门槛，让更多的开发者能够参与到高性能计算的优化工作中。QuACK在H100显卡上的性能表现令人瞩目。相较于PyTorch中的torch.compile和Liger等已经过深度优化的库，QuACK实现了33%到50%的速度提升。这种性能提升并非简单的优化，而是源于对现代加速器线程与内存层级结构的深入理解，以及对特定细节的精细雕琢。Tri Dao 强调，让内存密集型内核达到“光速”并非遥不可及，关键在于对底层硬件的充分利用。这种“无需CUDA”的编程理念，无疑为GPU加速领域开辟了一条新的道路。

除了QuACK之外，其他研究也在积极探索绕过CUDA的优化途径。这种探索并非孤立事件，而是在整个行业内蔓延开来。例如，DeepSeek团队的研究表明，他们通过优化数据加载和存储方式，甚至在一定程度上“绕过了CUDA”，从而显著提升了大模型的性能。这些优化手段的共通之处在于，它们都致力于提升数据在GPU内的流动效率，最大程度地减少数据传输的瓶颈。斯坦福大学也开源了ThunderKittens框架，仅用百行代码就能使H100的FlashAttention-2性能提升约30%。这些案例共同指向一个趋势：在高性能计算领域，并非只有CUDA C++才是唯一的选择。通过创新性的软件工具和编程范式，可以有效地利用GPU硬件资源，实现性能的显著提升。 NVIDIA CUTLASS团队的资深成员Vijay 对QuACK的创新表示高度赞扬，认为CuTe-DSL的设计极大简化了GPU高效运行的实现过程。PyTorch团队的Horace He也对此表示关注，预示着未来PyTorch可能会整合类似的技术，进一步推动相关技术的普及和应用。

这场变革也受到了外部因素的推动和影响。微软宣布将在2025年终止其公共Bing Search API服务，这促使开发者寻找替代方案，也间接推动了对非CUDA加速方案的探索。与此同时，开源CUDA项目也出现“起死回生”的迹象，社区贡献者通过收集详细的CUDA代码，使其能够支持非英伟达芯片，为GPU生态的多样化提供了可能。此外，Tri Dao的另一项新作，展示了H100 GPU利用率的显著提升，从之前的35%提升到75%，这使得大型语言模型的训练和运行速度提升了1.5到2倍。这些进展共同预示着，在AI加速领域，创新正在不断涌现，为开发者提供了更多选择和可能性。对现有CUDA生态系统的补充与挑战，共同构成了HPC领域蓬勃发展的驱动力。从技术角度来看，这些发展是对于硬件底层原理的深刻理解，以及高效软件工具的不断涌现。从商业角度来看，这驱动着行业加速创新，为AI应用的发展提供强劲的算力支撑。

QuACK的出现以及其他相关研究的进展，预示着GPU编程领域正在发生深刻变革。摆脱对CUDA C++的依赖，降低编程门槛，提高开发效率，将成为未来GPU优化的重要趋势。随着更多创新工具和技术的涌现，我们有理由相信，H100等高性能GPU的潜力将被进一步挖掘，为人工智能的发展注入更强大的动力。这种变革不仅仅是技术的进步，更是整个行业生态的革新。它将促使更多开发者参与到GPU加速的行列中，加速AI应用的落地和普及。同时，也预示着一个更加开放、多元的GPU生态正在形成，为未来的计算世界带来更多可能性。

H100提速：无需CUDA，新作引爆关注！

评论

发表回复取消回复

更多文章

信任随机性：AI、加密与Web3的关键

生命科学分析市场规模达683.2亿美元

高盛AI“德文”上岗：智能金融新纪元

托拉与科学：或许并非对立

H100提速：无需CUDA，新作引爆关注！

评论

发表回复 取消回复

更多文章

信任随机性：AI、加密与Web3的关键

生命科学分析市场规模达683.2亿美元

高盛AI“德文”上岗：智能金融新纪元

托拉与科学：或许并非对立

发表回复取消回复