AI赋能超算：意外的合理性

数字宇宙的构建，正在经历一场深刻的变革，这场变革的核心驱动力，是高性能计算（HPC）与人工智能（AI）的深度融合。长期以来，HPC一直是科学发现的引擎，它通过密集的模拟和数据分析来解决复杂的难题。传统的做法是开发数学模型，通常以微分方程的形式表达，然后利用计算能力求解或估计解决方案。然而，AI的出现，尤其是生成式AI和大型语言模型（LLMs）的崛起，不仅仅是为HPC的工具箱增添了一个新的工具，它正在从根本上改变解决问题的方法，创造一种新的范式，即AI增强甚至指导HPC的工作流程。这种转变并非没有挑战，但潜在的好处——加速创新、提高效率以及解决过去无法解决的问题——是巨大的。

这种HPC与AI的融合，体现在多个关键方面。其中一个显著的发展是AI增强的HPC，AI模型在现有数据上进行训练，例如模拟的天气模式或真实的观测数据。这个训练阶段，可能需要数周或数月，创建了一个能够通过推理快速提供新场景解决方案的模型。这与传统的HPC有所不同，在传统HPC中，每个查询都需要一个完整的模拟。像LUMI-AI这样的系统（一个继LUMI系统之后，专注于AI的新型超级计算机）的可用性，证明了这种方法的具体承诺，它利用下一代GPU来加速AI工作负载。此外，对AI能力的需求正在影响整个HPC市场，根据Hyperion Research的报告，2024年的支出增加了36.7%，超过600亿美元。这种增长不仅源于科学研究，还源于更广泛的企业创新格局。

然而，要充分发挥HPC-AI的潜力，道路上并非一帆风顺。一个关键问题是供应链。对先进技术（尤其是GPU）的快速需求超出了供应能力，超大规模的云服务提供商通常会消耗整个供应。这给寻求HPC-AI解决方案的研究人员和组织带来了挑战，可能会阻碍进展。另一个挑战在于AI模型的可持续性和可扩展性。训练像GPT-4和Gemini这样的大型模型需要巨大的计算资源和能源消耗，这引发了对环境影响的担忧。 HPC和AI的未来还需要解决精度问题，特别是在将AI技术应用于经典模拟时，需要不同程度的精度。此外，与更广泛的行业相比，HPC领域内的代码共享有限，这阻碍了协作开发和创新，正如关于LASSI管道的研究中所强调的那样。 AI模型产生误导性相关性的可能性，正如哮喘和肺炎风险的例子所表明的那样，强调了仔细验证和理解模型局限性的重要性。

展望未来，HPC与AI的融合预示着科学发现和技术进步的新时代。自主HPC系统的开发，以及agentic AI的应用，预示着HPC基础设施能够自我优化并适应不断变化的工作负载，从而进一步提高效率和可扩展性的未来。由HPC、大数据和AI加速驱动的发现良性循环已经开始，生成式AI正在推动对计算资源的需求激增。诸如国家研究云之类的倡议，利用AWS EC2 P3等基础设施模型，正在为研究人员提供必要的工具和资源。 ALCF黑客马拉松，专注于为Aurora和Polaris超级计算机优化科学代码，是释放这些技术全部潜力的合作努力的典范。归根结底，未来不是AI *对抗* HPC，而是AI *增强* HPC，创造一种协同关系，这将重新定义计算可能性的界限。 2024年HPC-AI市场的繁荣，SC24的创纪录参与人数以及Top500榜单上的新榜首，标志着持续的增长和创新轨迹，但2025年是否能保持这一势头还有待观察。

AI赋能超算：意外的合理性

评论

发表回复取消回复

更多文章

谷歌Veo3图像转视频功能爆火

城商行百万级投入大模型招标潮

英特尔前CEO测试AI与人类价值观契合度

AI秒变时尚大片：Higgsfield Soul ID全球爆红

AI赋能超算：意外的合理性

评论

发表回复 取消回复

更多文章

谷歌Veo3图像转视频功能爆火

城商行百万级投入大模型招标潮

英特尔前CEO测试AI与人类价值观契合度

AI秒变时尚大片：Higgsfield Soul ID全球爆红

发表回复取消回复