AI赋能超算:意外的合理性

数字宇宙的构建,正在经历一场深刻的变革,这场变革的核心驱动力,是高性能计算(HPC)与人工智能(AI)的深度融合。 长期以来,HPC一直是科学发现的引擎,它通过密集的模拟和数据分析来解决复杂的难题。 传统的做法是开发数学模型,通常以微分方程的形式表达,然后利用计算能力求解或估计解决方案。 然而,AI的出现,尤其是生成式AI和大型语言模型(LLMs)的崛起,不仅仅是为HPC的工具箱增添了一个新的工具,它正在从根本上改变解决问题的方法,创造一种新的范式,即AI增强甚至指导HPC的工作流程。 这种转变并非没有挑战,但潜在的好处——加速创新、提高效率以及解决过去无法解决的问题——是巨大的。

这种HPC与AI的融合,体现在多个关键方面。 其中一个显著的发展是AI增强的HPC,AI模型在现有数据上进行训练,例如模拟的天气模式或真实的观测数据。 这个训练阶段,可能需要数周或数月,创建了一个能够通过推理快速提供新场景解决方案的模型。 这与传统的HPC有所不同,在传统HPC中,每个查询都需要一个完整的模拟。 像LUMI-AI这样的系统(一个继LUMI系统之后,专注于AI的新型超级计算机)的可用性,证明了这种方法的具体承诺,它利用下一代GPU来加速AI工作负载。 此外,对AI能力的需求正在影响整个HPC市场,根据Hyperion Research的报告,2024年的支出增加了36.7%,超过600亿美元。 这种增长不仅源于科学研究,还源于更广泛的企业创新格局。

然而,要充分发挥HPC-AI的潜力,道路上并非一帆风顺。 一个关键问题是供应链。 对先进技术(尤其是GPU)的快速需求超出了供应能力,超大规模的云服务提供商通常会消耗整个供应。 这给寻求HPC-AI解决方案的研究人员和组织带来了挑战,可能会阻碍进展。 另一个挑战在于AI模型的可持续性和可扩展性。 训练像GPT-4和Gemini这样的大型模型需要巨大的计算资源和能源消耗,这引发了对环境影响的担忧。 HPC和AI的未来还需要解决精度问题,特别是在将AI技术应用于经典模拟时,需要不同程度的精度。 此外,与更广泛的行业相比,HPC领域内的代码共享有限,这阻碍了协作开发和创新,正如关于LASSI管道的研究中所强调的那样。 AI模型产生误导性相关性的可能性,正如哮喘和肺炎风险的例子所表明的那样,强调了仔细验证和理解模型局限性的重要性。

展望未来,HPC与AI的融合预示着科学发现和技术进步的新时代。 自主HPC系统的开发,以及agentic AI的应用,预示着HPC基础设施能够自我优化并适应不断变化的工作负载,从而进一步提高效率和可扩展性的未来。 由HPC、大数据和AI加速驱动的发现良性循环已经开始,生成式AI正在推动对计算资源的需求激增。 诸如国家研究云之类的倡议,利用AWS EC2 P3等基础设施模型,正在为研究人员提供必要的工具和资源。 ALCF黑客马拉松,专注于为Aurora和Polaris超级计算机优化科学代码,是释放这些技术全部潜力的合作努力的典范。 归根结底,未来不是AI *对抗* HPC,而是AI *增强* HPC,创造一种协同关系,这将重新定义计算可能性的界限。 2024年HPC-AI市场的繁荣,SC24的创纪录参与人数以及Top500榜单上的新榜首,标志着持续的增长和创新轨迹,但2025年是否能保持这一势头还有待观察。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注