国内团队破30分！AI竞争再升级

在全球人工智能浪潮汹涌澎湃的时代，技术革新与竞争的火花四处迸发。而今，一个名为“人类最后的考试”（Humanity’s Last Exam，HLE）的基准测试，正成为衡量AI系统综合能力与智能水平的试金石。这项由人工智能安全中心（CAIS）与Scale AI联合推出的测试，以其严苛的标准和全面的考察，吸引了全球顶尖AI团队的目光。它不仅是对AI技术极限的挑战，更是对人类智慧本身的致敬。

HLE的设计理念堪称宏大，其测试内容涵盖了哲学、社会学、伦理学、数学、人文、自然科学等多个学科领域，几乎囊括了人类知识体系的全部精华。测试题目的数量达到了惊人的2500道，其中10%的题目涉及多模态（文本+图像）理解，80%为精确匹配题，其余为选择题。值得一提的是，这些题目并非随意堆砌，而是由全球近1000名领域专家精心设计，旨在考验AI系统的深度推理能力和知识广度。这种高难度、跨学科的测试模式，使得HLE成为评估AI系统综合素质的绝佳标准，也预示着未来AI发展方向的某种趋势。

近期，中国人工智能领域传来捷报，一支国内团队在HLE测试中取得了突破性进展，为中国AI发展史写下了浓墨重彩的一笔。上海交通大学与深势科技团队携手合作，凭借卓越的技术实力和创新能力，成功在HLE中取得了32.1分的惊人成绩，首次突破了30分大关，刷新了历史记录。此前，该测试的最高分仅为26.9分，由Kimi-Research和Gemini Deep Research并列取得。这一成绩的取得，不仅意味着中国AI在复杂问题解决能力上迈出了重要一步，也充分展现了中国在人工智能领域的技术实力和创新潜力。此次突破中，深势科技开发的X-Master系统发挥了关键作用，展现了多模型/多智能体协作的巨大潜力。与此同时，Sakana AI也展示了类似的多模型协作能力，预示着AI协作将成为未来发展的重要趋势。这种协作模式，将不同的AI模型整合在一起，发挥各自的优势，共同解决复杂的任务，有望成为AI发展的重要方向。

然而，在人工智能技术飞速发展的同时，我们也必须清醒地认识到，AI发展并非一帆风顺，挑战与机遇并存。技术进步带来了模型能力的提升，但也带来了伦理和安全方面的挑战。2025年的人工智能指数报告警示我们，人工智能相关的事故正在激增，但主要的工业模型开发商在负责任的人工智能（Responsible AI，RAI）评测方面仍然相对不足。这无疑敲响了警钟，提醒我们在追求技术突破的同时，必须高度重视AI的伦理道德和社会责任。近期发生的华为盘古大模型被质疑抄袭阿里云通义千问Qwen-2.5模型事件，也引发了关于AI模型原创性和知识产权的广泛讨论。这凸显了在AI领域建立健全的知识产权保护机制，确保技术创新能够得到有效保护的重要性。OpenAI、Anthropic等巨头在不断探索大模型的同时，也开始关注AI编程等行业应用，用户对AI工具的稳定性、可交付性提出了更高的要求。这种从“炫技demo”到实际应用价值的转变，反映了AI发展进入了一个新的阶段，更加注重实用性和商业价值。

AI的推理模式也在悄然发生变革。Scale AI的CEO Alexandr Wang指出，未来核心竞争力将转向数据主导的专属模型。过去一轮模型能力的提升，并非主要来自于预训练阶段，而是转向了一种新的推理模式。DeepSeek团队通过蒸馏谷歌DeepMind的Gemini 2.0 Flash模型，成功提升了自身模型的性能，也验证了这种推理模式的潜力。此外，波士顿大学、NotBadMath.AI、谷歌等机构的研究者提出的多元推理方法，通过在测试时结合多种模型和方法，在数学和编码问题上取得了显著效果。Grok 4在HLE测试中也展现了强大的推理能力，基础得分达到35%，开启推理功能后提升至45%，远超其他模型。这种推理模式的变革，不仅提升了AI的效率和准确性，也为AI的进一步发展提供了新的思路。

人工智能领域正经历着一个充满机遇和挑战的时代。中国团队在“人类最后的考试”中取得的突破，是中国AI实力的有力证明。然而，我们必须保持清醒的头脑，在追求技术进步的同时，关注AI的伦理安全问题，并不断探索新的推理模式，以实现AI的可持续发展。政策制定者们正在加大对人工智能基础设施的投资，以支持AI的蓬勃发展。未来，AI将不再仅仅是技术竞赛，更将成为推动社会进步的重要力量。

国内团队破30分！AI竞争再升级

评论

发表回复取消回复

更多文章

微软Phi-4-mini问世：推理效率飙升10倍，轻松驾驭笔记本

Mews与Salto合作推动智能门锁升级

AI 模拟用户行为：Blok 优化应用体验

太空制造业的竞逐

国内团队破30分！AI竞争再升级

评论

发表回复 取消回复

更多文章

微软Phi-4-mini问世：推理效率飙升10倍，轻松驾驭笔记本

Mews与Salto合作推动智能门锁升级

AI 模拟用户行为：Blok 优化应用体验

太空制造业的竞逐

发表回复取消回复