
# AI领域最新进展:多模态记忆突破与长链推理革新
> 华中科技大学与卡耐基梅隆大学的最新研究,正在让AI拥有更像人类的记忆和思考能力。
近年来,人工智能技术在快速发展的同时,也暴露出一些核心局限性。多模态大语言模型虽然能同时理解图像和文字,但随着处理信息量增加,其“记忆力”会急剧下降,运行速度也会变慢。
与此同时,AI系统在复杂推理任务上也表现不佳,缺乏人类那样的深度思考能力。 2025年8月公布的两项突破性研究,分别从不同角度为解决这些问题提供了创新方案。
—
## 01 多模态AI的记忆力困境
当前的多模态大语言模型就像一个博学的助手,既能看懂图片又能理解文字,但它们有个致命弱点:**随着处理的信息越来越多**,它们的“记忆力”会急剧下降,运行速度也会变得越来越慢。
这就好比一个图书管理员,刚开始处理几本书时效率很高,但当书籍数量增加到成千上万本时,他不仅需要更多的存储空间来记住每本书的位置,查找速度也会变得异常缓慢。
问题的根源在于现有的模型采用了一种叫做“注意力机制”的处理方式。这种机制需要同时关注所有历史信息,随着信息量的增加,**计算复杂度呈二次方增长**。
## 02 华中科技大学的创新解决方案
华中科技大学王兴刚教授领导的研究团队,联合人工智能研究院以及地平线机器人公司,完成了这项突破性工作。他们提出了名为**mmMamba的新型架构**。
新架构采用了一种全新的“状态空间模型”机制。这种机制就像给助手配备了一个高效的压缩记忆系统,不需要记住所有细节,而是将重要信息压缩存储。
处理新信息时只需要关注当前状态,从而实现了**线性复杂度的处理效率**。
研究团队设计了一个三阶段的渐进式知识蒸馏策略,巧妙地将已经训练好的传统模型的知识有效地传递给新的线性复杂度模型。
## 03 从二次方到线性增长的突破
要理解这项研究的重要性,需要了解传统多模态模型面临的核心挑战。传统的Transformer架构要求每当新增一条信息,它都要回顾并重新思考之前的所有内容。
这种“全局注意力”机制虽然能够捕获复杂的上下文关系,但**计算量会随着序列长度的平方增长**。
现代多模态模型经常需要处理高分辨率图像和长文本,这些任务往往涉及数万甚至数十万个token的处理。在这种情况下,传统模型不仅运行缓慢,还会消耗大量的GPU内存。
mmMamba的创新之处在于引入了状态空间模型的概念。这种模型将重要信息压缩成一个固定大小的“状态矩阵”,每当新信息到来时,它只需要更新这个状态矩阵。
这种方法将**计算复杂度从二次方降低到了线性**,实现了真正的突破。
## 04 卡耐基梅隆大学破解AI“长思考”秘密
当我们遇到复杂数学题时,大脑会自动进入“深度思考”模式——先分析题目,尝试不同解法,发现错误后回头重新思考,最终找到正确答案。
卡耐基梅隆大学的研究团队决定彻底揭开这个谜底。他们不满足于简单复制表面现象,而是要找出让AI产生长链式推理的根本机制。
研究团队通过大量实验,发现了四个关键要素,为AI推理能力的提升指明了方向。
## 05 强化学习中的奖励设计艺术
让AI学会长链式思维,仅仅提供训练材料还不够,还需要设计巧妙的“奖励机制”。这就像教导孩子思考问题——**不能只因为答案正确就给奖励**,还要鼓励思考过程的深度和质量。
研究团队遇到的第一个挑战是“思维长度失控”。在初期实验中,AI系统确实学会了长篇思考,但很快就变成了无意义的重复和冗长废话。
为了解决这个问题,研究团队设计了一套精巧的“余弦奖励函数”。这个函数的核心思想是:**正确答案配短思考获得高奖励**,错误答案配长思考比短思考获得相对较高的奖励。
当AI不确定答案时,会被鼓励花更多时间思考,而当AI很确定时,则会被鼓励直接给出答案。
## 06 两项研究的实际应用价值
华中科技大学的mmMamba在实际测试中表现突出。mmMamba-linear在处理10.3万个token时,相比原始的HoVLE模型**实现了20.6倍的速度提升**,同时节省了75.8%的GPU内存。
当序列长度达到12.8万token时,传统模型因为内存不足而无法运行,但mmMamba-linear依然能够稳定工作。
更令人兴奋的是,mmMamba-linear仅使用2.7B参数就达到了之前需要7B参数的EVE模型的性能水平,**参数效率提升了一倍多**。
卡耐基梅隆大学的研究则显示,接受长链式训练的AI模型在数学推理测试中的表现远超短链式模型。在MATH-500数学测试中,短链式模型的准确率很快就遇到了瓶颈,停留在55%左右。
而长链式模型却能持续改进,**准确率突破70%**,而且还有继续提升的潜力。
## 07 技术前景与未来影响
这两项研究的意义远不止于性能数字的提升,它们代表了多模态AI发展的一个重要转折点。传统上,构建高性能的视觉语言模型需要大量的计算资源和复杂的训练流程。
mmMamba的蒸馏方法改变了这个游戏规则。它只需要一个已经训练好的模型作为教师模型,就能够通过知识蒸馏将能力转移到更高效的架构中。
这将使得更多的研究机构和初创公司能够参与多模态AI研发,**降低技术门槛和计算成本**。
卡耐基梅隆大学的研究也为AI推理能力的发展提供了重要 insights。研究发现,模型规模是推理能力发展的一个重要限制因素。
较小的模型(7B参数)很难发展出复杂的推理行为,而这可能需要更大规模的模型才能实现真正的突破。这就像复杂的思考需要更发达的大脑结构来支撑。
—
华中科技大学研究的mmMamba架构在处理10.3万个token时,比传统模型快20.6倍,节省75.8%的GPU内存。这意味着AI系统现在可以处理更长的文档和更高分辨率的图像,而不会出现内存溢出或速度急剧下降的问题。
卡耐基梅隆大学的研究则展示了AI在复杂推理任务上的潜力,**长链式思维模型在数学测试中的准确率突破70%**,为AI在科学研究、工程设计和复杂决策等领域的应用开辟了新可能性。
这两项突破几乎同时出现,预示着AI技术正从单纯追求规模扩张转向**效率与能力并重**的新发展阶段。