AI突破！新大模型ViLaSR-7B掌握人类空间推理能力

近期，人工智能领域迎来了一项突破性进展：蚂蚁技术研究院携手中科院自动化所及香港中文大学，共同研发出一款名为ViLaSR-7B的新型AI大模型，该模型在空间推理能力上达到了前所未有的高度。这一成果标志着AI技术向模拟人类空间思维迈出了关键一步。

ViLaSR-7B模型采用了独特的“视觉互动推理”训练策略，即在理解图像信息的同时进行空间推理。这一创新方法使得模型在迷宫导航、静态图像解析及视频内容分析等任务上的准确率平均提升了18.4%。尤为在权威的空间推理基准测试VSI-Bench中，ViLaSR-7B取得了45.4%的优异成绩，超越了当前所有已知方法。

为了实现这一目标，研究团队为ViLaSR-7B设计了一个分阶段训练体系。初期，模型通过基础视觉训练建立必要的图像识别能力；随后，通过引入反思拒绝采样机制，模型学会了自我修正，提高了推理的准确性；最终阶段，结合强化学习技术，进一步优化了模型的推理效能。

传统视觉语言模型在处理图像信息时，往往依赖于“视觉转文本”的策略，这一方法在处理复杂空间关系时显得力不从心。相比之下，ViLaSR-7B采用的“视觉互动推理”策略，通过模拟人类在解决空间问题时的思考过程，使模型能够更加灵活地捕捉图像中的空间关系。这种创新性的方法不仅提升了模型的理解深度，还显著增强了其推理效果。

ViLaSR-7B的成功不仅彰显了AI技术在视觉推理领域的巨大潜力，更为未来智能应用的发展提供了全新的视角和可能。这一突破性成果无疑将为人工智能领域注入新的活力，推动相关技术的持续进步与创新。

文章采集于互联网

搜索

AI突破！新大模型ViLaSR-7B掌握人类空间推理能力