AI突破!新大模型ViLaSR-7B掌握人类空间推理能力

近期,人工智能领域迎来了一项突破性进展:蚂蚁技术研究院携手中科院自动化所及香港中文大学,共同研发出一款名为ViLaSR-7B的新型AI大模型,该模型在空间推理能力上达到了前所未有的高度。这一成果标志着AI技术向模拟人类空间思维迈出了关键一步。

ViLaSR-7B模型采用了独特的“视觉互动推理”训练策略,即在理解图像信息的同时进行空间推理。这一创新方法使得模型在迷宫导航、静态图像解析及视频内容分析等任务上的准确率平均提升了18.4%。尤为在权威的空间推理基准测试VSI-Bench中,ViLaSR-7B取得了45.4%的优异成绩,超越了当前所有已知方法。

为了实现这一目标,研究团队为ViLaSR-7B设计了一个分阶段训练体系。初期,模型通过基础视觉训练建立必要的图像识别能力;随后,通过引入反思拒绝采样机制,模型学会了自我修正,提高了推理的准确性;最终阶段,结合强化学习技术,进一步优化了模型的推理效能。

传统视觉语言模型在处理图像信息时,往往依赖于“视觉转文本”的策略,这一方法在处理复杂空间关系时显得力不从心。相比之下,ViLaSR-7B采用的“视觉互动推理”策略,通过模拟人类在解决空间问题时的思考过程,使模型能够更加灵活地捕捉图像中的空间关系。这种创新性的方法不仅提升了模型的理解深度,还显著增强了其推理效果。

ViLaSR-7B的成功不仅彰显了AI技术在视觉推理领域的巨大潜力,更为未来智能应用的发展提供了全新的视角和可能。这一突破性成果无疑将为人工智能领域注入新的活力,推动相关技术的持续进步与创新。

文章采集于互联网