港大机器人视觉研究

### 港大机器人视觉研究在人工智能快速发展的今天，机器人视觉技术作为其核心领域之一，正不断取得突破。香港大学在机🌲J9九游器人视觉研究方面一直走在前沿，近期多项研究成果不仅展现了其科研实力，更为机器人技术的未来发展提供了重要支撑。本文将详细介绍港大在机器人视觉研究领域的几个主要进展，并结合当前热点话题，探讨其科学意义和应用前景。

一、多模态大模型的新范式Groma

港大与字节跳动商业化团队联合提出的多模态大模型新范式Groma，在提升机器人视觉系统的感知定位能力方面取得了显著成效。传统多模态大模型在图像理解上表现出色，但往往局限于单向理解，难以将理解的内容映射回图像上。Groma通过引入区域性图像编码，有效提升了模型的定位能力。这一改进使得Groma能够将文本内容和图像区域直接关联起来，显著提升了对话的交互性和指向性。根据最新研究数据，Groma在多个基准测试上表现出超越现有模型的性能。特别是在VQA Benchmark（LLaVA-COCO）上，Groma的对话和推理能力得到了验证。此外，Groma还支持融合对话能力和定位能力的referential dialogue以及grounded chat，进一步拓展了其应用场景。这一研究不仅为机器人视觉系统提供了更精准的定位能力，也为多模态大模型在图像编辑、自动驾驶等领域的应用开辟了新的道路。

二、虚拟环境与现实世界的融合V-IRL

港大与纽约大(dà)学(xué)等(děng)机(jī)构(gòu)的(de)合(hé)作(zuò)研(yán)究(jiū)，提(tí)出(chū)了(le)在(zài)虚(xū)拟(nǐ)环(huán)境(jìng)中(zhōng)模(mó)拟(nǐ)现(xiàn)实(shí)世界的新方法V-IRL。这一平台利用真实世界的地图、地理信息和街景图像，为智能体提供了一个完整而真实的环境，使其能够在模拟环境中执行各种复杂任务。V-IRL不仅为智能体的训练提供了丰富的数据资源，还为开放世界计算机视觉和具身人工智能的研究提供了新的测试平台。截至2025年5月，仅Google街景就拥有超过2200亿张图像，这些数据为V-IRL提供了坚实的基础。通过V-IRL平台，研究人员实例化了一系列智能体，并解决了各种实际任务，如路径规划、餐馆搜索和房地产推荐等。在实验中，智能体RX-399在城市辅助任务中表现出色，能够准确导航并标记所有垃圾箱。这一研究不仅展示了虚拟环境与现实世界融合的巨大潜力，也为智能体在真实世界中的应用提供了更多可能性。

三、MOVE框架实现足式机器人的多技能全方位运动

港大在足式机器人领域的研究同样取得了重要进展。MOVE框架作为一种创新的端到端学习框架，成功实现了足式机器人在有限视觉条件下的多技能全方位运动。该框架由标准输入编码器、环境编码器、策略网络和价值网络四个核心组件构成，通过设计一系列涵盖多种技能学习的模拟环境，提升了机器人的泛化能力。在模拟实验中，MOVE框架在跳跃、爬楼梯、穿越障碍等任务中表现出色，成功率显著高于对比方法。例如，在高跳和长跳任务中，成功率分别达到99.7%和99.6%。在真实世界实验中，MOVE框架同样展现出了强大的适应性和鲁棒性，能够在不同地形和运动方向上顺利完成各种任务。这一研究不仅为足式机器人的发展开辟了新的道路，也为未来机器人在复杂环境中的应用奠定了坚实基础。

综上所述，港大在机器人视觉研究领域取得了多项重要进展。从多模态大模型的新范式Groma，到虚拟环境与现实世界的融合V-IRL，再到MOVE框架实现足式机器人的多技能全方位运动，这些研究不仅提升了机器人视觉系统的性能和应用范围，也为人工智能的未来发展提供了更多可能性。随着技术的不断进步和创新，我们有理由相信，机器人视觉技术将在更多领域发挥巨大作用，为人类生活和社会发展带来更多便利和惊喜。

港大机器人视觉研究

下一条

【科普解答】机器人感知机制的深度探索：迈向智能未来的奇妙之旅

热门标签

公司动态

分享到

j9九游会登录入口首页

港大机器人视觉研究

一、多模态大模型的新范式Groma

二、虚拟环境与现实世界的融合V-IRL

三、MOVE框架实现足式机器人的多技能全方位运动

在线留言