对谈耶鲁杨丰瑜：多模态AI引领具身智能革命

2024-05-30 13:00:33 来源：看点时报

小大

当今科技迅猛发展，人工智能（AI）已经成为改变各行各业的重要力量。从自动驾驶到智能助手，AI的应用无处不在。随着技术的不断进步，AI潜力也在不断扩大。

当前，AI的一个重要发展方向是多模态学习，即通过整合多种感官数据（如视觉、听觉、触觉）来提高机器的感知和理解能力。计算机视觉与触觉结合，是这一领域的重要课题。触觉提供了与视觉互补的信息，有助于机器在复杂环境中做出更准确的决策，是实现具身智能的关键一步。

由耶鲁大学计算机博士Fred Yang杨丰瑜主导，密歇根大学和耶鲁大学联合团队进行的研究，在人工智能的视觉-触觉领域迈出了重要一步。Fred杨丰瑜的研究重点，集中在计算机视觉与多模态大模型学习的交叉领域，尤其是视觉与触觉相结合。他研究的重点是具身认知，让机器人能够专注于从多感官观察中学习，并在环境中进行实时推理和认知发展。

Fred杨丰瑜介绍说：“人类对于物理世界的感知，很大一部分来源于视觉与触觉的结合。大数据的飞速发展，对多模态学习的其他领域产生了重要帮助，但是在视觉-触觉领域，由于采集数据的困难和不同传感器产生的非统一的触觉信号，这个方面的发展受到挑战。

Fred杨丰瑜在具身智能领域做出的瞩目贡献，是提出了世界首个使用于多传感器的触觉大模型 UniTouch，适用于与视觉、语言和声音等多种模态相连的基于视觉的触觉传感器。从机器人抓取预测到触觉图像信号分析，UniTouch 能够在零样本环境下，执行各种触觉感知任务，是全球首个展示出这种能力的模型，为具身智能机器人的研发提供了重要支持，特别是在人形机器人领域。

手机屏幕截图描述已自动生成

杨丰瑜博士作为第一作者的UniTouch论文《Touch and Go: Learning fromHuman-Collected Vision and Touch》，被全球计算机视觉和模式识别领域的顶级会议CVPR （Conference on Computer Vision and Pattern Recognition）2024接收。在 Google Scholar 的学术会议 / 杂志排名中，CVPR 名列总榜第四，仅次于Nature、NEJM和Science。

杨丰瑜在人工智能、大数据和具身智能方面有丰富的积累和见解。他认为：随着数据量的爆发式增长，计算能力的不断提和算法技术的突破，多模态学习将成为AI发展的重要方向。通过整合视觉和触觉等多种感官信息，AI将能够更好地理解和适应复杂环境，从而实现更高水平的智能。Fred的研究成果不仅在学术界获得重要关注，也为具身智能，特别是人形机器人行业发展提供了重要支持。他的工作展示了多模态学习在实现具身智能方面的巨大潜力。

他在对谈中指出，人工智能产业的发展方向清晰可见：多模态学习和具身智能将成为未来的重点领域，人类有理由相信，具身智能将为人类社会带来更高质量，更便捷的生活。特别是随着世界人口数量减少，人形机器人将有效承担家庭劳动，照顾老人，贴心陪伴，提升人类的生活质量。

关键词：

责任编辑：kj005

文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com

关键词：