6月23日,由中国人工智能学会主办,CAAI 智能传媒专业委员会、中国传媒大学数据科学与智能媒体学院、媒体融合与传播国家重点实验室、新浪新闻承办的主题为“变量激荡 增量涌现”2024全球人工智能技术大会 智能传媒专题活动在杭州拉开帷幕。CAAI名誉副理事长、日本工程院院士、欧盟科学院院士、俄罗斯工程院外籍院士、电子科技大学讲席教授、 CAAI Fellow任福继分享了题为《具身智能大脑构建与具有灵气的数字人》的演讲。
任福继主题演讲中。
以下是任福继演讲实录,内容经编辑略有删减:
女士们、先生们,大家好!我今天演讲的题目是《具身智能大脑构建与具有灵气的数字人》。今天主要讲以下几点:
第一点,自然人、机器人、数字人三人共舞时代。
我们认为,未来的社会是自然人、机器人、数字人三人有机共舞的时代。什么是自然人?就是我们在现实空间当中存在的人类,也就是我们自己,具有生物意义上的人;机器人主要是指仿人机器人,它爱模仿真人制造,从仿真程度来看,不仅是外观上仿真,而且在计算机技术赋能下,具有感知、决策、执行等基本人类行为特征;数字人是指元宇宙的“原住民”,指通过计算机图形渲染、动作捕捉、深度学习、语音合成等技术,打造的具有数字化外形、存在于非物理世界中的虚拟人物,在一定程度上能够复制我们人类的知识、情感、记忆、思维。
既然是三人共舞,交互类型就有六种,特别是有数字化身,就能同时实现在一个时间点、多个视线、多个场景都可以同步发生,也就是说你有你的数字化身。在这种情况下,我们人的生产效能、感知能力、执行能力,都将会大幅提升。所以未来自然人、机器人、数字人这三者将实现互融共享、协同共生、智能大脑共享、操作平台共享、知识体系共享、虚拟自然交互、虚实融合共生,这是我们对未来社会的描述。
特别是近两年来,我们谈了很多大模型,我们一直强调大模型在理论上确实没有多少创新,但是由于它的涌现,所以这两年大模型翻江倒海。大模型可能能够推动人工智能至少25年—30年的火热,不会遇到严寒的冬天。这就是大模型和情感交互,就会加速自然人、机器人、数字人三人共舞时代的到来。
三人共舞需要兼具智商和情商的共享心脑,基于大模型的世界知识以及基于先进智能的情感交互,我们认为情感交互是共享心脑的必备要素。
说几个关键词,包括讲事实、传知识、辨真伪;要做交互、识情感、深推理;深情感、展个性、表情感;自学习、共进化、促共存,三人有机共舞。
第二点,三人共舞时代未来社会生产模式是什么样子?我们认为,未来的生产模式是自然人、机器人、数字人这三类平行员工一起分工协作。进一步研究分析认为,以后自然人劳动力只占5%—10%,机器人要占15%—20%,剩下的70%—80%的工作由数字人完成。所以这也是各个国家许多省市政府都在布局数字经济、元宇宙、先进的人工智能等等。
第三点,怎样来构建机器人、数字人、自然人的共享大脑。
我们提出来,基于先进智能理论构建三人共享大脑。包括自然人,我们对自然人现在要研究哪些方面呢?我们都知道,现在计算机技术也好,人工智能也好,主要在视觉上面取得了很大的突破,包括AR、VR、MR等等,我们要对自然人研究除了视觉以外的听觉、嗅觉、味觉、灵觉以及触觉等等,包括身体行动,也就是具身智能。我们对数字人怎么进行?数字人要研究的主要特点,一个是数字人大脑,这个数字人大脑不仅仅是给数字人用的,要给机器人用,同时还要给自然人用,这就很有意思了,叫做共享大脑,我们原来以为开发一个大脑就是给机器用的,AI用的,不是,包括我们自然人,反过来我们来应用。包括数字人驱动以及数字人外形,我们知道,当前数字人研究关键在于多元感知的人机交互,包括信息获取、推理分析、实时互动等,是人性化、智能化方面。我们团队聚焦数字人大脑、数字人驱动和数字人外形,我们希望和产业界联系在一起。
为什么谈先进智能?什么是先进智能?我们提出的先进智能,主要是将人工智能与自然智能结合起来,将传统的人工智能、计算智能和行为智能研究结合起来,再加上情感计算。我们都知道,自然智能,也就是生物智能有上亿年的进化史,人工智能1956年诞生以来不到70多年,情感计算还不到30年。所以在这样一个过程当中,我们怎么样把三者有机结合起来?我们就提出来先进智能,以情感交互加速自然人、机器人、数字人融合共舞时代。
第四点,具身智能与共享大脑进化。
具身智能不是一个新的概念,早在人工智能概念诞生之前,图灵早就提出过具身智能。具身智能是指一种智能机器,它能够通过感知、决策和交互与环境进行实时的互动。即机器人在真实环境下执行各种任务当中,通过与环境的直接交互学习,来提高机器的理解和适应能力,也就是我们通常所说的进化。智能机器拥有了分析决策和运动控制脑部,我们叫做大脑。现在在脑部软件方面,有大脑和小脑,大脑包括智商,但小脑不仅仅是情商,特别是在运动控制方面。同时,人工智能拥有了感知环境与执行交互的身体,我们现在会强调,人形机器人走出去,只有这样它才能够交互起来,达到和我们人一样的进化。
颠覆性的工作,如果实现情感交互,就可以跨越机械式人机交互的鸿沟。自然交互就是情感交互。我们现在的工作是要搭建情感服务机器人系统平台,我们要构建一个智能人机情感交互的系统,要确立个性化人机情感会话系统体系,可以工程实现智能机器人的多模态情感识别、生成与表达、决策与行动。这是我们在具身智能方面做的工作。
具身智能共享大脑,要把大脑不仅仅用于数字人、机器人,还要用于我们自然人,以后不仅仅是指导机器人的行动动作,不仅仅是推进数字人友好地交互,还反过来要提高我们自然人类的能力,包括IQ和EQ。因为我们都说,我们总在担心AI超过我们人类,实际上我们原来就讲过,AI有三个方面:一是计算智能,二是感知智能,三是认知智能。我们在计算智能和感知智能上面早就被AI超过了,所以要用它的大脑来辅助我们人类,我们自己计算不那么快,要用AI大脑帮助我们提高计算能力,这样才能达到三人同步。同样,我们在感知智能方面,现在感知智能和AI不相上下,如果人工智能再进步的话,我们人类在感知智能方面也要落后于AI。我们现在唯一是在认知智能上面,还遥遥领先于AI,也就是机器。我们有了这个共享大脑之后,我们将人类的认知智能,通过三人共享的大脑反过来推动数字人、机器人不断进化。
第五点,灵气数字人与大文旅,这是我们去年开始就提倡的,现在的数字人还没有灵气。
什么叫做灵气?我们先来字解“灵气”。“灵”是指人的精神状态,包括聪明、机敏,这是网络上面查出来的。也就是指人的身体动作敏捷、灵活等等。“气”是指人类精神状态、作风、风度、力量等。所以这样泛泛来看,灵气是指人对外物感受和理解的能力。《管子·内业》:“灵气在心,一来一逝,其细无内,其大无外。”就是我们对外物感受和理解要有灵气。同时还有聪慧或者秀丽的气质,作为数字人的化身不能太丑陋了,会没有好感。晋付玄《鸿雁生塞北行》:“灵气一何优美,万里驰芬芳。”这也是讲灵气。
灵气机器人,它有什么意义呢?什么叫有灵气的数字人?有灵气的数字人就是自然智能、人工智能以及情感的智能协调统一。我刚才说了,自然智能、人工智能加上情感正好是我们的先进智能,所以只有有了先进智能后,我们的这种数字人出来才具有灵气。也就是说,它不仅要形似,而且要具备强大的感知力,它还要神似,神似就是具有推理和思考的能力,同时更要情同,拥有共情和情感化的智慧能力,这就对于数字人要求很高了。反过来,灵气以后要对应我们的机器人,也要让我们自然人类更具有灵气。
具体而言,灵气数字人,包括灵气机器人怎么样进行研究?有哪些挑战?根据我们的研究分析,我们团队总结出来几个:一是驱动力,在情感驱动方面,核心挑战是可接受性。关键性能包括情感化、类人化、家庭化、社会化。技术驱动上是可应用性,我们的理论也好,算法也好,一旦没有具体应用是没有价值的,特别是工科。可应用性包括融合感知、类脑认知、协同推理、自然交互。这就是技术驱动。自然驱动,就是可进化性,我们人类经过漫长的进化过程,达到了现在我们之所以是人。我们怎么样数字人、机器人有自然的驱动?包括知识进化、社交进化、功能进化、伦理进化。功能进化、伦理进化,我们都知道,世界上人工智能不仅仅是一个科学技术的问题,还有非科学技术的方面,科学技术不言而喻,我们大家都很清楚它的内涵甚至它的外延,那么非科学技术驱动是什么意思呢?比如我们现在谈人工智能、谈机器人,它的一些伦理道德,它和人类的反应、交互性以及社会的传播等等,这就是非科学技术方面的范畴。所以人工智能是两个范畴,和其他自然科学不太一样。
突破的方向,在情感驱动上,要进行情感计算;在人工智能上,我们要进行技术驱动;在自然驱动上是自然智能,这三点就是先进智能。所以要研究灵气数字人,要让外貌形象要更加逼真,要让身体动作更加自然,多模态感知和自然交互能力更加突出,情感和思维更趋于自然人。为什么说趋于自然人,而不是趋于数字人或机器人呢?所有的技术,我们认为目标都是为人类服务,所以虽然它是平行的,但它主要还是为自然人。所以有灵气的数字人,就有对外物感受和理解的能力,具有聪慧或者秀美的气质,与自然人就可以进行有机协调、共融。
我们团队在数字人、机器人、自然人进化平台上做了一些工作,主要是构建机器人、数字人学习进化的平台,来实现智能感知、蓄时交融与情感交互能力的“三人”情感交互系统,实现机器人、数字人自我进化。同时,和自然人有机共舞。这样就会有很多载体,包括我们开发机器人,陪伴机器人、健康机器人、教育机器人,包括数字主播以及数字助理、数字教师等等一系列的产品。
既然灵气数字人这么重要,我们怎样来构建灵气数字人?第一,我们要基于大模型,包括在语言方面、表情方面,我们主要看在表情方面AIGC,原来数字人既费时间,又费精力。但是现在不一样了,现在通过AIGC在表情上面,特别是在数字人制作技术方面,就可以打造真实感的数字人,可以在各种各样的表情上,尽量和自然人比较逼真。
AIGC,包括动作的生成,比如进行失重动作生成,在零重力环境下的动作数据,主流的动作捕捉数据库基本上都是空白的,怎么办呢?只有极少数的数据,我们用人工智能的方式来做,这是什么概念呢?比如我们以后的深空、深海,不可能到那个环境下取很多数据来,AI就可以发挥作用。包括动作,现在动作生成的主流方法有基于物理仿真的,基于规则的,包括深度学习模型、强化学习、生成学习这一系列动作的生成。包括智能骨骼姿态驱动技术,就可以以人的真实表演,现在我们主要是提高它的效率和真实度。
总之,数字人的动态生成挑战:一是情感的准确性,需要确保生成的表情、动作能够准确地传达出所需的情感状态。二是表情和动作的连贯性,生成的表情、动作在过渡和持续性方面需要保持连贯性,避免不自然和突兀。为什么?我们人类有些时候说情绪突然变化,但还是有一个过程,否则不自然;三是实时性;四是个性化和多样性,个性化是什么意思?我们人类是千差万别、千奇百怪的,不同的人可能不同的面部运动模式,包括他的微表情、姿态。因此,我们需要能够适应个体的生成模型,以及自学习和自进化。
这样一来,我们认为三人共舞就具有广泛的应用场景,包括教育培训、饮食消费、设计制造、艺术展览、文化旅游、休闲娱乐等等。我们今天主要看大文旅,大文旅主要是要深度挖掘文化资源的精神内涵和时代价值,融合元宇宙技术,建设与现实平行的虚拟空间,提供文旅元宇宙升级综合解决方案,打造文旅的新业态、新模式、新体验、新场景。所以今天的题目主要是在文旅,当然我们有“四大”,即大健康、大教育、大安全、大文旅。
我简单把今天演讲的内容总结一下。
我们主要提出的一个观点,我们认为未来社会是自然人、机器人、数字人三人有机共舞的时代,而且在这三人有机共舞时代的社会生产模式就是这三种平行员工。所以以后在我们的工作环境里面有机器人、数字人,和我们同时是平行的,所谓平行员工就是在劳动上面是平等的,当然有一个主体,始终是后两位员工,也就是机器人、数字人是为前面的员工(自然人)服务的,这是一个主从关系,但是在分工上面是没有差别的。
同时我们认为,未来自然人占的比例很少,所以我们说我们现在的工作强度太大,以后我们自然人不应该有这么大的工作强度,15%—20%是机器人给我们做了,剩下的70%—80%都是数字人、数字化身。
同时,如何才能实现三人有机共舞?就要构建机器人、数字人、自然人的共享大脑,建设共享大脑如何进行?今天主要讲了以先进智能驱动,就是要有人工智能、自然智能和情感计算融合在一起的新的研究范式去开发三人共享大脑。
同时,我们也谈到了具身智能与共享大脑的进化,为什么谈具身智能?就是我们未来的机器人还是要让它走入自然环境里面,像我们人一样,去感知环境,自动学习,包括我们的大模型,大模型以后必须要进化,不能只靠静态的知识、静态的信息,还要像自然人一样,随时有新的概念、新的数据、新的知识涌入进来,这就是我们强调未来具身智能非常重要的一个方向。
灵气数字人,我们认为未来要进行三人共舞的发展方向,就是要让机器人、数字人更加具有灵气,这一切都期待着先进智能。
今天我主要讲到这里,再次谢谢各位。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com