作为优必选副总裁、研究院副院长,庞建新正领导团队,将大模型技术应用于人形机器人的多模态感知和决策规划中,提升人形机器人智能化水平。
在从业的近三十年里,他的专业背景横跨语音处理、计算机视觉,再到人形机器人技术;从中科大的博士,到中国科学院深圳先进技术研究院的PI,再到优必选的技术高管,他的职业生涯,已然是中国智能科技崛起的一个缩影。
他坦陈,“因为在技术快速发展时,整个技术路线和应用场景还存在不确定性,但同时也正是国内人形机器人企业快速发展的最佳时期。”
他认为,大模型技术的核心是其能够融合大量知识和数据,这对于人形机器人领域来说是一个巨大的机遇,但同时也带来了新的挑战。比如如何将大语言模型技术(可理解为“大脑”)与人形机器人的“小脑”(控制大模型)和“本体”结合,以及如何处理大语言模型可能产生的“幻觉”问题等等。
而要落到实际操作层面,庞建新表示,优必选的策略是双管齐下,既要一种分层结构的解决方案,同时也不能放弃端到端的解决方案。
前者是将大模型分为处理知识、常识推理的“大脑”层,指导动作规划的“小脑”层,以及直接与控制相结合的动作执行层。这种分层解耦的方法,使得每一层都可以专注于其特定的任务和数据需求,提高了技术的应用效率。
后者则是从感知直接到控制的全过程,这种方法导致数据获取更为复杂,却能够提供更为直接的解决方案。
“当下人工智能和人形机器人技术的结合正处于一个开放性问题的时期。”这正是当下人形机器人从业者的乐趣所在。而换句话说,这也意味着目前技术尚未开始收敛,仍需在一些小规模场景中进行实验和测试。
今年2月,优必选与新能源车厂的合作,正是他们在多模态感知决策技术应用实训方面的一次尝试。庞建新坚信,大模型技术将是推动未来技术进步和产业化的关键。
近期在与雷峰网-AI科技评论的对话中,庞建新分享他对于大模型技术推动人形机器人智能化进程的见解,以及国内企业如何在技术快速发展的背景下把握机遇。
我们确实有一些颇具前瞻性的课题项目,在近期进展不错。众所周知,当前人工智能已经迈入了一个崭新的时代,其中大模型、多模态技术以及具身智能等重要进展,对于机器人领域产生了深远影响。这些变革性的技术正在推动着许多传统观念的更新换代。
我们的团队也致力于类似的研究工作,特别是在如何运用大型模型和具身智能,来解决以往基于传统DNN、CNN方法所无法克服的问题。
传统上,感知技术往往专注于单任务,并且只在决策层面进行信息融合。而现在,我们希望能够将多模态技术应用到人形机器人技术中,将视觉感知、语音感知、上下文信息以及相关知识等统一作为输入,以促进人形机器人的决策过程。
通过多模态感知信息的整合,我们期望引导人形机器人进行更为高效的决策。传统的决策过程往往较为复杂,依赖于状态转移和条件判断。而我们现在正尝试利用大型模型的技术,充分发挥大模型的逻辑和推理能力,以解决人形机器人在决策和推理方面的挑战。
具体到人形机器人的能力方面,因为人形机器人通常需要具备几大核心能力:人机交互、对话、移动和操作能力。这些能力在传统上对于人形机器人而言并不容易自主实现,往往需要凭借大量的外部输入和条件限制。而我们现在的研究,正是通过大型模型技术的应用,充分利用大模型内含的知识逻辑和推理能力,提升人形机器人的自主性和智能化水平,把机器人各种能力链接起来。
许多行为,如人类的本能反应或动作智能,并不完全依赖于显性的知识。比如说我们在抓取物体或在不平坦地面行走时,往往不需要经过深思熟虑,身体能够自动适应环境。
在人形机器人的设计中,我们可以将其分为“大脑”、“小脑”和“躯体”三部分。小脑部分与大模型中的知识学习并不直接相关。因此,在大模型技术落地时,我们需要解决如何将大脑与小脑结合,以及如何通过小脑驱动躯体的问题。
,当任务与数据关系不大,或者数据难以采集和学习时,这构成了一个重大挑战。大模型训练和推理的高算力要求也是一个问题,特别是当应用场景对实时性有高要求时。
,如何尽可能降低使用者的专业水平,比如通过自动生成相关提示语高效地获得正确结果,也是当前大模型需要解决的重要问题。
而在动作规划层面,由于大语言模型中缺乏这方面的内容,我们需要在仿真环境或物理环境中采集新的数据,以丰富这一层次的数据集。
这种方法虽然数据更为复杂,但能够提供更为直接的解决方案。然而,这种端到端的数据同样难以获取。
。也就是说,由于人形机器人存在特殊的非刚体特性,我们目前更倾向于采用解耦的分层方法。同时,我们也在进行端到端技术的探索和研究,以适应未来可能的需求和发展。
精心设计的提示工程,能够生成多个不同的高级任务规划,并将其转化为可执行的低级PDDL计划。请问,优必选在这一领域的研究是否有相似之处,或者存在某些差异?
孙教授的研究实际上涉及到了高层决策和任务规划。当我们人类执行一个任务时,通常会将其分解为一系列子任务,这个过程可能是下意识的,不一定由大脑直接完成,也可能是小脑参与其中,因为人类的认知过程相当复杂。
例如,当我们想要拿一瓶水时,我们自然而然地知道水可能在冰箱里,于是我们会走向冰箱,打开门,通过视觉找到水,然后抓取并带回。这个过程就是一个任务流。
这表明,大模型在理解和生成任务规划方面具有巨大的潜力,尤其是在与具体场景和知识库相结合时。当前的AI技术,正是通过大模型,包括GPT或其他模型,处理这种任务流,进行决策,并将任务分解为子任务,再由人形机器人执行。
我们的一些研究工作与孙教授的研究类似,也是在特定场景中进行。例如,我们在2023年世界机器会上展示的“人形机器人多模态具身智能系统”,就涉及到更高层次的决策和任务拆解。
基于语言的大模型、基于视觉的小模型、语音的小模型、多模态的大模型,以及通过强化学习等方式学习到的动作规划,以及控制策略的方面的大模型等等,它们在学习方式和应用上的差异是显著的。
但无论是哪一种大模型,它们能与人形机器人结合的原因在于,人形机器人需要在复杂多变的环境中进行有效的交互和操作。那么,多模态大模型和基于知识的大模型,能够为机器人提供丰富的上下文信息和环境理解能力,从而提高其适应性和决策质量。此外,通过强化学习等技术学到的动作规划策略,可以增强人形机器人的动作协调性和任务执行能力,通过将这些模型进行融合,从而提升了人形机器人与物理世界的交互能力和智能化水平。
优必选在这方面采取了一种灵活而协同的工作方式。由于大模型技术涉及的领域广泛,公司在进行相关项目时通常会组织多个团队联合作业。这些团队可能包括视觉感知、控制和语言处理等领域的专家。这样的跨领域合作模式已经成为优必选的标准做法。
而且与传统的深度学习项目不同,大模型技术的应用已经超越了单一工种的界限,需要多个团队的紧密协作。
这种跨团队的合作模式并不是新的组织结构,而是大模型技术发展至今的必然结果。技术的多样性和复杂性要求不同领域的专家共同参与,来实现项目的成功。
今年2月底,我的团队与新能源车厂合作开展了一项实训工作。这项工作涉及到了我们多模感知决策技术的一部分应用。然而,我们也认识到,尽管这是一个很好的开始,但要实现AI大模型与人机协作的深度融合,我们仍需攻克一些核心技术难题。人工智能技术,特别是大模型的应用,已经与我们的研究和实际项目紧密结合。
近期,优必选也跟百度达成了合作,将文心大模型接入人形机器人Walker S ,共同探索中国AI大模型+人形机器人的应用。
伴随着大模型技术的赋能,人形机器人的产业化进程将加快,未来“降本增效”的人形机器人将在工业制造、商用服务和家庭陪伴等多个场景实现落地应用,解决劳动力短缺,提高生产效率,让人类生活变得更加美好。我们坚信,这项技术将是未来长期发展的重要方向。我们将继续致力于这一领域的研究和开发,以推动技术的进步和产业化进程。
我本科是在中科大,这段时期专注于语音信号处理,而科大讯飞正是在我所在的语音实验室孵化出来的。后来我又在中科大完成了计算机视觉方向的博士学习。2011年,我加入中国科学院深圳先进技术研究院,一边做科研,一边做产业。因项目合作,参与到与腾讯公司的合作中,研发了名为“小Q”智能机器人的产品系列。也就是那时候我正式从AI研究转向机器人研发,将人工智能与机器人相结合。
当我2015年加入优必选时,我专注于将人工智能技术与机器人融合,推动机器人技术的研发和应用落地。
我加入优必选确实有一段奇妙的经历。2014年,在前海深港青年梦工厂开业典礼上的一次展览,我和团队代表中国科学院深圳先进技术研究院,展示了我们的产品,而优必选的展位就在隔壁。
后来我了解到,优必选在做国内自主研发的人形机器人,也了解到了公司创始人周剑对于人形机器人的愿景和梦想,发现这个与自己的梦想高度契合,所以选择加入了优必选。
那时候,我住在宝安西乡,每天往返近100公里,到龙岗上班。因为我加入公司比较早,参与了公司早期和中期的多个项目,将这些技术转化为公司的众多产品。这就是热情所在。
实际上我从未真正离开过工业界。在我加入中科院之前,曾在一家外资企业从事计算机视觉算法的研发工作,后来这家企业在国内科创板上市。我在中科院的工作中,一半的精力用于技术转化,孵化了几个有影响力的产品,另一半则致力于前沿科研。这些年来,我的工作始终围绕着如何将最新技术转化为实际产品。
优必选从未局限于单一的技术研发或产品开发。公司始终坚持技术和产品同步发展的战略,这也是优必选吸引我的地方。我认为,只专注于技术可能会导致与实际应用脱节,而只关注产品则可能失去技术优势和市场竞争力。在2015年加入优必选后,在 CTO 熊友军博士的带领下,我们共同推动了研究院的成立,目的是将技术研发和产品开发紧密结合。
从2016年开始,优必选着手研发大型人形机器人,并以此平台为基础,将技术成果转化为各业务线的产品支持。
优必选在技术投入上非常聚焦,始终思考机器人技术的未来发展趋势和应用场景。基于这些长期趋势和应用场景的考量,公司有针对性地寻找和研发适合的技术。因此,
科研人员往往专注于技术创新和独特性,以解决科学问题为导向,追求学术上的突破和理论上的完备解或最优解。而在工业产品开发中,我们更多的是寻找和解决已经存在的关键问题。
这涉及到如何将场景中的各种元素数字化、标准化或规范化,确保技术的长期积累和持续改进。尽管科研和工业界的目标和思路有所不同,但解决挑战的方法和路径在本质上是类似的。
其的广泛关注始于2022年底,当时ChatGPT的发布引发了众多讨论。在优必选是什么时候讨论大模型?
我们对大模型技术的重视可以追溯到更早的时期。优必选在2022年,甚至在2021年上半年,就已经注意到了大模型技术的潜力。
随着时间的推移,当语言大模型开始出现时,优必选内部已经开展了类似的项目,并在内部开展了小规模的研究项目来深入探索这些技术。
到了2023年和2024年,优必选迅速将这些技术应用到了机器人领域。通过自身的研究,优必选在技能上也进行了一些创新应用,将大模型技术融入到产品开发中,提升产品的性能和智能化水平。
这次,优必选Walker S与百度文心大模型进行深度融合,进行任务调度应用开发,快速构建了任务规划与执行能。