GPT卷入实体机器人行业,进门掘金的“入场券”是什么?
作者 | 三北
编辑 | 漠影
近期,接入GPT的阿梅卡(Ameca)机器人的问答视频火遍全网,让人不禁震惊:“机器人的GPT时刻来了?”
当被问到开心事时,这个英国人形娱乐机器人公司Engineered Arts打造的机器人眨着眼睛并面露激动地说“诞生那一刻”让她开心;被问到“一生中最悲伤的一天”,阿梅卡眉头紧锁回答:“我意识到我永远不会像人类能体验到真爱、陪伴或简单的生活乐趣,这是一件令人沮丧的事情。”
阿梅卡为我们描绘了一个未来机器人的粗略轮廓,背后,类GPT技术正让机器人第一次真正睁眼看世界。
类GPT技术为方兴未艾的机器人行业带来革命性力量。根据中信证券报告,ChatGPT 与机器人的结合,将弥补当前机器人在智能性、易用性、经济性上的短板,有效提升机器人在各个行业的渗透率。
微软联合创始人比尔·盖茨近期说GPT模型是“40多年来最革命性技术进步”。聚焦到机器人领域,猎户星空董事长傅盛此前发文称:“GPT-4发布世界要变了!每个人都要关心。”
那么类GPT技术为机器人产业带来了哪些肉眼可见的机会?什么样的机器人企业能够抓住GPT时代的机遇?纵观行业,服务机器人赛道又会出现什么样的范式变革?通过对话国内AI服务器机器人领军企业猎户星空业务策略负责人刘宇翔,本文对此进行了深入探讨。
一、GPT引发机器人行业沸腾,“假聪明”退出历史舞台
“心情非常激动,NLP(自然语言处理)长期短板限制被打破了,ChatGPT不是鹦鹉学舌式的‘假聪明’,而是像人一样去理解材料和对话,对机器人行业会是一个非常大的突破。”刘宇翔在去年底接触了对话机器人ChatGPT,他对智东西这样谈到亲身体验。
另一国内知名机器人企业的语音技术科学家也有同感:“去年11月30日,看到ChatGPT的惊艳表现后,我们意识到AI真正赋能到各行各业,服务机器人走进千家万户的时间到了。”
实际上,很多产业人可能了解,阿梅卡只能算描绘了未来理想机器人的粗略轮廓,披着猎奇的外衣,类GPT技术为行业带来的真实价值远不止于此。
类GPT技术具有解决的机器人领域新刚需的潜力,具体有哪些想象空间?
刘宇翔说,其为机器人带来最核心进化是对话理解能力。具备了多模态思维链能力的GPT-4模型具有一定逻辑分析能力,已经不是传统意义上的词汇概率逼近模型。
比如我们之前看到一些公司前台或展区设有导览机器人,很多是根据配置的问题答案库调取回答,作为前台和导览人员工作受限。接入类GPT技术的前台机器人不仅能做一些演示及效果,还能真正与访客进行深入对话,通过深入交流解决来访者的实际问题。
在机器人研发和制造环节,类GPT技术也促进机器人研发制造环节效率提高。比如很多机器人研发人员已采用类GPT技术检索代码问题;涉及到机器人制造中的零部件选型,机器人企业可以让类GPT产品通过阅读供应链文档去辅助推荐选型等。
此外还有一些通用场景,比如在营销及运营环节,机器人企业可基于类GPT技术对宣传资料撰写、客户沟通邮件的撰写。
当我们将视野从大语言模型投向更广泛的GPT-4等多模态大模型,会发现更令人兴奋的潜在机会。
近期,微软基于GPT-4搭建实体机器人Demo的尝试以论文方式公开。根据这一论文,GPT能够控制机器人完成语言理解之外的事,与外界物理世界发生联动,带来机器人端到端的体验。
刘宇翔称,通用大模型带来的是更通用的机器人,机器人进入家庭的梦想将更进一步。比如你回家了跟机器人说“你帮我找点喝的”,机器人在接收你的消息后,会结合你的习惯或与你对话判断你可能想喝甜的还是酸的,哪个不适合你,亲自将水取出递给你。
二、机器人接入大模型分三步走,不是人人都有“入场券”
今年1月,工信部等十七部门发布《“机器人+”应用行动实施方案》,该政策提出到 2025 年,服务机器人行业应用深度和广度要显著提升。适逢当下国内外的大模型纷纷推出,包括商贸物流、医疗健康、养老、商业社区服务等多个机器人行业赛道都成为类大模型技术落地的掘金地。
飞快的速度,是中国智能产业江湖生存的必备技能。我们看到国内已有一些服务机器人企业接入类GPT技术,但多位业内人士告诉我们,这些尝试大多比较初级。
刘宇翔认为,机器人接入GPT的可以粗略分为L0~L2三个级别:
L0是仅接入大模型官方API,几乎没有做二次开发,难度系数较低;
L1是在接入大模型的基础上,结合场景理解满足需求做产品开发,这才达到及格线;
L2则是接入大模型的机器人企业基于本地知识做二次开发,甚至得到自己的(半)自研大模型(平民化大模型),解决场景问题,产品能做出来、卖出去,这才达到优秀线。
刘宇翔谈道,接入类GPT技术接口可能容易,但要实现从L0到L2的跨越并不容易。
他告诉智东西,机器人企业在接入类GPT技术之前首先要考虑的是“第一性原理”。比如从猎户星空来说,公司自去年底就开始研判并推进这一技术与机器人的结合,计划于近期推出产品。其出手的第一性原理是:
1、基于类GPT技术做以前的机器人技术做不到的事。
也就是说,既然都采用的类GPT技术,机器人企业必须把场景往深处做。比如让原本只能回答有限问题的导览机器人,进化为与用户进行交互式学习的导览机器人,比如能就西安博物馆里的展品深入探讨,大模型在语音识别、软件服务等各个环节辅助下,实现与游客更加多维度、更流畅的交流,体现与先前产品的代际差。
2、做仅靠类GPT技术做不了的事。
举个例子,我们看到博物馆的导览机器人已经上岗多地,他们会带人们巡游展馆、声情并茂地解说。当接入GPT技术之后,参观者可以直接去和机器人对话,让机器人根据提问展开讲讲。但GPT模型独自是做不到这些的,内容比较泛,而是要结合实体机身、传感器、本地地图和导航系统、本地知识库等能力。
刘宇翔说,用好类GPT技术只是一方面,更多的难度还是在于机器人本身。
“如果你已经有一个机器人了,把它变成GPT时代的机器人是合理的,但若‘真正机器人’都做不出来,难度还是在机器人这一端。”类GPT技术需要结合整个智能机器人链条才能发挥“端到端”的作用。
以NLP与ASR(智能语言识别)技术结合为例,大模型能帮导览机器人更聪明地理解对话,但如果它连听都听不清人的话,语音识别是错的,就根本不用谈理解对话。因为新词更新速度不够、复杂噪音环境识别不足、远场环境服务迭代不及时等问题都会影响用户输入,这就好像一颗好脑子长在了耳背的人身上,大模型的作用也会发挥不出来。
3、做真正能跟客户产生价值的事。
这一点比较好理解,像阿梅卡一样的机器人或许是引人关注的,但这种猎奇的应用可能暂且实用性不大,也很难批量复制和商业化落地。因此结合场景理解,做能量产、卖得好的GPT时代机器人尤为关键。
可以看到,虽然接入类GPT应用的接口只是一瞬间的事,但打好机器人“身体底子”、进一步叠技能却仍是一件难度较高的事,不是人人都具备“入场券”。
三、所有行业值得重做一遍,机器人迎来“iPhone时刻”?
所有的行业都值得基于大模型重做一遍,机器人行业也正面临一个交互式革命。
微软联合创始人比尔·盖茨3月时在博客中谈道,GPT模型是他自1980年他第一次看到现代图形用户界面(GUI)以来最具革命性的进步。聚焦到服务机器人领域,猎户星空董事长傅盛也在3月15日第一时间分享了GPT-4体验视频,他说:“GPT-4发布世界要变了!每个人都要关心。”
这个“变”指的是什么?刘宇翔谈到他的理解,大语言模型将带来两大方面的变化:
一是交互的革命。2007年乔布斯发布iPhone时就是一个交互革命,触摸键盘由此替代了物理键盘,软件定义了不同键位的形态和用法;现在随着GPT-4的到来,触摸键盘将可能进一步被语音交互替代;二是社会生产力变革,生产效率会大大提升。其中前者对机器人领域影响更大,而后者对内容产业影响力较大。
这也解释了为什么英伟达创始人兼CEO黄仁勋在3月GTC大会上称:“我们正处于AI的‘iPhone时刻’。”iPhone时代实际上就是移动互联网的新交互时代到来,对于AI来说,伴随着类GPT技术横空出世,它也将更深入地渗透到人类关于机器人的愿景里。
刘宇翔认为,从智能终端来说,包括智能手机、电脑、智能音箱、机器人、汽车等产品都可能被重做一遍,就像2012年大家基于安卓把所有PC软件重做一遍一样。也就是说,在GPT的新浪潮下,行业赛道之间也在相互竞赛,争取更快进入“GPT时刻”,成为最终极的GPT终端。
成立于2016年的猎户星空在创业之初提出了机器人公式:“AI+软件+硬件+服务=机器人”,据称目前已经形成了包含口、耳、眼、腿、手、脑在内的全链条AI技术。同时,公司已自研了操作系统Robot OS、语音OS、导航技术,并且已经拥有全栈硬件设计制造能力,以及服务机器人落地现场及云端的服务能力。
▲猎户星空机器人公式
根据官方数据,截至2022年底,猎户星空的服务机器人出货量已经达到45000台,日均语音交互频次超1700万次,总服务人次近5亿人。据悉,猎户星空基于大语言模型的相关产品也将在近期推出,面向市场交出答卷。
结语:GPT卷进机器人,掀起交互式革命
智能服务机器人在我国发展多年,经历了跌跌撞撞的发展历程,NLP技术的短板一直是一个严峻限制。类GPT技术的出现使得智能机器人企业以较低成本调取顶尖语言理解能力成为可能,有望提升智能服务机器人在各个行业的渗透率。
新的交互式革命正在掀起,单一功能机器人向通用机器人发展的过渡期也在缩短。而当有了多模态大模型的支持,与大模型相配合的机器人整机以及设计算法、软件、硬件、服务等各个环节的研发和创新能力,也将成为影响机器人企业角逐胜负的关键要素。