人人都可拥有的自主性AI:有记忆会使用工具,还会自我学习
原创 关注前沿科技 量子位
明敏 发自 凹非寺
量子位 | 公众号 QbitAI
要说AutoGPT为啥会迅速蹿红?
还不是把人类对AI的想象力再次打开了。
使唤AI不用再一句句引导,更不用去研究提示工程了。
人人像钢铁侠那样拥有超级AI贾维斯不是梦。
而就在现在,这种Auto AI Copilot已经有人批量生产了。
大概画风be like:
如果你正在浏览旅行APP打算订酒店,点一下AI助手,它就会根据自己掌握的信息贴心发出询问:
我记得你说打算去新加坡旅游来着,有什么需要我帮忙的吗?
然后对着手机说出自己的情况和需求,它立马找出了13个方案,并且给出自己最推荐的选择。
不仅如此,它还会查询当地天气提醒你要准备什么衣服,并能根据天气情况来规划路线。整个过程,完全就是和真人助理对话的感觉啊。
除了旅行APP,如购物、家装等各类软件里都能内置这样一个AI。而且官方还透露说,底层平台将会在近期开源。
这就让人好奇了,到底这些AI从哪里来?
生产有记忆会自学习的AI Copilot
如上看到的AI Copilot来自名为MindOS的AGI应用助手平台。
它主打的功能就是为各类软件打造一个超级AI,不光能回答人类用户提出的问题,还拥有记忆、自主学习能力,同时也能有个性。
比如当你打开家装软件准备再买点装饰,但其实没想好具体买什么时,AI Copilot就能根据它对你的了解,给出推荐的物品。
除了推荐好物,AI Copilot还能基于人类的问题揣测意图。
比如让它查询下买的桌子椅子发货了没有,AI先是回答了物流的进度,然后感觉到人类可能希望桌椅能一起送过来,就马上提出了自己的猜测。
人类:我的订单到哪了?
AI Copilot:嗨,你的订单已经由DHL快递发出了,预计在今天下午7点送到。
人类:椅子和桌子是配套一起送过来的吗?
AI Copilt:它们是分开卖的。你有4把椅子会在今天送到。你是想今天也收到桌子,这样周六就能有一整套了是吗?
人类:是的,我能取消订单然后重新下单一整套吗?
而且它还会智能地根据情况给出推荐的解决办法。
比如告诉人类,已经发货的椅子没法取消订单了。与其现在把椅子退货再重新下单一整套桌椅,倒不如直接再买张桌子补齐吧。
据了解,MindOS平台现在支持包括中英文在内的30种语言,提供超过1000个带有性格、功能的预置AI角色,准确推断意图的准确率达到97%。
而定制这些AI Copilot,其实并不难,不用懂算法和编程,也不用给数据打标,几分钟就能搞定。
平台上有多种类型的AI助手可以选择,包括购物、金融、网站引导等。
选好类型后,就能开始个性化定制了。
平台支持接入API、数据和文档等,并为AI助手提供了一些技能,可以按需选取使用。
然后只用自然语言描述,就能完成对AI助手的初始设定。
可以控制的内容包括AI的形象、自我介绍、对话风格、要完成哪些任务、不能做哪些事等。
整个过程就和招来一个新员工一样,告诉它工作守则即可。
设置完成后,将平台生成的代码插入到网站或软件中,即完成AI Copilot的接入。
据了解,MindOS其背后原理是以大模型作为底层基础,在此之上背后开发团队搭建了一套模仿人脑宏观架构的自研框架UMM(Unifined Mind Model),为AI加入复杂思考、记忆、服务和更强的自主学习能力,让大模型内容更可控、能力更自主、部署更灵活、整合更深度。
其中,大模型就好比通用计算平台,类似于人类大脑的前额叶,具备很强的理解能力和逻辑推理能力。但人想要在现实世界中完成各种任务,一定还需要视觉、执行、动机、记忆等区域的配合。
因此,UMM框架就是给大模型接入了这些能力,比如可以感知和处理多模态信息、记住专业知识、历史信息和数据、自主学习等。以此让AI可以完成一个长链条任务,和AutoGPT非常相似。
而且相对于AutoGPT,MindOS背后框架的自主性更高。
举例来说,AutoGPT是在给定公开的技能下(如搜索),自主规划出合适的执行计划。
而MindOS中的AI,会在发现自己技能不够用时,主动去互联网上搜索新技能,自主测试、连接,并利用新学会的技能进一步完成复杂任务。
比如当用户提问“我想知道公司有哪些西雅图的客户?”
MindOS的AI发现自己现有能力没法解决这一问题,于是它就在公司网络中找到了一个CRM接口(客户信息系统),然后在用户允许下自主学会如何使用,最后给出了公司的西雅图头部客户和每个客户的具体介绍。
去年11月初,MindOS发布1.0版本,比ChatGPT还早了几周。
在经过几个月迭代后,在最近推出2.0版本,并将开放一轮封测,届时可以抢先体验。
而且幕后团队透露,其底层框架UMM也会在后续开源。
这绝对算得上是一个重磅消息了,毕竟当下ChatGPT、AutoGPT热度够高,但是在使用和自主可控性上都还存在一些让人有顾虑的方面。一个真正可商用的、成熟的AI框架,加上完整的配置平台,相信有很多人会跃跃欲试。
这不免让人更加好奇,MindOS的背后开发团队到底是何人?
前脸书高级研究科学家带队打造
MindOS来自心识宇宙,在2022年1月创立,定位是一家AGI公司。
公司团队成员来自Meta、Google、TikTok、Alibaba等,创立至今已获得红杉中国种子基金、线性资本、银杏谷资本等顶级基金投资。
创始人兼CEO陶芳波,是数据挖掘和AI领域的熟悉面孔了。
他本科毕业于清华大学,后赴伊利诺伊大学香槟分校获得计算机科学博士学位,师从数据挖掘领域鼻祖韩家炜教授。
陶芳波博士先后在美国微软研究院、Facebook Research、NASA等从事研发工作,并是阿里达摩院神经符号实验室的创建人。其研发成果已应用到NASA、波音公司等;搭建的Facebook大规模内容理解平台,日均服务超过2亿用户。
此外,他还担任了EMNLP、CIKM、ACL、SIGMOD、WWW等领域顶会的评审专家。
心识宇宙的创立契机,主要有两方面。
一方面是底层技术的驱动,另一方面是需求真实存在。
其中,从技术维度出发的思考和准备,要从3年前说起。
2020年GPT-3震撼发布,让陶芳波看到了LLM的无限潜力。
这是第一个模型,可以一个模型完成很多复杂任务,承载了人类几乎所有知识。
当时,业内对AGI的讨论已经不绝于耳,陶芳波同样认同AGI会给未来世界带来变革。
怎么通往这里?大模型这条路已经逐渐清晰了起来。几年前,当时还在研究实验室的团队就已经开始搭建一种AGI框架的雏形了。
他们提出的技术理解是:大模型是一种全新的计算革命,提供了一种新的通用算力资源,即可以通过自然语言来调取的数字脑力资源。
相比于提供“连接能力”的传统算力,现在这种算力可以直接提供“理解和推理”能力。
但问题是,目前这种算力依然是无差别的,和场景、个人需求没有深度整合(Grounding)。而这种整合需要非常复杂的场景理解、个人需求理解。
因此,需要在大模型之上构建一个有价值的调度框架,类似于新时代的操作系统,让这种算力不仅有理解能力,还和场景深度整合,可以在目标的驱动下独立成长和自我构建。
而技术创新,还只是底层的支撑。更上一步,需要行业中有真实存在的需求。
实际上,近几年不少软件和应用都倾向于为自己构建一个AI助手。一般是一些低频刚需APP,如银行、政府类;以及一些信息整合、用户决策路径长的APP,如电商、旅游类。
对于低频刚需类APP,因为打开频率低,用户对操作界面的熟悉程度不高。一旦有需求时,往往要先花费一段时间来摸索功能界面,有时甚至还得去网上搜教程,确实比较繁琐。
因此,APP会倾向于加一个AI助手,让用户通过自然语言交互,就像是问引导员一样,快速完成操作。
而对于决策路径比较长的APP,一般有两种情况。
第一,用户还不知道自己明确需要什么。
比如下周要去参加婚礼了,该准备什么样的礼物?很多人在打开购物软件时是没有想法的,这就需要自己来搜索找灵感,到最终确定商品下单,会是一个比较长的过程。
第二种情况,是用户需要进行复杂的货比三家,最后才能完成消费。
比如大到汽车、房产,小到球鞋、护肤,购买时不同人会优先比对不同的规格参数;或者是订酒店,也要事先了解好多家的价格、环境、位置等信息。这类决策过程也都会比较复杂。
那么,如果有AI能够快速整合对比信息,或者给出明确的推荐,这会提升用户的体验感,也能提升平台商家的转化率。
由此也就不难理解,为什么心识宇宙联合创始人兼COO林宋琪在创业初期就反复表达:
所有分发都可以?AI再做?遍,所有UI都可以??然语?再做?遍,所有软件(Application)都值得?虚拟??再做?遍。
不可否认,软件AI化在最初也受到了不少来自市场的质疑。但随着OpenAI和微软的一系列组合拳,这一趋势开始逐渐被大家看到并相信。
ChatGPT引爆趋势后,微软率先将GPT-4整合到New bing,让AI渗入到人们日常使用搜索引擎的全流程中。这一波操作,直接让New bing日活用户破1亿,数百万活跃用户中,有三分之一都是新用户。
紧接着,Office全家桶也宣布接入GPT-4,推出新功能Microsoft 365 Copilot。微软CEO纳德拉在发布会上直接放话:今天,进入人机交互的新时代,重新发明生产力。
随后国内大厂也纷纷跟进,阿里放话要在所有产品中接入通义千问。
但问题是,有能力自己推出大模型、自己完成AI化升级的,毕竟还是极少数科技巨头的“特权”。即便是直接接入API,也需要企业本身具备一定的开发团队。因此在新的趋势下,很多软件和应用服务方,都在急迫寻找一个效果好、门槛低的软件应用AI化方案。
而作为作为微软和OpenAI的企业级合作伙伴,拥有领先商业化成果的心识宇宙,这几个月自然要被人“踏破门槛”了。
据心识宇宙透露,从MindOS发布以来,他们收到了数百家企业的试用申请,尤其是今年1月趋势引爆以后,申请量更是空前暴增。
目前,他们已经和全球Top 3电商平台之一、亚太地区头部金融券商、全球顶尖跨境电商平台、国内头部虚拟人公司和头部元宇宙平台达成合作。
人机交互变革的新起点
总之,心识宇宙的浮出水面,传递出了一个让人颇为兴奋的信号:
更加自主的AI Copilot,正在大踏步走进你我的生活。
加之最近AutoGPT、AgentGPT等自主人工智能工具爆火,再次验证了更加灵活、可靠、易用的AI是新趋势的方向。
作为提前看到趋势,并率先开启技术研发、商业化落地的AGI领域创始人,陶芳波提出了自己的认知和判断,即未来世界的发展将会分为三个阶段:
应用和服务的AI化:任何需要用户来做决策的过程,都应该有AI Copilot的辅助,来更好提供深度需求理解和场景化推理。
个人为中心的AI出现:每一个人,都可以在交互的过程中,逐渐培养一个和自己深度绑定、且可以帮助串联任何事的AI Copilot。
AI Copilot串联成网络:应用和服务的AI Copilot和每个个人AI Copilot,连接成一张全新的网络,服务的分发会在这个AI Network上发生。不是传统的基于连接的分发,而是基于理解和推理的分发,这些AI Copilot会相互合作、协同,帮助人类完成复杂任务。
目前心识宇宙正在快速推进的,就是第一阶段。
第二阶段也近在咫尺,在今年下半年,他们将会发布面向消费者的MindOS,届时所有人都有机会塑造一个专属于自己的AI Copilot。
在这些趋势下,一个更加震撼的变革也在悄然推进,即人机交互方式正在被改写。
过去一百多年来,人机交互的方式从最初的基于按钮,发展到了通过命令行,再更进一步飞跃到通过图形界面完成交互。
当下的计算机、智能手机等,人和软件之间的信息交流,都是建立在GUI的基础上,也让人机交互从最初的仅限于专业人群,发展到了普通人范围。
但对人机交互稍有了解的人都知道,人类最自然的交互方式,其实是语言。
比如想要查询天气,如果通过语言,只需要说一句话“北京明天天气怎么样?”如果通过GUI,则需要用户找到软件、选择城市、再查看具体的日期。
过去,由于AI的能力有限,这种基于语言的交互也只能做到浅尝辄止。
AI语音助手往往是通过识别固定的句式、关键字,来做出机械式的回复,给人带来的体验升级比较有限。
如今,在大模型能力飞升的背景下,新的可能出现了。
当AI可以充分理解人类语言、链接各方面能力,仅通过语言的人机交互就会成为最方便的交互方式。传统由产品经理定义UI界面的方式,都可能被改写。
林宋琪表示:
未来用户通过自然语言讲解工作流程,AI就可以连通各个软件的API,自主构建工作流和专属用户的UI,这样所有屏幕都可以变成AI的画布,而每个AI助手都是用户的“马良神笔”。
也就是说,AGI之于软件,正如Made to order之于制造,之前是供给到需求,之后是需求到供给,这是一种全新的生产方式。
由此产生的影响,或许都不局限于软件领域,乃至硬件的生态都可能被改写。
未来,AI的载体可能是手机、电脑、头显,也可能像钢铁侠那样——是机器人。
或许在以前,这种说法会被定义为“美好的无限想象”,但是在ChatGPT趋势下,创新正在“以小时为单位”发生。
两个月前,学生们拿ChatGPT写作业、考试,已经让人咋舌;而如今,人们开始尝试让ChatGPT自己想办法开发网站、让GPT-4控制实验室的机器人做化学实验……
似乎已经没什么不可能发生了。
而人们的无限憧憬与期待,或许也是AI创造无限可能的必要因素之一。
那么,你觉得人人一个AI Copilot会是人类的未来吗?
P.S.本周心识宇宙将召开MindOS内测发布会,感兴趣的童鞋可戳下方链接报名:
Webinar 1: https://us02web.zoom.us/webinar/register/WN_mCV8jzA-S--4K5u9KssCug#/
Webinra 2: https://us02web.zoom.us/webinar/register/WN_Wpn01K2lTt2sbIw0M0e8IA#/registration
— 完 —