专访科大讯飞刘庆峰、胡郁:掌握人工智能主导权就是在全球处于价值链高端

  以下是刘庆峰在科大讯飞年会上的讲话(全文),观察者网特别刊发以飨读者:

  尊敬的刘利民部长、郭传杰书记、吾守尔院士、各位领导、各位来宾,女士们、先生们大家下午好!今天是周一,又恰逢圣诞节和元旦即将到来之际,这么多的来宾能够在百忙之中抽空参加我们的发布会,还有非常多的朋友通过高清视频直播和图文直播在观看我们的现场直播。充分表达了大家对人工智能的一下内容关注,对科大讯飞的信任和期待,在此我要代表科大讯飞公司对各位的到来表示衷心的感谢和热烈的欢迎!

  我们经常说到人工智能让机器具备像人一样的智能,应该说是人类在科技和产业界最伟大的梦想之一。而要把这个梦想照进现实除了有激情有坚定不移的长期的激情坚守之外,还需要脚踏实地一步一个脚印踏踏实实的科技创新,和与之相匹配的各个阶段令人尖叫的产品。

  那么科大讯飞我们在2010年,首次发布了科大讯飞的语音云平台,宣告手机的语音听写时代开始来临。过去5年中,随着我们技术的不断进步,到了2015年,到了这个月我们每天的日访问在讯飞语音云平台上已经有10亿人次之多。那么,围绕讯飞仅仅是一个输入法,就有2.8亿的用户、每天5000万人在使用。越来越多的输入法,越来越多的移动app的工具开始使用我们的语音技术。

  在输入的同时,很多的朋友都在问,说在输入法中你们已经做到了95%的准确率,甚至达到98%,能不能在这样的一个大会的过程中、在老师讲课的讲堂上能够同步的把语音也给转成文字,便于大家事后检索与学习。但是我想告诉大家,这样一个技术其实是很有难度的。为什么?因为手机是近讲,是我们对着机器的说话方式、同时噪音也不是很大。但这样的几千人的会场,这样激情澎湃的演讲再加上环境背景的回声噪音等等,在业界要把它做到实用是非常难的问题。但是今天我想给大家的第一个惊喜就是科大讯飞在全球率先突破了这一技术。所以,我们今天的全程演讲,请大家看两边的大屏幕,都是同步实时转写出来的。

  好,我们回归到今天的发布会的主题,其实我们在谈到了人工智能60年的发展之后,现在面临着全新的发展机遇。那么今天我们的发布会我想一方面要跟各位嘉宾包括网上直播的各位朋友们,我们来分享科大讯飞对于人工智能产业发展的全景性的思考。对于未来人工智能究竟在哪些关键领域要取得突破而不是单点技术系统性的成长,哪些是最关键的方向以及我们今天的三大年度新产品的发布。

  首先我要向60年以前在达特茅斯会议上正式提出人工智能概念的这些前辈专家们表达我们的敬意。当年,就是因为麦卡锡第一个提出了人工智能的概念,使AI成为了人工智能行业的名称,而且发布了第一个人工智能的系统语言。那么在此基础上我们看到计算机的人工智在五六十年代就已经能够证明数学原理里的38项。那么在此基础上另外一位计算机大师也是图灵奖获得者明斯基,他明确的提出了一套算法,能够证明第一代神经网络到底能够干哪些事情,又有什么样的缺陷。所以我想人工智能绝不仅仅是人类大脑的冒出来的一个,突然的空幻的梦想,而是有着严谨的数学理论做支撑,有着计算机的顶级专家共同推动的。还有两位大师我们可以看到,在人类历史上可以说非常耀眼的一个跨学科的专家,既获得诺贝尔奖也获得了图灵奖的西蒙。还有信息论的创始人,也是现在通讯技术的奠基人香农。就是这些专家,我们可以看到,从计算机,从数学,从经济学,从通讯,从信息论的角度联合的产业跨界,共同的创新,才推出了人工智能的横空出世。才有了我们今天在这样一个全新的时点上来探讨,60年之后,人工智能究竟能给我们带来什么样的惊喜和什么样的挑战。

  

  任何事物都是波浪式发展,那么从人工智能1956年第一次提出来,当第一次的人工智能的算法语言和第一次人工智能可以证明数学原理之后,明斯基在1970年非常兴奋的宣告说未来3到8年计算机的智能就可以达到人类的平均水平。那么显然是非常的乐观的,但也正是因为他提出这样一个设想,所以他开始证明说人工智能是不是真的可以。结果它通过在感知论中证明了第一代神经网络是有缺陷的。也是这样一个极力鼓吹人工智能的人最后发现了科学的缺陷最后导致第一代人工智能到1980年出现第一个低潮,可以看到这些大师们求真务实的精神。

  第一次低潮过后,1982年,大家可以看到这个图上的霍普菲尔德网络的,出现到1986年BP算法的出现,使得大规模神经网络的训练成为可能人们再次看到了神经网络人工智能的希望。因此日本雄心勃勃的推出来第五代计算机的计划,希望未来能够推出人工智能计算机。大家知道计算机从电子管到晶体管到集成电路到大规模集成电路第五代就希望做人工智能计算机。但是随后我们认为事物确实发展都不是一帆风顺的,由于这些算法计算机的运算能力的限制和算法的难以收敛导致了直接到2000年第二次AI冬天的到来。第五代计算机宣告失败DARPA削减投入。那么,再往后,一直到2006年深度学习的概念被正式提出来,首次证明用这种方法可以进行大规模深度神经网络的学习。学习能力有了,那么有了这个学习能力之后一系列的算法包括在深度神经网络方面的卷积神经网络递归神经网络等等办法,不断地在语音合成语音识别方面取得突破。

  稍后我们讯飞研究院院长还会给大家分享我们科大讯飞在核心源头技术方面我们做了哪些创新。正是神经网络的不断的创新,再加上今天移动互联网时代大数据云计算的兴起,再加上无线互联网可以使数10亿的用户的数据源源不断的汇聚到后台供我们的神经网络进行学习和训练。所以大家都认为,人工智能在经历了60年一甲子之后经历了两次起伏现在已经进入到真正的爆发的前夜。而我们觉得非常幸运的是,前60年中国人基本上绝大部分时间是缺席全球人工智能这个盛宴的。但是今天,有了科大讯飞有了我们一批的合作伙伴,以产学研用相结合的方式我们开始在很多领域走在了全球的风口浪尖之上。

  我们在这可以看一下,不光是科大讯飞这样认识,当前的一些大师们都怎么看?著名的硅谷的思想家凯文凯利,写了失控这本书,最近又写了必然这本书。他就明确说,如果你问我未来20年最重要的技术是什么?毫无疑问,我会告诉你就是人工智能。霍金这位大科学家除了科学研究和思考几乎什么都不干,但是霍金说人工智能可能在接下来的100年之中将人类取而代之。一方面对人工智能未来的前景充满信息,另外一方面给大家抛出另外一个话题,人工智能对人类是喜还是忧,会不会替代掉我们人类,甚至会在未来主宰我们人类。

  今天的全球首富孙正义,在今年提出的一个著名的公式叫孙正义公式。他认为未来决定一个国家的GDP排名的不是人口。软银一家就要有3000万个机器人。未来机器人的数量和智能化程度,决定了GDP的全球排名。所以日本把人工智能提到了非常高的高度。今天人工智能真的已经关乎到绝不是一个企业或者一个产业的事,而是国家全局性的战略任务。在移动互联网时代,掌握住人工智能的主导权,我们就在全球处于价值链的高端,如果丢失掉,我们会继续像前30年一样沦为最低端的制造。

  我们可以看一下人工智能因此而开始上升为各个国家的国家战略。美国奥巴马政府明确提出大脑活动图谱计划,把他列到跟人类基因组计划一样的高度,欧盟也推出了同样的计划。中国在去年启动了人工智能的重大专项之后,正在积极酝酿准备启动中国脑计划。那么应该说这样一个国家战略已经在全世界范围内被越来越多的科技界企业界和政府认同。

  那么我们今天要问,在这样一个战略的基础上,我们人工智能到底是机器具备什么样的智能,怎么样划分?大家五花八门想到的各种类型怎么样对它进行界定?其实科大讯飞,在去年8月20号我们讯飞超脑计划的首次发布时,我们就对人工智能做了一个清晰的分割和界定,把它分成3个层面。第一个层面运算智能,让机器具备了能存会算的能力。那么这能存会算呢,刚刚我们在这个短片中看到了,在1997年,计算机下象棋超过了人类象棋大师。因为它的运算能力强,所有能便利结果的东西机器已经超过人工了。第二个,感知智能,让机器能听会说能看会认。我们知道人类的视觉看到是可见光,但是机器现在可以到红外可以到紫外。我们的听觉20赫兹到2万赫兹,但机器可以听超声波可以听次声波。

  今天科大讯飞的语音合成在英文中已经达到4.2分,超过了普通人4.0的水平。在中文达到4.5分,机器在合成在识别在很多方面也已经达到人工的水平。这叫感知智能的发展。但是最有挑战性的,也是我们人区隔于动物的最大的能力,就是我们的认知智能。认识和知道能理解会思考。这样一个能力,今天我们怎么来突破它?

  那么突破人工智能特别是认知智能切入点应该是什么?其实呢,当年人工智能在60年前提出来,我认为就本身带着对人类本身发展的站在原点上的一些哲学思考,那我们今天考虑人类发展。

  《人类简史》最近在各大主流媒体和科技界,考古学家和历史界都在传诵。这本书上提到了,类人生命,200万年前诞生。但是今天主宰地球的,智人的诞生,是在7万年前。七万年前是什么因素,导致了我们目前的智能,我们的祖先,能够在这个大路上,能够在地球上一统天下呢?考古学发现,各方面的证据都汇在一起,语言使得我们能够反馈周边的环境信息,因为有了语言才使得我们能够反馈环境信息更上的社会信息,才使得我们可以虚构概念可以有理想可以有主意可以有组织可以有梦想。那么这是没有语言的广泛使用就没有人类的交流就没有智慧的碰撞和产生就没有今天我们人类自身的认知智能。

  因此我们认为人工智能发展有一条必由之路,就是由语音和语言为入口的认知智能的革命。这是我们今天所面临的机会,也是我们已经找到的路径。

  那么在这个路径上我们可以看到今天我们有幸的是,科大讯飞为代表的中国科技产业界我们在语音和语言上已经有了哪些非常好的积累。科大讯飞九九年创业九八年开始筹备创业,我们的语音合成技术中文就是业界第一名。那么随着我们的发展,那么在2006年我们第一次获得了全球英文大赛的第一名,更到2012年让英语合成我们在全世界首次超过了真人说话水平,今天呢我们英语比美国人英国人做的英语要好。我们的印地语印度人说话的印地语,刚刚的2014年底和2015年的比赛结果科大讯飞代表中国超过了印度人做的印地语。目前我们已经有了26个主要语种的语音合成。

  语音评测,让机器可以评测我们的普通话,我们的英语发音是否标准,错在什么地方,怎么改正,进而现在对音乐唱歌都能进行评价。这项技术我们不仅在2006年,超过了国家级测试员的水平,现在已经大规模的在普通话等级考试,在海外汉语口语考试,包括在我们高考改革现在的英语考试中广泛使用,有效地推动我们的高考改革。

  2008年第一次在全球说话人识别大赛中获得第一名,2010年我们首次发布了围绕云计算和移动互联网的讯飞语音云平台。那刚才我说到截止到现在用户日访问量去年这个时候不到5亿人次。7月10号我们给李克强总理汇报的时候7.6亿人次,而今天,突破了10亿人次,可以看到快速发展的态势。

  有了嘴巴有耳朵还要有个语言的理解。这个理解技术,在2010年开始成功应用到电信和金融行业。今天已经可以替代掉中国移动,中国联通和电信的客户服务30%的人工,是全行业独家可以真正用机器代替人工的。同样支撑了我们灵犀助手的几十种不同的应用。而这样的自然语言理解,又使得我们在2014年底和一五年初的,两次全球最著名的国际翻译大赛,汉语和英语,英语和汉语的评比,以及美国国家标准技术研究院组织历史的国际测试,都是全球第一名。大家知道吗?2014年底之前,国际这两项比赛,汉语到英语的翻译比赛,是日本人全球第一,英语到汉语的翻译比赛是美国人全球第一。但是伴随着讯飞自然语言理解的进步,到2014年底我们改写了这个历史。

  那么有了上述的语音和语言技术的不断的突破和发展,我们还有一个支撑我们未来做认知计算的非常重要的基础就是我们海量用户的诞生。我们可以看到今天的讯飞输入法已经拥有了2.8亿用户,是业界口碑最好的输入法。我还想告诉大家一个秘密,就在一个月前我们推出来了中间的叫做随声译的功能。说汉语同步可以出英语,所以很多大学生和高中生现在写英语文章变得非常之简单,受到很大的欢迎。

  那么,在灵犀中我们有1.2亿用户可以打电话发短信问天气航班股票还可以闲聊,那么大家知道最近有很多语音助手推出来,但是我想告诉大家在中国移动做的官方统计12个主流应用商店的下载中,我们灵犀一家超过了前5名中另外4家的总和。

  那么,这是我们自己的输入法和灵犀的移动互联网产品,但科大讯飞就像当年刘利民部长支持我们大学生创业一样。那么我们教育部支持我们学生创业,我们今天也把我们的语音云开放给所有的创业者。那么这个创业者呢正在蓬勃发展,尤其赶上中国的双创大众创业万众创新。我们可以看到去年这个时候,我们的用户数是4个多亿,到了今天已经达到7个亿。这个用户数4.4亿现在到7亿,这个数据是什么呢?总下载量已经超过了10个亿了。那么,我们考虑因为正常手机使用寿命18个月,所以只算前18个月的,一共是现在有7个亿的用户,增长60%。但是现在有很多应用号称用户数很大忽悠的概率很高,没有人每天真的用那这就是个问题。每天的访问人次才是关键,所以大家可以看到,我们今天和去年同期相比都是11月底的数据。从4.8亿人次,每人用一次算一个人次,涨到了10亿人次,上涨109%。而围绕我们语音云的开发伙伴呢,从4.3万家增长到了11万家,增长了156%。这个数据另外能看到一个什么趋势呢?

  总用户增加,日访问人次比总用户增加快,说明我们的使用频率越来越高。而我们的开发伙伴数增加比日访问人次提高的快说明有越来越多的合作伙伴正在开发还没有推向市场。未来的量会增长更快,潜力更在后面。所以这就是为什么我们说在万物互联时代以语音为主以键盘和触摸为辅住的人机交互时代正在到来。那我们再看在车载领域的应用,对吧,大家知道马上也月份又要开全球消费类电子展。去年的拉斯维加斯消费电子展最火的参加最热烈的不是手机也不是电脑是汽车厂商。大家都认为随着无人驾驶汽车智能汽车的发展,在车内打电话发短信不用手,然后导航直接说话,听音乐一说歌曲马上调出来本地没有从后台几百万首歌曲去调取。那么这样的应用是刚需因为汽车未来越来越会成为一个移动的娱乐和办公的平台。

  但是在车内,语音的应用难度非常之大,因为有噪音轮胎噪音车窗噪音空调噪音,再加上我们坐在座位上设备放在方向盘或者后视镜有一定的距离,所以很难做到实用。但我很高兴的告诉大家就在今年的4月份,欧洲的顶级车厂,宝马汽车的国际比赛,我们是全世界唯一达到实用。因为85%是大家认为可用的门槛,大家看到这个比赛结果科大讯飞是百分之八十六点几,而全世界第二名,美国公司才75%。所以,为什么有这么多的国际顶尖车厂都在用我们的技术。奥迪、奔驰、宝马、沃尔沃、福特包括最近日系的雷克萨斯最高端的人也都要上,当然我们跟国内的从吉利江淮奇瑞以及长安等越来越多的国内车厂也在开始进行展开深入合作,这个技术我们已经走在全球最前面。

  伴随前面这些进步,我们也开始做软硬件一体化的产品。在今年的,第三季度末,我们推出了,带语音远场识别控制,并且不光能听音乐,还可以操控家居的叮咚音箱。这个叮咚音箱一出来,就在整个中国WIFI音箱销量中排名第一。不仅如此,它的销量超过了后9名的总和。然后我们又在年底,推出了业界第一款,能够全程用语音控制,而且还可以给孩子讲故事、可以翻译、可以诗歌对答、可以算数等等陪伴功能的儿童手表。大家可以看到这个图上,这就我们最新的产品。这些呢,都是表明了科大讯飞把我们的技术推动,到我们老百姓耳熟能详的身边的一个目标。我们也会跟我们的合作伙伴,做更多的有益的尝试。

  通过我们的语音和语言技术再加上我们的大数据和人工智能我们实现的从教育的评价到考试到课堂教学到课后的练习已经有8000万的老师和学生。刚刚我们的总书记到了新加坡。大家知道吗?新加坡教育这么发达的国度,94%的中小学都装了科大讯飞的系统,不仅是教汉语,还有英语和其他学科。

  正是因为有了我们前面所说的,语音和语言技术的核心技术突破,有了我们每天10亿人次的访问所带来的机器可学习的数据来源,使得我们今天科大讯飞在2014年的八月份我们可以正式发布,中国第一个,叫中国超脑计划;承担了科技部人工智能领域,第一个示范性的标准的重大项目,叫类人答题机器人的项目。这个项目中我们讯飞超脑的目标就是要让机器,能听会说到能理解会思考,真正的要开启认知计算全新的大门。我们前面已经提到了认知计算,以语音和语言为入口的认知计算,是我们当前必由的道路,也是我们非常重要的切入点。那么在这样一个切入点中,到底认知计算未来我们能做到什么程度?现在有很多的各种各样的单点技术突破,也有很多人从各个角度说,我的系统很牛,到底怎么比?今天呢其实我们可以看到在全世界的人工智能专家都看到了另外一个比较的方式,就是你不要在某个单点要比就放在高考这个点。我们都很讨厌高考,但我想在座的很多人都是由高考选拔出来的优秀人才。那么因为高考这个点是最公平的,是最能看到你对知识的综合表达能力,你的学习能力和推理能力的,因此大家说不要说人工智能在设定了某个领域能干什么事,是告诉我在开放式的高考中跟人PK到底会怎么样。所以我们可以看到全球的科学家们,在美国华盛顿大学的图灵中心,图灵中心现在已经升格为叫AI实验室,它的目标是什么?

  让计算机未来高考要通过美国的生物学的大学入门考试。而日本机器人,他的目标是未来机器要考上大学,甚至希望在2021年机器能够考上东京大学。那么我们中国启动的科大讯飞总牵头的人工智能计划类人答题机器人目标也是3到5年之内让机器高考能考上一本。什么概念?机器高考考及格很容易,因为它有很强的记忆能力。而机器高考要能考上三本,比50%人强就很难。我们的目标是未来机器要能跟100个学生,机器要考前20。不仅仅是在考试这个点,关键是相关技术成果它可以在过程中对我们的学习起到非常大的帮助,而同样成果可以用在医疗用在客服用在越来越多的领域,它这个核心源头技术和算法的突破。那么关键要解决的知识的表达推理和学习的能力。

  那么今天呢,我们在前面已经看到了,讯飞超脑我们要做的事情。我们认为未来的认知革命最核心的三大基础能力,第一个我们可以看到,就是人机交互能力。只有有了人机交互,才可以使得人类的智慧不断的送到后台,才能使得我们后台能力不断服务人类。第二个知识管理。只有把海量的知识,互联网上大量的甚至是垃圾信息,变成结构化变得有用,才能够获得智慧的源源不断的来源。只有在这基础上,真的自己有推理和学习,才能形成我们认知革命的基本部分。我们今天看到很多人从各个层面去做,而我们认为基本的人工智能的逻辑关系,就是这3块:人机交互,知识管理,推理学习。我们的所有关键技术都围绕这3个基础点来展开。

  那么,刚才讲了这么多,下面就进入到我们今天的正式发布环节。那么我们怎么样围绕刚才3个最基本的能力来展开我们的研发?而在2015年年底之际,在中国人工智能元年之际,我们给大家有一个什么样的答案什么样的答卷。

  首先我们看看,我们给大家提出来什么叫做真正最自然的人机交互?面向万物互联,面向越来越多的机器人,到底我们新的技术是怎么展现的?

  很有趣的一段视频,那么应该说呢,在今年的春节很多人在传这个视频,对吧。也有很多人问我说是不是科大讯飞做的,我说我们的技术比这样好,但是也不能解决所有问题。这里面的方言口音,在过程中的多轮交互上下文语义的理解,那么很多很多的关键技术,都是在2015年年初所没有解决的。我们现在看到在手机中输入法按一下我们开始说话,在各种各样的助手中,大家按一下屏幕,然后跟他说话,然后他结束再按一下才可以。就没有上下文的理解没有多轮交互更不支持你随时打断他。那么这个中间呢看到一个有趣的视频,可是跟我们的技术如果展开来它主要包括哪些方面呢?首先我们再看一个场景。

  这是我们一个典型的,我们说现在的人工智能。下一步要进入到智能家居,它要解决哪些问题?我们可以看到,如果在我们的厨房,你要用语音来操控整个厨房的家居,必须要有噪声抑制功能。如果面对电视,或者我们的音响,我们要说话,一定要解决回声消除问题,因为它自己本身就在大声说话。当我们要远距离操控,我坐在沙发上要控制空调的时候,我们要五米到八米的远场识别。另外呢,当我坐在沙发上,也可以在其它的位置,站在阳台上随时说话,它都能听见,需要360度的精确定位。这几项技术,如果不解决,我们就没有办法进入到我们的智能家居的,真正的实用场合。

  那么还有方言,对吧。目前呢,我们的方言其实已经有17种语言了,那么已经有了3种主要的少数民族语言,维语。我们吾守尔院士在,我们在新疆大学就是跟吾守尔院士共建联合实验室,有藏语有维语。有7亿用户每天提供各种方言来跟我们的系统学习和训练,所以说没有方言支撑,我们买一个最酷的机器人回家陪伴我们的父母亲陪伴我们的爷爷奶奶,他有时候真的搞不定对吧。所以方言那我们现在已经有了全行业,大家看各种输入设备只有科大讯飞提供了方言,而且十几种了。那么还有,一些非常需要突破的技术,我给大家再看一个简单的对话,就我们人跟人之间是怎么完成一次相互的沟通的?

  大家可以看,这样一个简单的,我们的秘书或者助手办理事情的过程涉及到这么多的关键技术。主动提问、插话打断、背景知识长时记忆,然后持续聆听、上下文理解等等,只有这些才真正解决了,我们说人工智能时代或者万物互联时代,我们的语音才真的可以进入到我们的亿万家庭。因为今天,没有屏幕了,我们离设备又很远,假如还是在PC中的键盘鼠标,还是在手机中的多点触控和语音为辅,解决不了当前万物互联时代的需求。为此过去一年我们做了非常多的创新,请大家看我们现在真实版本的演示。

  有请工作人员我们要演示的具体一个设备,就是我们已经在市面上销售的DingDong音箱。以它为载体,可以听音乐、可以操控家居、还可以帮助我们完成我们想要完成的各种助理的事物。

  好有请我们同事为大家演示。好,大家可以看到,它不光完全这些功能,它还能听懂我是它的主人,所以我说话他优先就响应,也不问你是谁。

  有了我们真正最新的语音和语言技术,它就可以真的像一个聪明的助手,要帮助我们完成我们所需要的各种工作。那么在这里面我们再给大家看一下,其实我们原来的所有交互,可以说我们今天在市场上所看到的所有的助手类的都是单工单轮为主的。单工就是摁一次才能操作,双工是他随时随地在听你你可以随时打断。那么单轮就是上下文,我问一次比如说北京明天天气,然后下面再问你可以问他上海明天天气,而现在我可以问北京明天天气你可以直接说上海的呢,他马上就知道上下文相关,那么这个就是要多轮交互和对话。那么通过我们的基于人工智能全新的交互控制的算法,我们在业界首次真正实现了全双工多轮交互系统。

  在万物互联在新的机器人的交互情况下,如果是单工系统,识别准确率完成只有40%,而做到全双工就可以达到90%。其实我们最近看到了不少由于人工智能的蓬勃发展,在互联网上有很多视频在流传。我想告诉大家今天看到的是第一个真实版的全双工对话,那一些都是有人在后台操控的。那么有人要不在后台编辑,表面上他一定要在手机和近讲,结果在嘈杂下是有人在后台输入,然后输入文字前端回答。甚至我们最近在机器人大会上看到有个美女机器人的视频,其实就是躲在另外一个房间,是另外一个美女在回答问题。但是它的形态,今天机器人的躯干,外形已经很好了,最缺的就是理解和预测思考的大脑。而讯飞我们把这个变成了现实,所以大家才可以看到在深圳高交会,在北京的机器人世界大会上,基本上最有名最有特色的机器人全是科大讯飞的合作伙伴。

  那么我想告诉大家,通过讯飞技术的进步,我们可以看到,在万物互联时代,什么叫做真正的能够实现人机交互?因为你碰不到屏幕了,离你很远,不方便用手和键盘来操控的时候。第一个就是远场降噪,第二个方言识别,第三全双工,随时随地在听,第四个自动纠错,主动纠错,你可以打断它,然后多轮对话,上下文相关。只有这些都具备,我们认为,才是万物互联时代真正的人机语音交互系统。所以今天我可以很自豪的告诉大家,是中国人重新定义了万物互联时代,真正的人机语音交互!

  那么在这个基础上我们又进一步以语音为主把图像把视觉把手写,大家知道我们在输入法中的手写识别也是业界最好的,整个的更多的人工智能的功能集成在一起,推出了业界首个人工智能的用户交互界面:AIUI。

  那么这个AIUI呢,一方面通过统一的交互接口,我们可以让各种各样的人工智能的能力,非常方便的被我们的用户和我们已经有的11万个开发伙伴、未来更多的开发伙伴来使用。统一简洁的交互接口,然后灵活的能力搭配,可以有离线的,可以是在线的也可以是各种各样的类型的人工智能,而且具备很强的服务拓展的功能。未来最新的人工智能成果,都可以放到AIUI的统一界面下。

  我们可以看到我们怎么样能够让这样一个思路能够变成现实?

  有3个关键:

  第一是软硬件一体化,我们的智能家居我们的机器人可以直接采购讯飞的各种类型的麦克风阵列,使它360度使它五到八米之外都可以方便的来操控这个设备,所以首先是软硬件一体化。其次是云和端一体,什么概念呢?有越来越多的家电设备智能家居它不联网,那么能联网我们的能力在后台,如果不能联网或者我们要节约后台运算资源可以直接有端的解决方案。就像我们在输入法中第一次这个提供了业界最好的轻量级的手机的输入法,不需要联网直接说话就可以变成文字。那么第三个是技术服务一体化,通过这个AIUI的界面我们可以给各个开发伙伴各种应用差异化的定制,可以定制不同声音。就像我们定义了林志玲的声音对吧,我们可以订今年又推出郭德纲的声音。

  我在今年两会在中央人民广播电台竟然有个小伙子真实版的故事,因为我们做了林志玲的事情他以为是真的,结果当天买了导航系统回家,到家门口他也没停车继续开了几十公里,就是为了想听志玲姐姐说前方多少米左转右转。那么这是一个真实的故事,大家可以去考证,在央视今年的两会我去做了节目,还有其他的互联网大佬就他们这个里面的,这个一个真实的小帅哥。那么,当然4我们也可以各种语音识别的场景,包括后台的语义定制可以实现技术服务一体化。在这3个基础上我们提供了统一的AIUI的标准,就真正的定义人工智能时代的人机交互的标准,有了这个统一的标准未来在我们平台上的各种各样的设备,各种各样的服务,都是可以互联互通相互分享支持相互去碰撞去学习的。

  这个AIUI呢其实也非常方便,很容易被大家使用。听起来很高大上的概念,用起来就4个简单步骤。第一步,一键获取方案,第二步安装麦克风阵列,第三步,集成我们SDK,然后再申请,如果不需要就通用,也可以申请差异化的定制。有了之后,我们的设备就可以跟人一样。这个就是,大家非常简单的,可以来使用我们的平台。就分这四步,那么这个AIUI呢现在可以支持穿戴式设备,可以支持智能家居,可以支持机器人,可以支持我们各种智能硬件的设备。那么应该说句都具备非常强的普适性和非常方便的调动性,那么AIUI呢,应该是人工智能时代,我们终于有了一个专门针对人工智能和万物互联的人机交互的专门的界面。

  这是我们今天的第一个发布。那么,今天的第二个发布是高效的知识管理。我们刚才说了首先有了人机交互,语音和语言作为入口,我们才可以获得了无穷无尽的知识,那么,但是这些入口之后我们的知识该如何管理?随着无线互联网4G的发展大量的数字音视频录音的材料在网上流行,但是很多时候这些数据在这,可是我们取不到,因为它是非结构化的,因为转写一小时的录音的内容,专业人士我们的媒体记者平均需要7个小时。所以很多录音,假如今天没有我们现场转写,有可能大家在会场会录一段声音,但是回去以后我相信一放可能几个月不会再去看他,因为你重新去检索它实在太困难。那么我们再给大家看一段视频。

  事实上呢,这个中间有几个关键痛点,大家可以看到。对于一个文字工作者或者每一个用户来说,语音转写,工作量太大。回听我们的录音,我们要想去重新提取和学习,没有字音同步,所以没法检索。两小时录音,必须听完才知道我感兴趣的那一段,关于最新人工智能的演示是在第1小时20分钟。没有能够自动帮你做要素提取,因为它全是非结构化的。今天呢我们要通过语音技术,真正的能够解决这些问题,就首先要进行混响降噪,能够把中间的混响,把噪音去掉。我们要解决人和机器交谈准确率比较高,可是人跟人自由交流、闲聊对话、开会讨论、吵架的过程中,各种各样的口音怎么解决?还有怎么样把2万字的内容,变成200字的摘要。看完以后根据兴趣,我再看后面内容。这些就是我们今天的第二个发布,如何进行高效的知识管理。

  那么,首先可以看一下三大技术难题,混响降噪。其实我们有非常多的现在有的音频内容是通过原来的手机或录音笔录下来的,当然包括视频里面的都是单麦克风的。现在慢慢的有些手机有双麦克风,单麦克风阵列的录下来的声音一般来说,语音转写准确率只有多少呢,40%多一点。所以根本没法给你使用,10个字错6个,主要内容可能都没了。那么通过我们最新的单麦克风的这个解混响的技术,那么我们可以把它的准确率提升到87.9%。那么如果说10个字有将近9个字对,基本上我们做检索做摘要做字音同步就已经差不多可以用。那如果用我们专门的多麦克风阵列又可以把它做到90%以上,那么这是一个我们在混响降噪方面的进步。

  那么还有呢?通过我们对口语交谈的文本,在篇章。更大的这个域,不是一个字也不是一个句,而是整个篇章的理解,然后再加上口语化的建模,我们可以对口语化的转写有个很大的提升。再经过我们的文本后处理,对标点预测,内容的顺滑,把不相关的内容去掉,还可以做摘要。这样我们可以看到多场景的转写,演讲已经达到93.2%,就像我今天这样。其实我想在座的很多人,口音都比我标准。比我们喝长江中下游水长大,nl不分卷翘舌不分等等。然后即兴发言接近90%,自由讨论也能将近80%。这样就使得我们真的人类所产生的这么多宝贵的资料,内容不再是垃圾内容,而是可以被结构化被分析被处理。

  那么在这个基础上我们推出了今天的第二个要发布的产品,是一个组合。有手机上的软件,叫我们的录音宝;有专门的硬件,我们的专门的听见录音笔;也有专门提供服务的网站。

  我们的手机录音宝,虽然说推出时间很短,现在已经有了100多万的用户。在这个中间,第一,这个录音宝在手机中录下来的声音,比其他的录音软件要明显的,音质要好。第二,很容易,什么叫容易听?你录完以后,用我们的工具,马上就可以把声音和文字做对应。你去重新去听,重新回去以后去整理,所以就出来了。然后,把他送到我们的互联网平台上,听见网站马上就可以把文字转给你。今天我们开完会,回到家里吃完饭,两三个小时以后文字就给你了。这是我们的录音宝的软件。

  那么还有一个一款神奇的录音笔,这个录音笔首先是音质很好,第二个同样具备了我们刚才讲的手机软件的自动的音字对齐,同时也可以提交服务到我们的网站上。那买这个录音笔的硬件设备的可以获得很多的VIP的网站的服务。

  第三个,就是我们的网站讯飞听见网站。可以做到声文编辑,自动的声音和文字对应的编辑,字音同步索引。然后视频字幕。我们一段视频拍下来,马上可以自动给你产生字幕,可以对应。这个是我们利明部长,我专门邀请他,一定要到现场来给我们指导。因为在中小学,一,有非常多的现在一思一优课,一课一名师。需要把老师上课的内容跟字幕对应,让孩子可以有针对性的去挑选,对应的知识点来听取。然后语音秒转成文字,同时我们可以双屏,一边是原始录音,一边是整理的界面,快速的编辑。然后这个就是我们现在的讯飞听见的网站,这3块组成了我们要发布的,今天的第二个产品。另外我还想告诉大家,因为今天,我们刚刚开场的时候给大家的惊喜这样,我们在全球第一次在这样几千人的会场上大会的我们的演讲,大会的产品发布,可以同步的语音自动转写,然后在大屏上显示。这一套方案,就放在这里已经成型了。如果你在意你的服务的质量,你希望未来大会的报告能够被更多的人当场分享或者事后获取,那么只要你愿意花钱方案就在这里。关于我们的内容服务的第二大创新,有了交互的入口,回来的这么多数据我又有了内容来进行给他快速的整理,当然讯飞听见,这句话我认为非常好,是给声音插上文字的翅膀。因为声音原来是不能看只能听到,现在一小时声音5分钟让你看就可以。

  那么第三个我们智能的推理和学习,我在前面已经给大家报告到了,说科技界人工智能界现在说我们的人工智能认知计算到什么程度,非常重要的一个点就是在高考这个点机器跟人相比。那么我想跟大家说的是高考包括了很多学科,数学物理化学等等历史地理语文英语。那么在这个中间,其实由于现在的神经网络的主要算法是基于数学统计建模的,因此我们的计算机在高考中考上数学物理化学这些相对比较容易。所以在日本的高考机器人在数学和物理的填空题和选择题上已经达到学生的平均水平。最难的是什么?自然语言理解。你要理解题目意思,所以他没法做大的应用题,那么在作文在政治历史题问答中是最难的。而科大讯飞所承担的中国科技部第一个人工智能的重大项目,高考机器人,我们首先就把它放在了最难的自然语言处理方面。

  那么下面我就会告诉大家,我们在这方面有什么成果?而这些成果呢,不仅仅目标是奔着3到5年考大学。更重要的是这些成果今天已经可以为我们的教育,带来巨大的革命。我们可以看一下现在教育的大趋势。在座的很多教育界的领导和专家。我简单看一下,其实现在强调的就是如何以学习者为中心,如何因材施教,如果真的实现个性化?我们都知道老师上课,一个班同学。因为基础教育,义务教育是普惠的。如果要让全班同学70%同学能够听的比较适度的话,一定有10%到20的同学吃不饱,10%到20同学听不懂。没办法兼顾了高端,可能一大半人都听不懂。兼顾了低端,所有人都浪费时间,所以只能普惠。怎么样把老师的能力延伸,人工智能才可以真的做到,对每一个人单独的提供帮助。另外,听说读写能力。伴随着高考改革大家对英语教学一直有很多争论。确实觉得中国孩子学英语花的时间太多,而最后我们的英语口语的表达能力又偏弱。

  其实如果用一个好的机器,营造真正的英语听说读写的环境,可以使我们孩子的英语学习时间,至少减轻一半以上。那要释放掉中国未来多少宝贵的聪明智慧,用在锻炼身体,用在开放他的启发式思维能力。在这两个能力上,我们再看,今天我们能做哪些事?

  那么大趋势上我们看到了还有一个现状也是这样。老师上课,他在讲课过程中讲解到一个知识点之后他不知道同学们是不是掌握了,那么如果继续重复听懂的同学就会很烦,而继续往下讲没听懂的同学又觉得前面一个知识点没掌握,这是老师的痛点。那么甚至今天布置完作业等我明天上课的时候我不知道同学们昨天作业今天早晨交过来他到底完成的怎么样,所以我不知道应该重点讲昨天的讲课中哪几个知识点。只能等到第二天晚上改完后天上午才知道如何再进行复习,所以教学的反馈它是割裂的。

  可能我们大家都是高考走过来的,至少高三这一年80%的训练是无效和重复的。当年我的数学老师就跟我跟我们班同学说,说今天一天如果你们做的所有题目都对了,千万别高兴,因为你这一天白过了,一点进步都没有。我们有多少同学被这样的重复训练耽误了时间,而还有些同学如果他这一题是附加题根本花两天都做不会,他就没必要去学去做,做了打击他信心浪费他时间,应该让他做跳起来够得着的题目。所以这个就是我们今天说课后作业,怎么样给大家更好的帮助。没有这一些,只能是学校一本教辅,家长又找第二本第三本第四本让孩子们整个的课余时间全部被压掉。那么当然口语学习非常重要的是没有课后环境。

  今天用我们的两项关键技术,可以把这个问题得到历史性的突破。第一个关键的问题,就是我们怎么样真的知道每个孩子,在上课的过程中,课后的作业以及每一次考试和训练过程中,他的知识掌握情况?怎么样把数据汇聚上来?汇聚上来以后,怎么样能够自动的评阅,分析出他的知识薄弱环节?这是两个关键的点。这个关键点中,我们再看我们怎么解决的。第一个自动手写识别。在业界大家知道吗?学生像这个涂改这么多的英语或者语文作文,我的字就写得很差。

  我估计机器现在的自动的识别因为我们要让机器分析他的薄弱环节,对知识点进行习得顺序的分析,首先要把它的这些东西数据把汇聚上来。而这种平均学生的作业和考试的手写准确率,行业只有70%平均准确率。只有做到95%以上甚至98%才能试用。那么不光是语文,对于数学理科也是。版面分析相对简单,更重要的是高清晰度的手写体识别。那么今天呢科大讯飞的ocr识别在业界已经独家率先达到实用。这个实用不是我们说的,是经过了专门在中考和高考的毕业会考中,几万份几十万份的试卷,机器跟人的对比中得到的结论。

  那么第二个就是,我们要能够自动的评分。

  数据上来了,机器能不能自动评分?自动评分,就涉及到我刚才讲的自然语言理解。我们可以看到这两个非常重要的数据。

  一个是我们在安徽,今年7月份,在合肥和安庆,两个教育非常发达的地方,做得针对初三学生的,汉语和英语的作文。由老师按照传统方法来打分,然后机器再来改分。机器改分有两条,先自动ocr扫描识别,然后再用我们人工智能再判分。结果出来大家看到,机器评分跟人比,无论是一致性还是准确性上。一致性代表了公平性,准确性代表了精确性。机器都排第一。

  统计数据上,人改完卷子以后由机器再改,两者有差距的,再由人工专家组评议最终结果是80%多,机器比人要准。当然现在,人已经是比较准,能够满足教育的要求。但是机器比人还要更加的公平可信。这个是一个极大的进步。更重要是通过他的评价,我们机器就可以随时随地反馈实现我们的已测数据。智能评测也是这样。在广东高考15分的英语口语,不光是翻译的标准化程度,连学生开放式口语作文,在今年广东高考都是我们机器打分超过了广东最好的口语老师。所以在广东高考,已经由机器代替老师进行口语开放式作文的评分。大家知道,每一分都决定孩子未来。能不能上清华北大科大一分都决定你,那么一定要机器比人准。

  我们是经过了跟各种各样的国际技术比赛,只有我们独家能使用。有了这些技术,我们就能通过自动阅卷,给出孩子分析的薄弱环节。再往下,我们的知识图谱分析一个知识的习得顺序,然后就可以给孩子有针对性的推荐了。比如说我们看中间这个图,如果一个孩子一元二次方程没掌握,或者他可能是二次根式就没掌握,如果你只跟他讲一元二次方程,这个孩子怎么练他都没用,老师怎么讲他还是学不会。要分析出他的前端的二次根式他是没太掌握的,有理数化运算掌握了一点点,那么有理数运算也有点没太熟。要顺藤摸瓜,把他的基础环节给他做出给他不断的培训他才能够不断地往前进。因为知识的学习是有规律的,而这个知识点的习得顺序,可以说以前我们没有看到任何一家公司去做。

  因为讯飞有了真正的能够采集到学生的数据,有了人工智能自动判卷使我们有了基础来做知识图谱和学情的诊断。那么这些技术的出现,就会使我们刚才讲的个性化学习上课的课堂教学的提升真的成为可能。那么下面我们请大家简单看一下我们的具体的技术产品的演示。那么在我们刚才讲到的这些技术突破的技术上,我们今天已经给大家呈现了两个已经具体可用的产品,而且已经在一线的老师和学生的使用中已经取得了初步成效。一个是智学网让学生的学习变得更加智慧。分析诊断,提供一个学习的平台。一个是E听说,就是我们的英语听说的智能教学系统。

  我们分别看一下那么智学网中,首先可以进行自动的分析智能诊断,从过程化的作业或者单元训练或者考试中能够给老师在备课在课中授课中提供非常多的这个依据。同学们如果说大约90%都了解老师上课就不用说了,录一个简单微课让个别学生回家去看。小于30%的正确率大部分人没掌握较重点备课,这是一个简单的示意。

  课中老师每讲完一个知识点,同学们可以通过我们的答题器或者Pad或者手机上传数据,自动分析然后给出来他需不需要,在这个过程中这个知识点再讲一遍,需不需要这个直接讲下一个知识点。等到下课的时候他就知道针对全班同学怎么样布置不同的有针对性的作业。那么孩子回到家也可以自主性的去学习,那么这样的一套方法从理论走到实践我们已经看到。

  现在已经比如说合肥一中我给大家举个例子,这就是提高老师课堂效率的。同样一个老师教数学课,在高二下学期,就是我们刚刚做的验证。因为合肥一中是安徽综合实力最好的学校,它的年级有几十个班级,30多个班级。这个老师带着有个班数学是第12名,用了半学期到了高三,就是全年级第一名。

  我们再看蚌埠二中,今年安徽高考的状元是蚌埠二中的。他在高考成绩还没出来之前,教育部在那边开现场会,他们的校长就说,我用了科大讯飞的智学网,原本一个课堂的习题和训练讲解,45分钟,现在只要15分钟,剩下30分钟来进行启发式拓展性教学。所以我们学生的学习效率大幅提升。不光是在安徽,在深圳中学,在越来越多的城市。现在全国已经有12个省120个城市的,超过3000所学校,在持续的应用深化。我们越来越多的成果,将真的能够推动,我们孩子学得更愉快,花的时间更少,知识掌握的还更加牢固。

  那么另外呢我们E听说——是教孩子学英语的,在广东高考中已经开始用第一个用,在江苏中考也所有的学生都在用。那么可以通过,专家和我们的人工智能系统相互之间的校验和分析给出了专门的训练。然后在训练基础上有针对性的给出学生的口语练习,根据他的兴趣图谱他感兴趣他会学的更快。根据它的因为我们可以推荐各种不同的大片,他的薄弱环节来练习,最终使得学生在趣味性的训练中口语能力得到了提升。那么这个我们可以给大家看一下,目前已经有这么多地方,其实全国已经有几十个省市,开始在试点应用

  。在广东省,就在今年高考前,因为广东英语口语考试是4月份。在广州市天河区一个区的同学,通过我们的平台训练了一个多月,平均成绩提高了将近20%。这个充分看到,新技术手段给大家带来的帮助。那所以我就告诉大家的就是我们新推出的智学网和E听说,可以为我们少年儿童真正的开心成长开心学习和快乐成长提供最好的人工智能技术的保障。那么我们教育部有了非常好的教育改革发展的理念。那么所有家长和孩子都有的期待,但是没有好的技术做支撑,这些理念是很难落到实处的。今天我非常高兴的给我们在座的各位教育部的领导教育口的专家和老师们汇报,今天科大讯飞在这里我觉得又迈出了坚实的一步。

  其实我们在前面的这些分析中,刚刚就已经介绍完了我们今天的三大发布。都是围绕着人工智能认知计算三大最核心的能力:交互,知识的管理,学习和推理。我觉得随着这些技术的进步,我们可以明确做一些判断。第一,在万物互联的浪潮下,以语音为主,以键盘触摸为辅的人机交互时代已经到来。我们在手机上,因为有屏,因为有近讲,可是在未来3到5年,我们周围的90%的设备,将不是手机,而是穿戴式设备、智能家居以及可能是服务机器人。这时候没有屏幕离你很远,不可能触摸它,而语音为主的时代正在到来。今天我们已经做好了准备。那么第二个,人工智能未来一定会像水和电一样无所不在,广泛而深入到影响到我们每一个人生活。我们甚至认为在未来5年之内在这样的会场,一定会有机器人在给大家端茶倒水,否则大家会觉得这样一个发布会实在是太没有科技含量。那么第三,就是以语音和语言为入口的认知革命,将推动人工智能梦想成真,这是一条人工智能走认知计算的必由之路。而非常幸运的是,中国企业和科技界,以科大讯飞为代表,我们在语音和语言技术上,已经做到了全球最领先。

  所以我想在今天的结束之前想还跟大家做一个分享,那么今天呢我们人类正站在了一个全新的起点上。人工智能专家一直在讨论和分析,说人工智能究竟是替代掉我们人类,是将来要主宰这个地球,还是说人工智能是为我们人类服务的。

  我们科大讯飞作为这个产业中最前沿的科技产学研合作的典型代表,我们坚定不移地认为人工智能一定是为人类服务的,是用来延展我们人类的能力的。那么随着我们人类的能力通过万物互联时代的语音和语言交互,使我们的智慧可以在后台进行碰撞进行比对相互启发获得灵感,我们人类的群体智慧会上一个巨大的台阶。

  到那个时候不是奇点临近,不是人类末日的到来,而是人类一个全新时代的开始。因为人类本身就不是出生为了工作的,我们有理由要把我们的更多的宝贵的时间和精力在我们最黄金的工作时间用来思考更伟大的事情,用来探索更幸福更美好的未来。我想科大讯飞就是要跟各位一道来开启用人工智能改变世界的全新的征程。谢谢大家!