有道的大模型,开始教人练英语口语 | 最前线

  文 | 周鑫雨

  编辑 | 邓咏仪

  一位满分100能考98分的英语教师,你愿意跟着TA学习吗?

  网易有道将这个问题中的“英语教师”,加上了AI的前缀。

  2023年7月26日,网易有道基于自研教育领域大模型“子曰”,推出了6个应用:“LLM翻译”、“虚拟人口语教练”、“AI作文指导”、“语法精讲”、“AI Box”以及“文档问答”。

  去年11月,OpenAI发布的ChatGPT技惊四座,有道CEO周枫对36氪直言有道团队的紧迫感:2022年12月,团队花了一个月思考大模型如何与业务结合;2023年1月的年度战略会上,有道首席科学家段亦涛关于ChatGPT聊了整整40分钟。

  “我们也聊了很多创业团队,包括像智谱、智源、百川智能等公司和机构——大家有一定的共识,就是大模型必须得自己动手做才能理解更深层次的东西。”作为一家应用公司,掌握底层模型的自主权是有道选择自建模型,而非调用第三方模型服务的其中一个主因。而另一个原因在于,当2月有道立下入局大模型的军令状时,市面上还没有能力出色的模型。

  由于落地场景较为垂直,且考虑到控制投入成本,“子曰”20B的参数规模在动辄百亿千亿的大模型赛道中并不算大。至于模型效果,周枫告诉36氪,“子曰”在英语场景下已经能够做到98%的答题准确率。

  

  “子曰”的对话能力演示,该测试网页不会单独开放。图源:有道

  但知识教学是容错率接近于0的领域,98%的准确率意味着50道题中就有1题失分。用户是否能够为“子曰”剩下2%的错误率买单?周枫对36氪表示,人类老师的准确率本来就是波动的,在主观题领域,机器的答题准确率已经超过了人类,“但至于98%是不是足够高,我们还没完全验证”。

  模型技术最为成熟的翻译和语法讲解领域,成为“子曰”落地的主要场景。

  比如接入LLM(大语言模型)后的有道翻译,可以根据上下文语境提供更地道、信达雅的翻译,这一功能将在今年Q3上线;已经登陆有道翻译的AIBox则更像一个懂英语的桌面助手,能够针对鼠标的选取内容进行翻译和文字润色。

  

  LLM翻译演示,图源:有道

  

  AIBox演示,图源:有道

  同样已经上线有道翻译的“文档问答”功能则作为文档翻译的辅助,可以根据用户的提问,基于文档内容给出答案。

  

  文档问答功能演示,图源:有道

  AI作文指导和语法精讲功能,将在今年8月成为有道教学硬件的一部分。有道的学习机和词典笔能够对用户拍摄或者扫描上传的作文等试题进行分析,给出相应的题目讲解和答题建议。

  

  AI作文指导功能上线有道学习机X10,图源:有道

  

  语法精讲功能上线有道词典笔X5,图源:有道

  但作为toC的教育应用厂商,有道自研大模型后,还需要面对高昂的计算推理成本。周枫表示,有道翻译每天都有上亿条翻译需求,团队需要对后台进行更多的优化。关于运营成本,他透露,“以AIBox为例,成本已经优化到了20元/月”。

  有道面临的第二个难题,则是“双减”颁布后,如何进一步吃下中国超百亿元的英语培训市场。团队选择的是将大模型植入虚拟人中,用低价策略提供标准化的口语训练服务。

  此次有道新发布的数字人口语教练Echo,在7月初举办的世界人工智能大会上就已经亮相。背后的支撑技术,除了有道自研的“子曰”大模型,还有网易伏羲大模型提供的虚拟人生成技术。目前,Echo能够识别中式英语、英语、中英混合等语言,并且像口语老师一样不断引导用户用英语交流。

  

  数字人口语教练Echo,图源:作者试用

  数字人口语教练的推出,对以真人教学为主导的教育行业而言,也必将造成冲击——其中也包括有道的英语课程。“老师的教法可能需要改变,在原来的真人教学场景中,老师们是传授学生一套学习的方法,培养学生的学习能力。但Echo出现后老师们的看家本领就被学了。”周枫告诉36氪,“总体而言,AI能够解决教育人力不足的问题,长远来看还是好事。”

  以下是周枫与36氪的部分对话(内容略经编辑):

  36氪:您提到英语场景“子曰”可以做到98%准确率,但用户能在知识教学上接受2%的错误率吗?

  周枫:这是很好的问题。之前美国做了一个教育评估,发现机器做得比人准。什么叫机器做得比人准?核心原因是人本来就不准。

  这就是我们对教育的一个看法,我们觉得教育应该是自上往下的过程,老师是绝对正确的,所以才能教好学生。但事实情况是,老师不是绝对的,本身就会有一个波动。而技术可以做到稳定。

  当然,98%是不是足够高?我们还没有完全印证。目前试用下来大家都是满意的。我们肯定希望能做到100%,目前的98%我们认为已经可以让用户用,其实没有东西100%准确的。

  36氪:AI英语口语教练对有道本来的真人教师精品课程会产生冲击吗?

  周枫:对教英语团队来说会是一个巨大的好消息,当然他们自己可能过一个月才能认识到这一点。其实教育最大的挑战就是因为人力不足。1984年的一篇论文讨论了一个问题:学生的成绩是否是由天赋决定的。最后它用实验数据说明,学生的成绩和花在上面的教学精力有关,所以一对一的教学效果会好很多,教师其实就是帮你解决学习能力的问题。

  以前真人的教法是设计一套方法要求你一定自己练,不练就惩罚你。而现在有了更好的产品,这些所谓的技巧可能要被灭掉,老师没有必要讲这些抽象的东西,学生直接在设备上训练就可以了。所以我觉得老师一开始不一定就认这些新技术,但是我相信很快他们也会接受。

  36氪:市面上开源模型特别多,一个小团队就可以做出翻译软件或者口语训练的应用,您觉得会给有道带来一些压力吗?

  周枫:很有可能,我们现在能做的事情是让我们争取到一点时间,可以早一点把产品推出来。之前我们1月份看的时候,市面上没有成熟模型可用,所以我们被逼着自己训练模型。

  如果说我们做得好,大众喜欢用,对我们的APP端的产品会有一个大的推动。但是我不觉得这个东西做完就可以一劳永逸,生意上没有一劳永逸的事,只有不断创新才行。

  36氪:在互联网时代做产品跟现在大模型AI时代做产品思维有不一样吗?有道对产品团队有怎样的新要求?

  周枫:最直接要求可能每个业务都要看大模型。但是我觉得从方法论,从用户的角度出发,没有变化。大模型是一个非常好的机会和手段,可能这样的东西十年才能出现一次,甚至更长三十年才能出现一次。

  现在丁磊(网易CEO)对所有团队都有要求,我们搞的AIGC大赛是丁磊亲自抓的,他自己做评委主席,我们所有部门头都去做评委,还是搞得挺轰轰烈烈的。可以看到网易游戏最近也在拼命推AIGC,就是人工智能的NPC。所以我觉得所有人都要去思考和推动,其实就是这么一个大的变化。

  欢迎交流!