对话女性科学家林咏华:AI终极目标就是取代人类,现在“踩刹车”太早

  

  文 / 腾讯科技 苏扬

  被誉为“深度学习之父”的杰弗里·辛顿75岁了,今年的智源大会闭幕式上,他发出感慨,“我已经老了,未来交给年轻人”。

  他说,“我所希望的是像你们这样年轻有为的研究人员,去想出我们如何能够拥有这些超级智能,使我们的生活变得更好,而不是被它们控制。”

  辛顿的此番感慨流露出两层含义:其一,计算机科学的发展完整的经历了一代人,现在是交接班的时候了;其二;计算机科学的发展是一个漫长的过程,通往服务人类的超级人工智能时代,需要无数的后来者上下求索。

  辛顿之前,包括约翰·科克、佛瑞德·布鲁克斯、道格拉斯·恩格尔巴特在内,大批计算机科学先驱悄然“离场”,辛顿之后,又有杨立昆、约书亚·本吉奥、莎菲·戈德瓦瑟等一批“年轻一代”科学家走向台前。

  其中,以莎菲·戈德瓦瑟为代表的女性科学家,已成为这项前沿科学不可或缺的力量,林咏华就是我所认识的女性科学家中的一位。

  林咏华是智源研究院副院长,兼总工程师,从业超过20年,就职IBM期间力推人工智能系统创新,也是IBM全球杰出工程师。

  

  对于今天“万模大战”,林咏华回想到了上一个被追捧的“AI时代”,她说“今天我们看到的场景,10年前计算机视觉领域就曾经出现过。”

  计算机视觉的创业潮,在2017年进入巅峰,但是在2020年之后进入谷底,而对于这样的潮起潮落,林咏华说,“10年前,资本、创业团队对AI在计算机视觉领域的‘刷榜’过度追捧,但过去10年它的产业落地没有想象得繁华,行业拓宽速度不断放慢。”

  在林咏华看来,今天以大模型为代表的这波创业浪潮,大家要思考的是“如何让它保持上升的走势,而不是潮起后很快走向潮落。”

  过去,林咏华在IBM做小模型的研究,她说2-3天就可以完成一个几百万、甚至是上千万参数模型的训练,但今天动辄百亿、千亿参数的模型规模,试错成本则太高,很难在初期预测2-3个月后的结果,也难以在训练过程中做大幅修正,林咏华把这个形象比喻为“船大难掉头”。

  针对时下最具争议性的“人工智能取代论”,林咏华的看法非常激进,她说“10年前,我们推出的“AI for AI”的平台产品,目的就是替代算法工程师”,林咏华认为蓝领被替代的节奏反而慢于白领,也就是脑力劳动者的岗位更容易被替代。她举例说道,“一个10毫秒可以检测出来的物体,机器手需要几秒钟才能完成抓取,效率远不如人工,属于典型的‘肉体赶不上灵魂’”。

  而对于计算机的未来和年轻人,林咏华则鼓励更多的年轻人强化AI+X的能力,探索AI在各个专业领域可以带来的变革。与此同时,她也呼吁更多女性加入到人工智能的研究当中,“人类智慧的发展,其实就是两性共同构建过程。女性的思考和角度,必然会驱动AI技术发展的更为完整。她说,自己最近一直在思考如今的大模型已经开始有类人类的认知,如何在基础模型的训练过程中,就能把人类的真、善、美注入到AI大模型中,而不是靠训练到最后的价值观对齐?

  以下为文字精华版,在不改变愿意的前提下有删减调整:

  01 AI潮起潮落,10年一个周期

  腾讯科技:林院长,今年生成式AI爆火,业内经常提起“万模大战”这种形象的比喻,它的关注度堪比互联网领域的团购、网约车大战,人工智能也进入了竞争激烈的红海阶段了吗,过去又经历了哪些关键阶段?

  林咏华:ChatGPT出来之后的这半年,让我想起大概十年前,也就是2013年-2015年ImageNet时代,它属于上一个被追捧的“AI时代”,这个阶段,深度学习卷积神经网络推动了计算机视觉的快速发展。

  

  当时ImageNet比赛“ILSVRC” ,每年的比赛结果都大幅度超越前一年的记录,直到2015年,ResNet(残差神经网络)的错误率降低至3.57%,已经低于同类实验中人眼识别5.1%的错误率,当时业界的共识是深度学习为计算机视觉打开了一扇巨大的“机会之窗”,就像今天ChatGPT问世,大家普遍认为可以打开AGI的大门一样。

  编注:ImageNet项目是一个大型视觉数据库,2010年以来,ImageNet项目每年举办一次软件竞赛,即ILSVRC,比赛使用1000个“整理”后的非重叠类别,每个类别1000张图像,参数软件程序比拼正确分类和检测目标及场景。

  也就是在这个阶段,一批AI团队加入到创业大潮当中,备受VC追捧,当时这些团队都纷纷基于ResNet定制修改推出了自己的卷积神经网络,然后去打榜,无论是参与视觉分类的ImageNet比赛,还是参加目标检测的COCO比赛,打榜一旦成功,马上就创业融资,形成了这样一种模式,和今天的大模型创业有点类似。

  2013年依图创立,2014年底商汤完成天使轮,2015年云从创立,今天回过头来看,无论是已上市还是待上市的相关公司,都是在这个时间点创立。

  今天我们看到的“百模大战”的场景,计算机视觉领域10年前就曾经出现过,这波创业浪潮在2017年达到顶峰,根据当时的统计数据,全球获得融资的AI公司达到4000多家,到2020年下降到600-700家,随后创业浪潮进入谷底。拐点则是2022年的下半年,大模型、AIGC开始出现。

  腾讯科技:也就是说,AIGC这波浪潮还处于上升阶段,未来也一样会进入谷底?

  林咏华:过去十年潮起潮落,潜台词是我们要走好未来十年,至于为什么出现潮落,是因为初期无论是资本还是创业团队,对计算机视觉领域“刷榜”的过度追捧,认为计算机视觉无所不能,但真正大范围落地的只有人脸识别、车牌识别、工业缺陷检测这些,而更多的应用,由于准确率或鲁棒性没能达到要求,未得到大范围使用。正是因为它的产业落地没有当初想象的繁华,于是行业开始逐步的收缩。

  所以在新的十年,在这波大模型浪潮里,我们需要吸收上一波浪潮的经验教训,以便于让它一直呈保持上升的走势,而不是很快地出现潮起潮落。

  AIGC这个新浪潮之下,回过头来看,2017年确实是非常值得纪念的一年。

  当年计算机视觉创业浪潮到达波峰,IBM提出了AI三大阶段:Narrow AI、Broad AI、AGI,并在年末推出了人工智能辩手机器人“Project Debater”,当时参与了两场比赛并拿到了欧洲的辩论冠军,这个项目和ChatGPT在很多外在能力的表现上是接近的,例如可以跟人交流,针对用户给出的提问,检索互联网信息形成自己的论点,而在人类辩手反驳时,“Debater”具备理解长篇的反驳观点的能力,再进一步生成辩驳的论点。

  

  IBM对“Project Debater”的定位是Broad AI的雏形。而当时,所有人都认为AGI时代太远,没有人知道人类会在哪一年到达IBM所谓的AI第三个阶段——AGI时代。

  同样还是2017年底,Google发布了知名的《Attention Is All You Need》论文,并提出Transformer架构。

  所以,今天的这波大模型浪潮并不是凭空而来,在2017年,当前计算机视觉浪潮达到波峰时,其实就已经埋下伏笔,差别在于个各家的实现路径不一样, IBM选择的是采用深度学习卷积神经网络,让机器更贴合人的思维去进行复杂的任务,谷歌尝试的则是全新的Transformer架构。

  腾讯科技:为什么中间经历了5年,大家都在做什么?

  林咏华 :2014年-2015年除了计算机视觉在分类任务上超越了人类,这个阶段还有一个非常重要的技术 ,也就是迁移学习(Transfer learning)——它也拥有一个基础模型,可以引入其它领域的数据进行微调训练(Fine Tuning)。李飞飞在2021年年底的LLM那篇文章里面就提到过,10年前计算机视觉领域就出现了迁移学习这项技术。

  所以,计算机视觉领域实际上从2014年开始,就在尝试将“预训练基础模型”+“微调训练”这种新的技术落地到产业当中。

  02 不要重复“造轮子”

  腾讯科技:现阶段大模型,生成式人工智能,给外界的感知主要集中在聊天机器人、图片、音频、视频生成,像微软谷歌也陆续在自己的产品线上规模化接入大模型的能力,还有哪些场景未来用户是可以感知的,又有那些场景用户是无法感知,但却会持续受益的?

  林咏华:你提到的比如聊天机器人,这些都是典型的to C领域应用,我们也在探索大模型在更庞大的to B领域应用。

  关于可感知的部分,例如企业软件,尤其是一些销售、仓储管理相关软件,它们的交互界面非常复杂,需要填大量的表格,但使用的人往往是销售、仓管这些不是长期在计算机屏幕前工作的人群。我相信通过语言大模型,可以让整个人机交互变得更加简单、直接。这些都是用户可以感知的,它可以大大降低一套新软件的上手成本,提高人机交互效率。

  无法感知的部分,还是以B端技术为例。AI领域存在不同架构的芯片,新架构的芯片需要和现有软件及其生态进行适配,通常需要用到复杂的编译器,所以我们也在尝试通过语言、代码模型,通过微调训练,实现从一种语言到另外一种语言的自动生成和转换,降低适配成本,这些都是非常底层的变化,用户无法感知到,而恰恰是这种无法感知的变化,价值确很大。

  腾讯科技:这样全行业的应用,可能会在什么时间点?

  林咏华:有可能是未来2-3年。

  腾讯科技:一个创业项目,也希望接入大模型的能力,都有哪些可能的途径?

  林咏华:除非资金、技术 、算力等实力雄厚,否则不建议上来就做基础大模型的自研,它的投入太大了。我建议从选择第三方的基础模型或开源基础模型,通过行业数据进行微调,成为某种行业应用的大模型。然后通过在行业实践的过程,积累大模型应用的场景、数据和经验,多次迭代从而提升模型能力,并逐步把技术和应用做深。

  腾讯科技:什么情况下必须要去做自研?

  林咏华:无论是GPT4、还是国内像智源“悟道·天鹰”这样的通用大模型,聚焦的还是通用领域,一旦要进入到特定的行业、领域,就要围绕当前的赛道进行自主研发。首先,需要使用垂直领域的专业数据对模型进行训练;其次,需要根据领域的不同,采用差异化的训练方式;此外,还要考虑到下游应用的适配。

  腾讯科技:您提到开源,我知道悟道3.0也已全面开源,张宏江理事长与Sam Altman在QA环节也问了OpenAI的开源计划,开源的目的是什么,什么样的机构适合做开源?开源动作会给创业者带来什么好处,给行业带来什么好处,难点在哪里?

  林咏华:开源与闭源没有对错之分,这由项目实体的性质决定,属于机构自主决策,但还是应该鼓励更多机构去推动大模型开源这件事,假设所有人都去自研通用大模型,需要耗费大量的算力、数据、电力,完全是重复造轮子,不利于社会资源的合理化利用;基础大模型也决定了垂直领域模型应用能力、认知能力以及产品价值观等,这也会对社会产生影响,客观上要求有对应的机构去推动高质量的基础模型开源。

  对于创业者来说,一个靠谱,也就是质量高、安全性好、中英文能力优秀的基础大模型,会大大缩减时间、资金的投入,反之就会增加各种不确定性的风险。

  我们做过统计,现在已经发布的可商用开源语言模型,国外只有16个,像LLaMA这样的模型虽然开源,但是它是非商用的,明确要求基于它做微调的模型不能进行商用,国内已经发布的主流中英双语开源、可商用的基础大模型,到6月初的时候只有智源一家。

  与此同时,虽然市面上有很多开源大模型,但大多数都是基于基础大模型微调出来的对话模型。对于更加基础、重要的基础模型,可选的开源模型十分少。截止到6月初,国外的开源基础模型,只有LLaMA、Palmyra、MPT-7B、Falcon和RedPajama5家,国内在智源之前则只有MOSS和CPM-Bee 2家,而后两者也都不是可商用版本。

  也就是说,现在市面上支持中英文双语,又支持商用,且符合中文用户习惯的高质量基础语言大模型其实是十分欠缺的,这也是智源今年决定把天鹰大模型开源出来的原因。

  腾讯科技:“万模大战”之下,大家的模型五花八门,智源也推出了“天秤”大模型评测体系及开放平台,这对行业来说有什么好处,会不会出现专门针对评测体系进行优化的“作弊”的办法,智源会如何应对?

  林咏华:我们的评测体系分了“练习题”和“考试题”,“练习题”已经开源,以便于外部模型顺利对接评测体系。

  “考试题”则是黑盒子,保存在天秤评测体系当中。“天秤”评测系统要求模型团队上传模型进行评分,避免“考试题”泄露。

  到目前为止,天秤评测体系题库中的题目量有8万多,每一次评测大概会拿2万多题出来,然后定期动态更换“考试题”。

  此外,智源也在不断扩大天秤评测的宽度。目前已经包括了中英文双语、多种主、客观的评测维度,以此规避模型定向优化的问题,如果我们将评测的维度不断拓宽,就算开发者去迎合我们的评测标准,只要做得全面,也是我们希望看到的。

  腾讯科技:我注意到智源有个“模型+评测”双轮驱动的提法,它可以达到什么效果?

  林咏华:“模型+评测”双轮驱动是智源做大模型时提出的一种发展模式,就像设计软件,训练模型之前从多个维度去制定它的能力范畴,后续无论是训练、评测都围绕这个能力范畴去推进,以便于模型训练到一定程度,它的能力维度与评测体系是相符合的。

  举个例子,孙悟空有“72变”,在评测的时候就需要按照“72变”的维度去进行,检测模型哪些能力是欠缺的,以便于在后续的训练过程中及时的对包括超参数、训练数据进行调整,包括对单一维度分值曲线的跟踪。

  简单来说就是评测驱动训练,保证模型的全面发展。

  腾讯科技:这算不算“边走边看”的逻辑?

  林咏华:对,大模型训练亟需工匠精神,需要不断的打磨、精炼。我们在整个过程中,每天都会对至少两个模型的过程版本(Check Point)进行评测。

  03 大模型“船大难掉头”

  腾讯科技:您从之前在IBM做“小模型”,和在智源做“大模型”,最大的不同是什么?

  林咏华:难度不一样,大模型的试错成本太高了。

  小模型的试错成本很低,我们可以不断改变训练数据,可以很快看到结果。一台GPU服务器,上万张图片、甚至是几十万张图片,2-3天就可以完成一个几百万、甚至是上千万参数模型的训练,在这个过程中,我们可以不断的去调整算法、调整数据,以及可以拿到确定的结果。

  大模型完全不一样,参数量飙升,至少要有2-3个月的训练时间,是一件非常有挑战性的事情,它的挑战在于,我们能否在最开始就预估到未来,尤其是两三个月之后的结果,这里涉及到数据的选择、配比,算法的选择,包括分词器、优化器算法的选择,这些项目都要非常的严谨仔细。

  一旦模型开始训练,就好比一艘“万吨巨轮”开始往前走,而船大难掉头,所以我们前面说评测很重要,就好比巨轮在行驶的过程中,如果出现偏航,就及时的进行调整,但即便如此,我们也很难预知模型在训练两个月之后 ,最终它的能力表现如何,很可能会出现持续的训练过程中,发现“航向”不符合预期,这时候就需要做艰难的选择——从头开始,还是从某一个Check Point继续。

  例如说,我们可以用64台服务器训练一个几百亿参数的模型,但很难说利用不同的训练方式,同时启动多组服务器进行多个百亿参数的模型的训练。

  腾讯科技:不能同时进行,是因为成本的问题吗?

  林咏华:成本问题,包括时间成本。

  04 用知识增强对抗AI的幻觉与遗忘

  腾讯科技:尽管说有微调机制去调优,但我们在使用中发现,像ChatGPT、Bard这样的产品,都出现过事实性错误,行业将其称之为“幻觉”,这对大模型来说,是致命的吗?

  林咏华:从模型的通用性角度来看,幻觉问题和今天大模型给我们带来的各种各样新的能力相比,或许不是一个很大的问题。假如,休闲的聊天机器人,即便是错误答案,可能我们也只是一笑了之。但如果幻觉被放到一些对专业要求很高的领域,就可能存在致命的问题。

  换句话说,大模型“幻觉”的致命与否,取决于模型只是作为一个闲聊机器人,还是说应用到医学、法律、甚至是金融等严肃或者一旦出错代价会很高等领域。

  所以对于这些应用场景,我们也建议要结合外部的事实知识库去做知识增强,而不能全部基于大模型早期的训练数据。

  腾讯科技:知识增强是应对“幻觉”的一种解决方案?

  林咏华:知识增强是很重要的方案,但也不能100%杜绝“幻觉”的出现。另外,比起 “幻觉”,大家很少会提及的另外一个,但同样值得关注的概念——“遗忘率”。

  其实我们对大模型进行训练,它很难100%的记住所有的预训练数据,毕竟大模型的训练数据量十分惊人,就像人一样,如果只见过一两次,最后是很难逐字成篇幅的记住。据一些外部机构测试,这个“遗忘率”可能甚至会高达百分之九十以上。当然,如果模型越大,数据重复的次数越高,遗忘率越低。

  知识增强的价值在于,如果模型真的忘了也没有关系,可以通过在线知识库检索,进而形成专业准确的回答。

  腾讯科技:除了“幻觉”,大模型引发的风险也成了高关注的话题,到了需要“踩刹车”的阶段了吗,哪些场景下不得不“踩刹车”,是不是拔网线就可以彻底解决?

  林咏华:从我个人的立场来看,目前的大模型、尤其是国内的大模型还没有那么厉害(需要踩刹车)。虽然繁华,其中还有很多技术的短板。

  大模型虽然目前能力很强,但还需要更多的发展空间,应该继续向前发展,太早的刹车反倒有可能形成泡沫,核心应该是如何规范人类对大模型能力的应用。

  《黑镜》里面有几集专门讲DeepFake,讲篡改摄像头拍摄的画面——主角看着视频监控,监控画面没有人进来,真实的情况实际是有人进来——这项技术的原理并不难,简单说就是Hack进摄像头,去掉画面中的人像,只要时延能控制在100毫秒以内,人眼就无法辨别。

  

  我看到这一段剧情的时候,真的觉得毛骨悚然,因为我知道这个事情在计算机视觉领域是可以做的,这些能力小模型就有,甚至不需要大模型。

  (它让人震撼的地方在于)一旦视频监控真的被人被实时篡改,我们还能相信什么,而且当虚假的信息被混合在真实场景当中时,不是说拔掉网线就可以了解决,你又不能不用监控,对于这种问题,我甚至不知道怎么去踩刹车。

  05 取代人类

  腾讯科技:Sam Altman提及过“可扩展监督”的概念,用AI来监管AI,这个设想现在落地的进展如何,比如说现在陆陆续续会有一些“AI换脸”诈骗的问题,AI可以快速的识别并给用户进行强提醒,以及识别到“AI换脸”行为后的动作进行保护,比如临时冻结“转账”的动作,这样的设想有机会成为现实吗?

  林咏华:人脸技术实际上已经叠加了不同的手段,包括角度、动作、光影、颜色变化,去识别真人还是视频, 我也希望行业能够应用AI技术来对抗这种DeepFake造假。

  大模型是新生事物,现阶段我们未必有足够的能力和这样的潜在风险进行对抗,但如果(破坏力)引起科学、研发的重视,这种风险我相信依旧是有办法解决的。

  腾讯科技:过去大家会认为一些基础性岗位会被替代,用AI管理AI的时代,一些偏高端的岗位会不会也都会被取代?

  林咏华:2014年-2015年开始,我在IBM领导做AI for AI技术,是想替代AI算法工程师,那款AI计算机视觉平台2017年在全球推出,很受欢迎。因为当时熟悉深度学习算法、很有经验的AI研究人员很少。当时的宣传点就是“无需昂贵的AI算法工程师”——它的核心是帮助企业解决高端人才短缺的问题。所以,在当时(10年前)考虑的就是人力的替代。

  ChatGPT出来之后,蓝领还没被替代,白领先被替代了,也就是脑力劳动者更早被替代,这是因为很多人工智能之外的技术,发展速度相对较慢的,比如机器自动化领域。例如,计算机视觉在缺陷检测场景下的难题早就被攻克 ,但是由于机械自动化的“掉队”,一个10毫秒可以检测出来的问题,机械手需要几秒钟才能完成抓取,效率远不如人工,属于典型的“肉体赶不上灵魂”。

  所以我们也要呼吁,包括机械自动化控制、材料领域都要有更快的发展(跟上人工智能的发展节奏)。

  腾讯科技:除了就业岗位取代,情感取代也是一个争议性话题,尤其是像早期一些电影像《Her》、还有现在的一些APP,都在探索情感取代,俗称“AI女友”,我想请您从女性的角度来谈一谈,这种情感的探索是人工智能追求的目标吗,或者说是我们设想的应用场景吗?

  林咏华:(情感)我觉得也是人工智能探索的目标之一。

  NLP(自然语言处理)一直存在情感分析/情感分类的领域,有些现在做的还很好, 它要理解人类语言体现出来的思维和情感,所以理解情感一直是AI领域重要的发展方向,现在的争论点在于,要不要在生成式AI里面附加情感。

  我个人认为在生成式AI领域,附加情感的内容输出对一些特定人群和行业是很有帮助的,比如心理咨询、护工。我母亲就跟我说过,如果真的出现陪护机器人,她会很愿意用,因为找保姆陪护,还得考虑两个人性格合不合。

  不过我们也不能简单化情感,简单将其理解为“喜怒哀乐”,因为人的心智尤为复杂,需要和心理学研究进行交叉融合,所以在我们的模型评测里面,也定义了四个里程碑阶段——文本理解、文本生成、认知能力、人类心智,而人类心智放在了最后一个里程碑。

  腾讯科技:前段时间我们也注意到,已经有创作者利用AI复原已故奶奶的视频,所以从实际的观察,确实发现很多人是有这种情感需求的。

  林咏华:这确实是一个很重要的领域,当然安全防控也是很重要,它决定了AI这个“精神导师”会给你带来阳光,还是带来黑暗。

  腾讯科技:AI情感领域的探索,女性科学家会不会更有优势?

  林咏华:会有一定优势。但我认为还是需要很强的心理学支持,所以我们下一步也会引入一些心理学专家、团队。

  06 人工智能不能没有女性科学家

  腾讯科技:现在越来越多的女性科学家在前沿科技领域成为领军人物,在人工智能领域,女性科学家有哪些独特的优势,而男性是没有的?

  林咏华:人工智能领域有很多东西需要和人的直觉、感官相互融合,女性可能在直觉、感性方面会比男性有更多的观察和思考,这在一定程度上有利于女性去做更多直觉上的判断,然后再用理论去证实。

  今年的智源大会,确实有很多论坛上出现了女性演讲嘉宾,她们的确都很优秀的领军人物。

  腾讯科技:最后,对刚刚经历2023年高考即将步入大学的年轻人,尤其是女生,也请您给一些专业性建议?

  林咏华:未来人工智能的发展可能会很快,可能会颠覆原来我们对热门学科的认知,比如编程,计算机学科,我们要考虑未来10年后,它还会不会是热门的领域、学科。当然,计算机体系、架构这样深度研究学科,从目前计算的角度来看,还是需要不断往前探索的,依旧是需要的。

  腾讯科技:应用层面的学科,可能重要性就会弱很多?

  林咏华:对,纯粹是为了在简历里体现编程,而选择计算机专业,这种可能就不是一个好的选择,因为未来会有很多Copilot这样的产品,能够让编程的门槛变得很低,包括一些模型的微调能力,可能会成为各个专业都应该具备的基本技能,反而是如何将这些技能应用到专业领域,比如材料学,利用AI探索新材料就是一个全新的命题。

  所以,不是每个人都需要挤到计算机领域里来,除非你有很宏大的理想,比如超越冯诺依曼,突破现有的计算机体系结构。

  对于年轻人,如果未来希望从事科研方向、技术方向,应该强化动手能力,保持读论文写文章的能力,这两项能够保持多久就保持多久,对未来的发展和职业生涯都会起到重要的作用。

  对于女性同学,我想表达的是,人类智慧的发展,其实就是两性共同构建的过程,人工智能发展如果没有女性科学家,是一件非常可怕的事情,希望更多的女性加入到这个行列。