aiXcoder郝逸洋:迎接GPT

  智东西(公众号:zhidxcom)编辑 ? | ? GTIC

  智东西 4 月 14 日报道,在刚刚落幕的 GTIC 2023 中国 AIGC 创新峰会上,aiXcoder(硅心科技)CTO 郝逸洋带来了主题为《大型语言模型(LLM)时代下的代码生成》的主题演讲。

  他谈道,GPT-4 带来了代码生成的新变革,支持更长序列、更多指令号微调、多模态(图片输入)等操作,展现出更适于泛用的效果,同时也面临不少问题,包括缺乏相关文件、依赖库及需求文档,以及速度较慢、信息安全威胁等。

  实际上,程序生成模型与语言模型有较大区别,比如在交互方式方面,普通的对话语言模型以问答、续写为主,程序生成模型则需要填空、补全、备份。

  郝逸洋称,未来,aiXcoder 将促进模型从百亿级扩展到千亿级,加入大量自然语言处理 + 代码的混合数据,针对编程中的各类场景专门构造指令数据集,从而得到综合性能更好的代码编辑工具。

  据悉,aiXcoder(硅心科技)是一家 AI 虚拟编程机器人研发商,旗下有 "aiXcoder 智能编程机器人 ",基于深度学习模型,并针对不同的专业领域和编程语言,能够自动预测程序员的编程意图,向用户推荐即将书写的下一段代码,进而提升代码的编写效率。

  以下为郝逸洋的演讲实录:

  各位下午好!

  之前的一些环节其实都是在讲一些比较大的、涉及到整个 AI 领域上的一些事情,接下来我讲的内容可能会比较聚焦一些,重点聚焦在代码这个小领域上。但说小也并不小,整个开发的程序员群体其实是非常庞大的,它能产生的市场价值也是非常大的,这就是我们正在做的事情。

  一、LLM 时代的代码生成,GPT-4 利弊并存

  在 ChatGPT 出来之前,世界上就已经有很多的代码生成模型。那什么叫做代码生成?用 AI 的方式来生产代码,帮程序员完成一部分的写代码工作,未来甚至还有可能代替程序员,这就是代码生成。在 ChatGPT 或者说是 GPT-4 出来之前,我们用的办法很简单,就是把代码换到大型的自然语言模型当中,让它来续写代码。

  到 GPT-4 时,已经比之前的 ChatGPT 版本好多了。GPT-4 有 1750 亿的数据,在 GPT-3 的基础之上对 ChatGPT 进行微调,让它学会了对话的能力,又在它的基础上进一步训练。虽然 OpenAI 没有公布出相关的细节,但从结果来看,GPT-4 有了更长序列的理解能力,以及更多的指令微调,还包括对图片的理解能力,这就是我们现在得到的 GPT-4。

  前几天在尝试用 GPT-4 做代码生成以及其他相关任务的试验时,我们给出了一段自然语言描述的需求,又给了它一个没有完成的代码片段,让 ChatGPT 去完成这段代码,它完成的结果非常好。除了最后的结果之外,它还给出了一段解释。

  我们又尝试了一些别的功能,比如代码的错误检测和修复,我给了它一段有问题的代码,我问它,这段代码的错误是什么?它回答了我,告诉我这段代码实际的问题是什么,还告诉我这段代码应该改成什么样,最后还解释了修改之后的版本为什么可以正常运作,这就是用户真正想要得到的结果,它确实可以做到。

  GPT-4 还能完成代码优化,我给了它一小段有缺陷的代码,代码中循环一百万次往一个 relist 里面放东西,我希望它能发现这一百万次其实有点大了,应该要先申请一批内存,而不是不断地去增加循环次数。但出乎意料的是,GPT-4 并没有发现这个问题,反而发现了两个别的问题。GPT-4 把所有的东西都放到一个文件夹里,最后一口气来打印所有的日志,并给出解释以及最后的描述,GPT-4 具备一个完整的能力。

  GPT-4 对片段也有理解能力,我给了它一个很长的代码,问它是什么意思,它就能告诉我是什么意思,对于用户而言这是一种很强的能力。GPT-4 是很泛用的代码功能,它是在 GPT-3 的能力之上训练出来的,为 GPT-3 加入了一些 RHF 让它有更好的对话能力,又在这个基础上训练出了 GPT-4。

  我想 GPT-4 的能力从 GPT-3 而来,我做了一个实验,给了它同样的一段代码,问它这段代码的问题是什么,它的答案前半部分描述了我在做一件什么样的事情,后面却越说越不对劲,它说我收到了以下错误,实际上我没有收到任何错误。为什么 GPT-3 会有这样的行为?GPT-3 的训练模式就是语言模型,这个模型主要就是往后续写。我给它一个问题,它就续写这个问题,虽然它把这个问题更加详细地描述了一遍,但并不是我所希望的东西。

  这种情况有一个很好的办法可以避免掉,当我给它一个引子,给它冒号告诉它接下来要写的答案,让它续写,针对我们的需求构造出一个提示,让模型可以根据我们的提示往后生成内容。这是在 ChatGPT 之前我们使用大语言模型的主要方式,它也能答出这个结果,跟 GPT-4 给的答案是一致的。如果我接下来告诉它,接下来需要修复的问题是什么,需要修复的代码是什么,它应该也可以以同样的方式给出来。

  GPT-4 的强处就体现在这里,是很泛用的能力,可以解决开发中遇到的各种问题。我总结了一下,在用 GPT-4 辅助代码开发的过程中,你只用把你的问题描述一下,丢给 GPT-4,就能用它的结果。Github 前两天发布了 CopilotX,本质上就是在做这件事情,除了刚才 demo 中的四个场景,另外还有两个场景,一个是文档搜索,另一个是 Prompt Quest 描绘的生成,和自然语言相关,主要的功能和我刚才测试的场景差不多。

  二、GPT-4 弱势初显:依赖数据、速度慢、信息安全隐患

  我们用 GPT-4 或者是 CopilotX 去做这个辅助代码开发时,我们兴冲冲地去尝试,但是往往会遇到很多实际的问题,比如如果我们要做一个可以在网页上运行的贪吃蛇程序,要把这个问题描述清楚可能有点难度,一般的程序员还得先想想或是上网查点资料才能写出来,但这个问题对于 GPT-4 来说没有难度。

  真正有难度的是,当我在写一个有业务逻辑的代码的时候,我需要把用户购物车里的商品循环一遍,还要把每个商品的价格取出来求一个和,获得总价来反推回去。

  这个逻辑让一般的程序员理解起来没有问题,但是让 GPT-4 来做这件事就很困难。GPT-4 和我们所理解的购物车不一样,它不知道购物车是什么,我们需要把这个结构告诉它。总价要怎么获取它也不知道,种种因素放在一起导致很难跟 GPT-4 描述清楚这件事情,因此它生成的代码很难用。

  第二个问题是它太慢了。我们把这个问题抛给 GPT-4,补完这段代码的时候,代码需要一分钟来生成,生成完之后还得修改它,需要把它里面购物车的部分改为你那一部分的购物车,需要把它获取的商品价格改为你的商品价格。一分钟的时间你可能早就已经写好这个代码了。

  最后就是信息安全问题。GPT-4 毕竟部署在美国,不受中国政府监管。如果一个公司的很关键的信息、资产、代码等,通过互联网传输到了美国的服务器上来获得结果。那这个事情对于企业来说是否可以接受?哪怕 OpenAI 在国内开了分公司,把模型部署在国内,那么它是否信任国内的部署商也是个问题,中国一层层的网络链接等都是问题。

  另外,当你在手误敲分号键时不小心敲到了 L 键上时,这是 Java 开发上很常见的问题,GPT-4 能在用户反应过来之前把这个错误改好吗?从能力上说它是可以做到这一点的,但是实际效果很差,一是速度太慢,二是很少见到拼写错误以及被拼写错误修改过的数据。

  GPT-4 有一定的泛化能力,由于训练时它是用网上抓取的数据、文件和页面来进行训练,这些内容基本没有拼写错误,因此它也很难理解拼写错误应该怎样去修改。这个问题可以通过人工反馈强化学习的方式来训练它,但是这种训练的效果可能还不如十几万参数的模型来做。这一点 GPT-4 很难做到。

  三、开发综合性代码编辑工具,训练千亿级语言模型

  当我们说到一个代码项目里面的信息非常大时,我们往往指的是它的前后文。项目配置和语言模型有一个天然的区别,它们的交互方式很不一样。从 aiXcoder 产品实际的例子可以看出来,他会对当前光标所在的位置进行补全,会对下面 IDE 的提示做出排序,还会往后做一个填空的操作。这些都是它和语言模型所不一样的地方。

  这里有一个具体的例子,一个看上去很简单的插入任务,已经给出了前后文,需要让它补充中间的东西。

  实际上,在设计这个训练任务的时候,里面有很多小细节需要考虑。最简单的一个方法,也是很多预训练模型的方法,先确定一个长度,假设是 1024,有了这个长度之后,在里面随机挖出一个空,让模型来补全这个空并生成里面的内容。无论怎么生成,它都不会超过当前的长度,这就会导致一个问题,当我们在实际代码中使用这样一个模型的时候,我们发现无论这个空有多长,模型都会努力用最短的代码把前后文连接起来。

  最后,我们设计了一套方案,强制保留前文和下文,并且不限制这个空的长度,最后得到了一个模型。我们一开始期望模型输出能把不存在的值给定义出来并且补充完整,但是它直接把当前的函数结束了并且又新建了一个函数。

  遇到这样的问题我们只能通过改变训练任务来解决,设计训练任务的时候就要考虑到这些情况。

  我举这个例子就是想说,在训练 GPT-3、GPT-3.5、GPT-4 时也要考虑这样的问题。GPT-4 目前的缺陷,第一是在实时性上,它对于代码纠错缺少实时性,只能在代码全部写完后整体纠错;第二就是它的上下文序列有限,看不到项目里面所有的信息。最后一点也是它最致命的问题,整个项目中的信息、配置、文件等和从网页上抓取的文件差异很大,和主动构造的数据相比它表现的还是要差一些。

  aiXcoder 是用 ChatGPT 类似语言模型的方式做代码生成的一套工具,现在已经免费上线使用了。

  我们的下一步就是要汲取 ChatGPT 在代码上的能力,首先是把大模型参数逐步从百亿级增加到千亿级,还要加入更多的自然语言数据来训练它,让它有理解自然语言的能力,最后通过指令微调来针对更多场景,构造一个指令级的数据,解决在代码中的程序依赖问题,最后能得到一个最好的代码全模型,完成代码理解、代码生成、代码修复的综合智能化代码开发。

  谢谢大家!

  以上是郝逸洋演讲内容的完整整理。