OpenAI 带来 GPT-4,AI 比“做题家”更会考试

  OpenAI 的聊天机器人 ChatGPT 在过去数月间,用近乎于人类的表现在科技圈掀起了一阵人工智能浪潮,大洋两岸的无数人更是为之倾倒。然而就在大家沉迷于 ChatGPT 时,北京时间 3 月 15 日凌晨,OpenAI 方面在预热许久后带来了新一代的多模态大模型 GPT-4,为 ChatGPT 的热潮又添了一把火。

  在 OpenAI 官网公布的 GPT-4 技术文档中,前言部分是这样形容它的," 我们已经创建了 GPT-4,这是 OpenAI 扩大深度学习努力的最新里程碑。GPT-4 是一个多模态大模型(接受图像和文本输入,文本输出),虽然它在许多现实世界的场景中不如人类,但在各种专业和学术基准上表现出人类水平的性能。"

  咋一看,GPT-4 似乎并没有那么强大。相比于上一代的 GPT-3,GPT-4 的升级主要在于识图能力,文字输入的限制则提升至 2.5 万字,回答准确性也显著提高,能够生成歌词、创意文本,并实现风格的变化。只不过在技术文档中,OpenAI 展示了一个无限接近人类的 AI 系统。

  GPT-4 到底有多么智能,OpenAI 为了向外界解释了这个问题,并没有扯太多的专业术语、也没有 " 不服跑个分 ",而是用了绝大多数人都亲身经历过的考试。在被称为 " 美国高考 " 的 SAT 考试中,GPT-4 在满分 1600 分的测试中拿到了 1410 分,而在美国律师资格考试 Uniform Bar Exam 和法学院入学考试 LSAT 中,得分则更是高于 88% 的应试者。

  GPT-4 的做题能力到底有多强呢?在面对一道巴黎综合理工学院的物理题时,GPT-4 按照非常标准的分步解题步骤,拆解了整个问题,最终一步步推导出结果。如果抛开速度的差异,GPT-4 真的就像大学生一样在做试题,实现了类似人类的视觉感知到语义理解,再到逻辑推理的一整套流程。

  如果说 OpenAI 举例的这一系列考试对于国内用户太远,那么 GPT-4 相比于基于 GPT-3.5 的 ChatGPT 还有一个质的飞跃,那就是可以处理图像了,也就是说它能够理解图片的内容。比如说在 OpenAI 方面公布的 DEMO 中,GPT-4 不仅可以解释图片中的笑话、能写出符合格律的诗作,更可以根据草稿纸上的一张草图,仅 10 秒就将草图变成与之相对应的网站。

  不仅如此,GPT-4 还能完成复杂的报税工作,并附带完整的计算过程和条款解释,还有网友用 GPT-4 针对骚扰电话写律师函,甚至用 GPT-4 直接生成一个简单的游戏。

  其中从这里就不难看出 OpenAI 的野心,那就是 GPT-4 不仅仅是一个简单的聊天机器人,而是能在真正的生产力场景中用 AI 为人类赋能。

  用英伟达 AI 科学家 Jim Fan 的说法,"GPT-4 可以全靠自己考进斯坦福了 "。图灵奖得主、" 深度学习之父 "Geoffrey Hinton 也对 GPT-4 赞叹不已,并表示," 毛虫吸取了营养之后,就会化茧为蝶。而人类提取了数十亿个理解的宝藏,GPT-4 就是人类的蝴蝶。"

  尽管 GPT-4 的表现足够惊艳,但它依然没能摆脱 " 满嘴跑火车 " 这一现象。 在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比 ChatGPT 此前使用的 GPT-3.5 高出 40%,但 GPT-4 一样也会出现编造事实的情况,也就是会一本正经的胡说八道,比如给出完全不存在的网址。

  OpenAI 方面对此也毫不避讳,"GPT-4 仍有许多已知的局限性,我们正在努力解决,比如社会偏见、幻觉和对抗性提示。"

  并且值得一提的是,在可控性方面,GPT-4 则有了长足的进步。此前在应用了 ChatGPT 相关技术的新版 Bing 上,出现了在部分情况下会侮辱用户、撒谎等行为,甚至还会故意撒谎、侮辱用户或是情绪化操纵人类,以至于微软方面不得不限制用户每天的对话次数。按照 OpenAI 方面的说法,GPT-4 的训练在去年 8 月、也就是 ChatGPT 上线之前就已经完成,这半年的时间都用来对 AI 模型多个方面特征的控制。

  OpenAI 在技术文档中解释到,GPT-4 在 RLHF(基于人类反馈的强化学习)训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求,来减少有害的输出。并透露," 与 GPT-3.5 相比,它对不允许内容的请求做出回应的可能性低了 82%。"

  至于说 GPT-4 是否会冲击到现有的人类工作,答案是未来或许确实有这种可能性,但现在还不至于会让一部分人失业。毕竟,成本制约了 GPT-4 的发挥。来自 OpenAI 的价目表显示,GPT-4 的 API 价格为 0.02 美元 /1000token(约 750 英文单词或 500 汉字),而已经被用户吐槽很贵的 ChatGPT-turbo 则还要便宜十倍。

  当然,相信绝大多数吃瓜群众最关心的话题,是我们现在能用上 GPT-4 吗?答案是可以的、但有代价,现在 OpenAI 仅向花费 20 美元订阅了 ChatGPT Plus 版本的用户提供 GPT-4。但除了直接给 OpenAI 付钱外,有能力的用户还可以选择打工的方式去 GitHub - openai/evals 参与测试,提交高质量反馈来获得访问权限。

  但如果既不想花钱、又不愿花时间,那么使用微软的新版 Bing 就是最简单的方式了。没错,微软已经发布新版 Bing 就已经就用上了 GPT-4,要不当时微软的说法为什么是 " 基于类 ChatGPT 技术 ",

  【本文图片来自网络】