老时说|大模型技术及其在工业智能的应用(上)

  引言:2023年上半年,Chat GPT的破圈成功,让其一举成为了人工智能大语言模型的“代名词”。360集团创始人周鸿祎认为,Chat GPT有可能成为新时代的操作系统,成为数字化的“发电厂”,接入到千行百业应用场景,它的出现,标志着一场超越互联网的产业革命的到来。

  的确,Chat GPT火爆的背后,其实是一场工业革命级的巨大技术进步。它不仅代表了整个通用人工智能发展的一个起点,更是迅速推动AI进入大规模可复制的产业落地阶段的一大拐点。

  基于老时对大模型发展的研究和思考,近日以视频直播方式与多位行业大咖一同探讨、分享对大模型、AIGC及Chat GPT概念理解、当下基于ChatGPT的热门应用场景以及国内大模型的研究动态,以此展望大模型技术在工业领域未来应用中的多种可能性。

  【下文为分享内容整理】

  一、大模型、AIGC及Chat GPT

  短短的几个月,我们看见大模型、AIGC及Chat GPT等话题呈现爆发性增长,引发了新一轮思考与探索。伴随而来的是大量AI概念,这些概念互相之间既有联系也有区别。

  如上图所示,算力在大模型时代是一个很重要的基座,大模型、AIGC及Chat GPT的每一步发展都是基于一个坚强的算力底座,提供包括云端以及私有化部署的支持。大模型位于中间层,其实不光是有OpenAI的GPT3.5, GPT4、Google的PaLM2、Meta的 LLaMA,还包括了国内厂商纷纷推出的各类大模型基础架构。随着大模型对通用信息理解能力的提升,各行业可以通过垂类数据训练出性能更优的AI模型,打磨更好的应用端产品。

  1、大模型

  大模型通常指的是大语言模型(LLM, Large Language Model), 是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。GPT3、ChatGPT、BERT、T5、文心一言等都是典型的大型语言模型。

  LLM的特点是规模庞大,包含数十、成百、上千亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

  那么,大模型能够提供什么作用呢?

  以LLM的典型代表Open AI的GPT系列模型为例,GPT其实出现了好几代,像GPT3有 45个TB 的训练数据,那么整个维基百科里面的数据只相当于他训练数据的0.6%。我们在这个训练的时候把这个东西称作语料。就语言材料而言,这个语料的量是可以说是集中到我们人类所有语言文明的精华在里面,是一个非常庞大的数据库。

  经过这样一个量的学习之后,出现了让研究AI的计算机学家们没有想到的变化,甚至都无法合理解释这一现象的产生,即当数据量超过某个临界点时,模型实现了显著的性能提升,并出现了小模型中不存在的能力,比如上下文学习(in-context learning)。

  当我们溯源大模型的技术路线,其实是很早之前从神经网络开始,经过多年的发展,问世了如卷积神经网络(CNN)、循环神经网络(RNN)等经典的深度学习算法,直至2017年,Transformer架构的出现成为了后来LLM的基础架构,再次开启了大语言模型快速发展时期。2018年,OpenAI提出生成式预训练模型GPT,从GPT-1到GPT-4,更是开启大模型新纪元。至此,一个大模型技术路线逐步清晰形成,迎来了当下备受瞩目的大模型时代。

  2、AIGC

  AIGC(AI-Generated Content),狭义概念是利用AI自动生成内容的生产方式。广义的AIGC,其实可以看作是像人类一样具备生成创造能力的AI技术,即生成式AI,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据,以及包括开启科学新发现、创造新的价值和意义等。

  结合三个案例,更直观地感受下AIGC的强大魅力。

  AIGC 案例1: Text to Image——Midjourney

  第一个案例是最近热度非常高的 Text to Image。在平面视觉生成领域,AIGC具备生成多样类型图片的能力,包括抽象艺术、建筑风景、人物摄影等,这有助于降低图像内容的生产成本。通过对海量训练数据的学习,AIGC能够生成具有高度相似度的图像作品。目前,市面上的生成工具像大家常提的Midjourney,Midjourney可以根据你的文本输入,“点语成画”,生成任何你想要的图片。比方输入一段关于中国情侣的文字描述,它就会快速帮你去输出一张生成生动、细致的图像。

  AIGC 案例2: Text to Video

  第二个例子就是Text to Video,在视频成为信息主要表达载体的当下,无论是在游戏、短视频、直播,还是影视等领域,AI视频内容生成都将成为AIGC的主要关注方向。目前有非常多的国外厂商在做类似内容。例如虚拟主持人,通过输入一段文本,让其去模拟人类的表情、说话语调,它都会非常自然去进行展示。

  AIGC 案例3: Text to Music

  第三个例子是Text to Music。一月份,Google发布了MusicLM,这是一种新的实验性 AI 工具,可以将文本描述转化为音乐。例如只需输入“晚宴上的深情爵士乐”之类的提示,MusicLM 就会为您创建这首歌的两个版本。你可以把两者都听一遍,并为你更喜欢的曲目颁发奖杯。

  从上述例子中,我们不难发现AIGC作为新的生产力引擎,正在代表着AI技术从感知、理解世界到生成、创造世界的跃迁,快速推动人工智能迎来一个全新时代。

  3、Chat GPT

  ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序,于2022年11月30日发布。作为人工智能技术驱动的自然语言处理工具,ChatGPT能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。从去年年底发布的时候,2个月后月活跃用户数破1亿,成为史上用户数增长最快的消费者应用。

  ChatGPT 是基于 GPT 系列模型的一个聊天机器人,而GPT 模型背后的主要技术是 Transformer 架构和大规模预训练。这种架构和方法让模型能够理解复杂的语言模式和上下文关系,从而生成连贯、准确、甚至富有创造力的文本。

  在 2018 年至 2023 年期间,Open AI 发布了五个主要的 GPT版本,从2018年6月GPT-1,到2019年2月的GPT-2、2020年6月的GPT-3、2022年3月的GPT-3.5以及2023年3月的GPT-4。正所谓“大力出奇迹”,即参数越大,准确性越高。GPT每个版本都有参数数量和训练数据规模的跳跃式增加,每个版本的能力也都比之前版本有飞跃式增强。

  聚焦到今年3月初GPT4的发布,其在参数、性能方面的表现更上一层楼,支持图片、文字等多模态输入,以及文本输出。可接收的文字输入长度增加到3.2万个token(约2.4万单词)。特别是,GPT4支持接受图像输入并清楚理解图像内容。从某种意义上来说,它可以用类似人类的眼光来看待事物,甚至在某些方面,它已经超越了人类的认知范围。如下图所示,在GPT内部的对抗性事实性评估中,GPT4在所有项的准确率均分比均远超前几代。

  二、基于Chat GPT的应用场景

  在大模型的能力加持下,包括以文生图以及虚拟数字人等AIGC类应用将快速进入到商业化阶段,大模型正在让人工智能技术从五年前的“能听会看”,走到今天的“能思考、会创作”,未来有望实现“会推理、能决策”的重大进步。

  下面,主要分享几个当下基于ChatGPT的热门应用场景。

  1、Be My Eyes

  Be My Eyes是一家来自丹麦的初创公司,将盲人或视力低下的人与志愿者联系起来,以帮助他们完成数百项日常生活任务,例如识别产品或在机场导航。使用 GPT的视觉输入功能,该应用程序正在应用程序内开发虚拟志愿者。预计该 AI 志愿者将产生与人类志愿者相同水平的背景和理解。该功能不协助执行任务,但也提供可能在更大范围内帮助用户的情况分析。

  2、Stripe

  Stripe是一个支付机构,为小型和大型企业在互联网上的支付提供支持。一方面,swept在用ChatGDT提高整个生产工作自动化。另一方面,swept利用GPT检索支付客户的站点;形成基于技术文档的AI助手;检测追踪Discord社区的不良账号;未来打算将GPT训练成业务教练,进行基于利润的企业业务战略咨询。

  3、Kinetica

  Kinetica是一家在线分析处理(OLAP)和实时分析的关系数据库提供商。ChatGPT 和 Kinetica 共同消除了数据探索的限制,并释放了组织数据的全部潜力。ChatGPT内置于Kinetica工作台的前端,可以用自然语言回答有关数据库中专有数据集的任何查询。用户可以就他们的专有数据提出任何问题,甚至是以前未知的复杂数据,并在几秒钟内得到答复。比方说你表达需要什么样的一个数据,那它就会自动生成一些查询语句,帮你去实现对数据库的高效查询。

  4、Morgan Stanley

  第四个是Morgan Stanley,借助 OpenAI 的 GPT-4,摩根士丹利正在改变其财富管理人员查找相关信息的方式。该模型将为面向内部的聊天机器人提供支持,让帮助员工从海量的数据中来获取所需的内容,该机器人可以全面搜索财富管理内容,并“有效地释放摩根士丹利财富管理的累积知识。

  5、OpenAI的生态帝国

  当前,越来越多的厂商包括google,都在时刻挑战着Open AI的行业地位。所以,OpenAI其实在悄然建立起自己的 AI 生态帝国,去打造像苹果App store的生态系统。

  一方面,OpenAI联合微软等知名厂商达成战略合作,另一方面,成立OpenAI创业基金,投资很多的初创企业,第三就是提供丰富的插件,正式上线了以安全为核心的 ChatGPT 插件系统。让第三方在其平台上开发更多专业化的应用程序,去实现OpenAI此前无法触达的领域。

  此外,OpenAI构建了一系列内生插件,用以增强ChatGPT的功能和用途,让它能够处理更多的任务和场景,提高用户的满意度和体验。包括文本分类、文本校对、文本生成、语义搜索、问题回答等,例如Web Browsing & Summarization 插件,一方面是不再单纯依赖ChatGPT内部数据,而是依赖于外部的搜索引擎或者知识库,提高了答案的准确性,另一方面,不需要把所有数据全抓取到ChatGPT的数据库里面,即刻帮助用户对指定的网页内容进行摘要。

  同时,Open AI也开发了很多的插件接口,让第三方的公司能够在上面去开发一些应用插件。简单例举两个第三方插件:

  1、Wolfram

  Wolfram 插件通过Wolfram | Alpha和 Wolfram 语言使ChatGPT 能够访问强大的计算、准确的数学、精选知识、实时数据和可视化,从而使它变得更加智能 。

  2、Zapier

  作为一款自动化工具,Zapier ChatGPT 插件是 OpenAI 和 Zapier 之间的协作,它允许用户连接 5,000 多个应用程序(如 Google 表格、Gmail 或 Slack)并直接在 ChatGPT 中与它们交互,也就是说ChatGPT只是作为一个用户界面,可以提问题提要求,剩下的所有自动化的事情都交给Zapier去完成,提高了企业内部文件流转、处理以及对内部知识梳理与利用的效率。

  因此,很多人表示,ChatGPT 插件系统是一个killer APP(杀手级应用),它其实是帮助ChatGPT延展自己能力的一个触手,就相当于内生性升级,以海纳百川的姿态,最终形成庞大的生态。

  最后,分享下当前OPEN AI是如何加强与软件公司的合作模式。在海外,Microsoft、Salesforce、Speak等企业都已经接入了 OpenAI 的功能。

  ■ 与Salesforce的合作:

  Salesforce与OpenAI深度合作,通过将变革性的生成AI技术引入Salesforce CRM,推出"Einstein GPT",客户将能够在每次销售、服务、营销、商务和IT交互中快速生成AI创建的内容。具体来说,Einstein GPT 的功能包括撰写电子邮件、根据过往案例生成知识文章、使用AI聊天助手生成代码、为客服人员提供特定问题的答案,甚至协助开发人员编写代码等等。

  ■ 与Slack的合作:

  Slack是一个即时通讯和协作平台,2020年Salesforce完成了对Slack的收购。从Slack 官网提供的应用解决方案来看,目前ChatGPT 技术至少已在客户服务、销售、项目管理、营销、人力资源管理等众多商业流程上释放了潜力空间,有效帮助Slack 用户将数据分析、内容总结、自动生成文本等重复、琐碎的工作流程实现自动化,从而提高工作效率。

  ■ 与Microsoft的合作:

  微软对人工智能 (AI) 有着宏大的计划,而且越来越明显的是,它相信 ChatGPT以及一般的自然语言技术将发挥重要作用。自宣布向 ChatGPT 聊天机器人的创建者 OpenAI 投资 100 亿英镑以来,微软已经将该技术集成到其 Bing 搜索引擎及Office 365的各种产品中,进一步加速人工智能在产业化层面的落地,旨在开创增强工作、通用人工智能工具和新一代用户界面的时代。

  【结语】

  新技术的诞生激活了新的场景,并在各个环节发挥作用,产生了前所未有的新价值。从AI绘画的出圈,到现如今ChatGPT的火爆,面向大众的爆款产品接口背后,无不是大模型技术的突破创新。

  我们有理由相信大模型带来的更强大的智能能力,能够推动人工智能向更高级智能应用领域迈进。在下一篇分享中,老时将根据多年的实践经验,就国内大模型的研究动态,分享展望大模型技术在工业领域未来应用中的多种可能性,敬请关注!

  举报/反馈