为什么“生成式AI”这么火,这些工具太强大了

  

  作者:Lynn Yang

  这是硅发布的第 9 篇专栏文章。

  突然之间,硅谷都在讨论“生成式AI”。

  所谓“生成式AI”是指:用人工智能在几秒钟之内迅速生成图片、视频等创造性内容的能力。

  过去,机器主要被用于人类有关于分析与记忆力方面的认知劳动。但现在,机器开始善于创造美丽与有意义的东西。这让很多人都大吃一惊,比如催生了这场硅谷 AI 生成艺术盛宴的 OpenAI 的 CEO、前 YC 总裁 Sam Altman 就指出:

  “生成式 AI 提醒我们,很难做出有关于人工智能的预测。

  十年前,传统观点认为:人工智能首先会影响体力劳动;然后,是认知劳动;然后,也许有一天它可以做创造性工作。

  现在看起来,它会以相反的顺序进行。”

  也因为此,整个上周日下午,我都在 Midjourney Discord 上与 AI 玩耍。先给大家看一张我家布偶猫的照片。

  

  接着,我在 Midjourney Discord 上输入了一组与猫相关的词语——“我的布偶猫在睡觉”,出来了下面这张图:

  

  我又在 Midjourney 上输入了这样一组词——“我最好的肥胖的和沉默的朋友,我的猫咪”。不过,忘了输入“白色”,结果出来的东西还是有点儿宫崎骏作品里“龙猫与我”的感觉^-^,如下:

  

  这是输入“一只猫咪在手提电脑的左边睡觉,旁边一位女士正在打字”的效果。但是,好像没有女士图片:

  

  这是是输入“下雨天与黄色的光”的效果:

  

  所有这些图,AI 都在几秒钟之内生成。

  给大家介绍几个最近我收集到的超级好玩和具有代表性的生成式AI 公司,这些工具非常强大,有不少是刚刚冒出来的 Idea。让我们一起来看一下:

  使用场景:图像生成

  收费:25 张免费,之后每个月 10 美元

  我的感受是:Midjourney 显然是将 AI 图像往“审美”这一维走的AI生成工具,它生成的图片不是最逼真的,但总是最诗意的,能一把抓住事物的“神”,在所有 AI 画图工具里以最具艺术性著称。

  Midjourney 由前 NASA 研究员 Holtz 在 2021 年创立。Midjourney 目前没有网站,而是全集成到了一个 Discord 频道中,现在约有 300 万会员。

  也就是说,它是一个“社交”的形态。因此有人认为:生成式 AI 等新格式可能会催生出新社交平台,因为新社交平台总以一种新内容格式出现,如阅后即焚Snap、用了滤镜的 Instagram 等等。但我个人,至今没有在 Midjourney 上社交的想法。

  

  我几个美国工程师朋友用这个,因为它是开源 AI 软件,可以集成到自己电脑里免费使用。

  但这也意味着:由 Stability AI 部分支持的 Stable Diffusion 对 AI 采取了更自由放任的立场。

  如 OpenAI 的 Dall-E 2 对 AI 做了限制,像禁止处理带有公众人物姓名的提示(以防止媒体操纵和产生虚假信息)、限制生成暴力/仇恨或成人图像的能力等等;再如 Midjourney 做成社交其实也有这部分考虑,创始人认为:人们在一个社群中会更注意自己的言行。

  但 Stability AI 的创始人、前对冲基金经理 Emad Mostaque 则认为:没有理由限制生成公众人物图像的能力:“我们认为这是一个开放平台,第一修正案保护模仿公众人物的权利。”

  使用场景:室内设计

  收费:个人 5 次免费,之后每月 29 美金;团队每月 299 美金。

  据说刚刚出炉,由 Nomad List 创始人 Pieter Levels 利用开源 AI 软件 Stable Diffusion 创立,可以用 AI 迅速在几秒内生成家具把房间填满。

  根据美媒的报道:有一位旧金山室内设计师发现这个网站后上传了几张客户照片,接着,立刻把 AI 生成的设计图发给了客户。结果,客户大为兴奋,原因是认为在零时间、零成本的情况下就能看到自己办公空间所有设计的可能性,这件事很赞。

  使用场景:营销写作

  收费:1 万字试用版免费,之后每月 24 美元(还有更贵的)。

  上个月,美国创投界的一个好笑事情是:有人爆料自己为超级明星 VC 代写 Twitter内容,一年赚了 20 万美金。而且,他的客户几乎全都是原封不动地把他写的内容发出去,基本没有修改。

  那么 Jasper AI 的出现,将大大节省 VC 们为在影响创始人方面所花的钱。而且实际上任何公司、任何人,都可以使用 Jasper AI 来写内容。

  需要注意的是:Jasper AI 有一点非常不同,它能够生成引人入胜的“长内容”,而不是一般 AI 生成工具生成的“短内容”,甚至有人已经在 Jasper AI 帮助下完成第一部 12 万字长度的小说。Jasper AI 使用的技术是 OpenAI 的 GPT-3。

  使用场景:营销、创意

  收费:每月 2000 字免费,之后每月至少 49 美元(还有更贵的)

  和 Jasper AI 类似,可以完成如博客文章、Instagram 照片配文、广告文案、营销电邮等创造性工作,但是它和 Jasper AI 不一样的地方在于,它甚至还可以帮你写情书、寻找创业点子,以及寻找“疯狂的 YouTube 点子”。

  也有人认为,对于早期创业员工,这个应用作为头脑风暴工具很有用,比如它可以就某个关键问题输出各种不同角度的标题,并供你深入挖掘,可以非常快地帮助早期创业员工实现集思广益。

  使用场景:写作

  收费:受邀免费(目前)

  这个工具内置了 OpenAI 的 GPT-3 ,并在 Google Docs 环境中为你写东西。据说,它创始人 Nathan Baschez 希望能够在 Google Docs 中用 GPT-3,之后,受到启发构建了 Lex。

  目前,还需要邀请才能试用。用户只需要写几个词,然后输入三个加号 (+++),AI 就会接管并猜测你接下来想写的几句话。很多人反馈称:Lex 大大缩短了写作时间。

  使用场景:音视频编辑

  付费:音视频编辑及 3 小时转录免费,付费从每月 12 美金开始。

  这个工具会自动把听众特别讨厌的一些无意义的语气词如“嗯、噢、啊”,从演讲中去除,而且可以让你像编辑文本一样编辑音视频。

  最强大的是,它有让用户“克隆”自己的能力——与 Resemble AI 类似,它可以从用户录音中创建语音模型。然后,如果你说错话并需要纠正部分音频,这时你不需要重新录了,因为你的语音克隆已经准备好。

  使用场景:开发人员想加快流程

  付费:每月 10 美元或每年 100 美元

  2019 年,微软投资 OpenAI 10 亿美金开发 AI 技术。今年夏天,微软得到了回报:GitHub Copilot 发布。

  简单讲,这是一个野心勃勃的 AI 代码编写程序,在 GPT-3 的后代 Codex 上进行训练。

  它可以为使用 Visual Studio Code、Neovim 和 JetBrains IDE 等程序的开发人员推荐下一行代码,还可以将书面命令转换为代码。

  需要注意的是:根据美媒的报道,微软之所以投资 OpenAI,与微软的CEO纳德拉希望在几年之内从 AI 工具中获得更多收入有关。而这一战略的重点,就是把 AI 的能力与微软现有的产品相结合,如 365、Teams、Windows 等等。

  而根据我知道的情况:目前 Salesforce 也正在开发一些涉及企业客户的 AI 工具,如在低代码领域等。

  使用场景:视频生成工具

  付费:3个免费,之后每月 12 美元无限用

  这个网站有非常多粉丝,还被 The Information 选为是年度最有前途的 AI 初创公司。

  它能够快速把照片拼接成视频,可以在几秒钟内平滑地融合帧,帮创作者省下很多时间,并有助于提升艺术感。它也可以轻松替换掉视频背景或是突出显示及删除特定对象。目前,Runway 计划发布“文本到视频”的 AI 编辑功能,这意味着:用户可以输入如“模糊背景”或是“删除对象”之类的内容。

  使用场景:企业生成自己的 AI 代言人

  付费:每月 30 美元

  TikTok 历史上最长的直播主持人持续了 45 天,共有超过 2900 万人滚动观看。但这个直播的女人不是真人,这场直播其实是 AI 视频初创公司 Synthesia 的公关噱头。

  Synthesia 有 70 多个真实演员的数字双胞胎化身,这些演员同意让 Synthesia使用他们的肖像和声音。用户所要做的就是:输入一个脚本,并选择自己的 AI 代言人,据说几分钟之内,就会出现令人震惊的逼真化身。

  包括埃森哲、耐克、谷歌以及亚马逊等公司,已经将 Synthesia的头像用于培训视频和企业沟通等场景。我查了一下 它融资情况:截止目前,包括谷歌的 GV 等机构共向它注资了 6660 万美元。

  (本内容由硅发布独家授权百度发布,任何侵权行为将严肃追究法律责任)

  举报/反馈