一个低调女明星的猛然出现

  

  作者 |?向由

  你听说过一位叫“伽德”的艺人吗?她可能是中国最低调的一位巨星。

  称她为“巨星”,并非夸张。以演员身份出道的她,参演过多部名导大作,因此蜚声国际。

  她还曾出席戛纳影展,在红毯上惊艳亮相。

  

  影视不是她的唯一专长。面容姣好的伽德,从小习练音乐,发行的专辑虽然不多,但是主打精品路线,捧得了不少音乐奖项。

  

  最新的消息是,伽德开始重视国内知名度的打造。

  她即将参演一部大咖云集的古装剧,就在最近,曝出了定妆照。

  

  如此风光的一位中国明星,却在中国少有人知,这是一件非常奇怪的事情。

  其实,这也毫不奇怪。因为以上的内容和图片,都是我用AI工具胡乱编的。

  准确地说,我只是编造了一个虚假的艺人名字。

  接着,ChatGPT 帮我设定了艺人的背景,而“文字生图片”的工具Midjourney,生成了一系列美美的照片。

  

  聪明如你,是否能一眼看出来,这位叫“伽德”(谐音,假的)的艺人,其实并不存在?

  需要说明的是,以上“美照”仅仅是通过简单的文字描述而生成,制作出这样一套女明星的写真,用的时间还不到10分钟。

  同样地,本文以下的配图(除注明外),均为我使用AI工具所创作。

  01

  人类画师“绷”不住了

  在看过这些图片后,无论是否认出了真伪,你大概率都会认可,AI“以假乱真”的能力已经十分强大了。

  输入文字、输出图片,这样的AI绘图工具并不少。但在最近,Midjourney 的热度似乎超过“前网红”Stable Difussion,坐上了该领域的头把交椅。

  原理上,Midjourney和Stable Difussion是一致的,它们都使用了同一个模型:Difussion Model。这个模型的运行机制,令“人类画师”大为光火,频频发出抵制的呼吁。不过,技术原理的介绍,暂时留到下文。

  从效果上看,Midjourney 发布于去年7月,一“出生”就效果不俗。但是,此前版本无法画出真人质感的“照片级画作”,尤其是对人类手部的处理,槽点满满,因此并未出圈。

  到今年3月,第五代版本出现以后,一切变得不同了。

  “一对情侣”率先出圈。社交媒体上,有人通过Midjourney 绘制了一对中国情侣的合影照。画面中,这对情侣坐在天台,栩栩如生,氛围到位。“真假难辨”的这些图片,迅速令Midjourney 一炮而红。

  

  而更让人震撼的是,生成这样的图片,门槛却很低。Midjourney 只需要用户输入几行简单的文字描述。

  在AI生成领域,这样一段“文字描述”称为Prompt(提示)。

  我试图复刻这组走红的照片,对Midjourney 输入Prompt:一对中国情侣,在一个屋顶天台上合影。地点是巴黎。

  配合参数,Midjourney生成了如下图片:

  

  我们可以很轻易地把地址改到别处,如上述Prompt的“巴黎”改为“埃及”。生成图片如下:

  

  能力强,门槛低,因此通过Midjourney ,用户可以将幻想的画面变得“真实”。

  例如,Prompt为“中国上世纪80年代的一个漂亮女孩,20岁左右,她吃着冰淇淋,走在当时的上海外滩。有人物也有周边环境。80年代的风格。”

  图片生成如下:

  

  更多天马行空的想法,对Midjourney都不在话下。

  那就画一幅“天马行空”吧。Prompt为“一匹飞翔的马儿,正在城市上空奔跑。逼真。艺术感。有创造力的。”

  图片如下:

  

  毫无疑问,一些传说中的“名场面”,如今都能够“可视化”了。

  这一切,不再需要聘请专业的画师,仅仅是用户自己就能完成。

  比如说,杜甫在《旅夜书怀》中的"星垂平野阔,月涌大江流",传为千古佳句。我一直好奇,那是一幅怎样的画面?

  把诗句所述交给Midjourney ,它生成了如下的画面:

  

  嗯,“大江”未免小了一点,但“星垂”的意象呈现并不赖。

  一千多年前的杜甫,在那一夜看见的星空,会是这样的璀璨吗?

  此二句杜诗,本身已有了强烈的画面感。如果诗人的描述更委婉,重意境,Midjourney 又能否理解呢?

  我选择了“诗中有画,画中有诗”的唐代诗人王维两句,“行到水穷处,坐看云起时”,要求Midjourney生成一张水墨画。

  图片如下:

  

  02

  AI改变了什么

  满打满算,Midjourney诞生至今,不过9个月时间。AI绘图功能的进化之快,不能不说令人惊叹。

  不只Midjourney ,在当前,Stable Difussion 也是AI绘画届的“顶流”。比较起来,Stable Difussion能够部署在电脑本地或云端,定制和扩展的功能更强大,生成速度也更快,是AI画师和工作室趁手的工具。

  Midjourney虽然在“照片级绘画”中先声夺人,但截至目前,它只能通过Discord软件、输入提示使用,自由度不高,图像风格的连续性也成问题。

  当然,AI绘图毕竟新生不久,它还有大把的时间进化迭代,给人以无限想象的空间。

  

  AI如今站在了风口上,万众瞩目。这就不得不提到ChatGPT,是它彻底点燃了这把火。

  ChatGPT完美演示了AI的潜能与迅猛。它是史上“用户过亿速度最快”的应用。

  烈火烹油的3月,ChatGPT又开大招,将模型更新至GPT 4。对用户而言,这款“对话式机器人”拥有了更长的回复字数,更准确的回复能力,以及,由插件带来的更多可扩展功能。

  值得警惕的是,AI不是玩具,它们已经开始了对现实世界的渗入。

  “假图事件”屡屡刷屏。3月21日,一系列美国前总统特朗普被捕的画面,火爆于社交网络,这些毫无争议的“fake news”(假新闻),令Midjourney受到了批评。后续是,“被捕(arrested)”这个词被平台封了。

  没几天,又有图片传出,一向衣着传统且朴素的教皇方济各,穿着巴黎世家风格的羽绒服出场。这张假图得到2600多万次的转发,骗过了千万双眼睛。

  

  如今,只要会使用AI工具,任何人都可以制造出一张完全不存在的“历史照片”。这些虚假信息驳杂其间,可能会污染人类的知识库。

  例如,我通过Midjourney “重现”日本于1853年的“黑船事件”。图片如下:

  

  当然,AI作为一项技术,无谓好坏。尤其在这方兴未艾的时候,许多人正在挖掘它的潜力,期待将自己从枯燥工作中解脱出来。

  将ChatGPT和Midjourney两个工具,联合起来用,可以完成怎样的任务呢?目前来看,至少做一个儿童绘本是足够了。

  早已有人这样做,方法是,使用ChatGPT生成一个故事,分好段落。接着让Midjourney生成对应的图片,最后排版。据说,有人通过此法制作小说与绘本,拿到电商平台去买,已经赚了不少钱。

  我试着效仿,结合ChatGPT和Midjourney,生成了一个《小王子》续集的绘本。

  

  小王子漂泊在宇宙中,思念着他曾经所爱的玫瑰。他想起了她的芬芳和温暖,想起了和她一起经历的点滴,心中充满了想念和向往。

  

  小王子追寻着他的记忆,穿越了无尽的时间和空间,最终回到了他曾经的星球。他沿着熟悉的路走着,想象着那曾经的画面。

  

  小王子走到玫瑰面前,看着她花瓣上的露珠,轻声道:“我回来了,我的玫瑰。”他感觉自己的心跳在加速,充满了喜悦和期待。

  

  小王子回忆起他们曾经一起经历的点滴,想起了那些美好的时光,也想起了那些难以忘怀的故事。他感觉到玫瑰的存在,是他生命中最珍贵的一部分。

  

  小王子意识到:爱一个人并不是要求她永远完美无缺,而是在她最需要关心和呵护的时候,陪伴她一起成长和进步。他感激着玫瑰教给他的这个道理,同时也感觉到了自己的成长。

  

  小王子向玫瑰发誓:无论发生什么,他都会一直陪在她身边。他会像以前一样爱护她,守护她,直到永远。在这一刻,他深深地感受到,他们之间的爱情,比任何时候都更加深沉和真挚。

  03

  AI的垫脚石

  看过上述“绘本”,画师们的愤怒也就不难理解了。

  Midjourney走红以来,“画师们即将失业”的话题变得火热。AI绘画极低的使用门槛,极快的出图速度,再加上它“24+7”的工作能力,显得“人类画师”“人类设计师”等不堪一击。

  不过,“危机感”不是画师们试图抵抗的全部理由,AI绘画的另一罪状是“抄袭”。

  例如,著名艺术家的绘画风格,被AI工具轻易偷走了。方法非常简单,用户只需在Prompt中,加上该艺术家的名字。

  

  原本属于个人的风格,如今被“批量”地生成,这不仅折磨着创作者,也同样叩问每一个人,我们人类的智慧与创新之地,如果节节败退,人类的价值如何确立?

  而且,艺术家的风格只是“冰山一角”,AI绘图工具“偷走”的远不止这些。

  我们需要了解,Midjourney一类的绘图工具,究竟是如何“画画”的?你可能会认为,它们收到用户的文字描述,首先理解了文字内容,再通过像素合成画面。

  事实并非如此。

  如前文所述,当下最火的AI绘画工具,使用的基础模型都是Difussion Model。这是“文生图”软件常用的四种基本模型之一。

  Difussion Model最核心的一步,在于训练出一个图片生成模型(Generation Model)。它的工作原理是,生成一张全是噪点、人类根本看不懂的图片,将它丢入Denoise模块。模块会计算出图片中的噪声,再去掉这部分噪声,生成一个相对有轮廓的图片。

  如此循环地,将“中间图片”丢入一个个Denoise模块,最终得到一张清晰的图片。

  那么,要训练出一个Generation Model,路径就完全相反了。研发人员先要搜集“图文对”(标注了文字说明的图片),对图片进行一次一次的“加噪声”,直到清晰的图片变得完全看不懂。

  对图片“加噪声”是很容易的,将这条路反过来走通,就是训练Generation Model的路径原理。

  

  显然,我们收集的“图文对”越多,模型就被训练得越强。当前,主流的“图文对”数据集是LAION,它拥有的图文对,达到58.5亿张。

  这个惊人的数字,意味着模型曾经“看过”的内容,多到无法囊括。

  也因此,我们并不奇怪,Midjourney为什么画出特朗普、教皇方济各。这是因为,在它被训练的时候,“吃”了太多的图,没有人比它更熟悉“川普”了。

  我们可以在LAION中,搜索任意关键词,看到它的“知识量”。如下图片,是以拜登为关键词搜索的结果。

  

  与用户那信息量少得可怜的文字描述相比,这庞大的数据集,才是AI绘画工具运作的主力,是最重要的Prompt。哪有人类画师能拥有58.5亿张的“参考作品”呢?

  AI来势凶猛,如何限制它对人类知识的汲取与冲击?这远不只是画师们面对的问题。

  编辑 | 莫奈

  排版 | 郑泽伟

  关注南风窗,查看更多精彩内容