成像伦理学:你的月亮是 p 的吗?

  最近华为 p30 pro 拍月亮的事情闹得沸沸扬扬,微博、知乎上各种唇枪舌战,好不热闹。我和小伙伴们在一个微信群里来回论战了好几个回合,中间不免有些争执(在此我向误伤的小伙伴们道歉)。而现在回看,我仍然觉得这场讨论非常有价值。有小伙伴戏称,这是「成像伦理学」的开端(小伙伴就是 @李泰宇 )。那么,我斗胆借用这个词来做一回标题党,记录一下我的一些思考、以及与小伙伴们的辩论吧。

  本文写作大纲参考了 @王卓骁 在群里对辩论内容的总结,特此感谢。

  任何技术的革命和换代,都是艰难而阵痛的。老技术的拥趸会鄙视,新技术的萌芽尚未获得足够的支撑,两种观点一定会有激烈的交锋。

  这样的交锋,历史上曾无数次上演。

  在蒸汽机车取代马车的时候,一定有无数的车夫和民众对这个发出巨响的庞然大物感到害怕,一定有无数贬低甚至诋毁蒸汽机车的言论。200 年前的大 V 也许还会说:蒸汽机车啊请等一等你的人民!没有用脚步度量的旅程,是没有心的!

  在数码相机取代胶片相机的时候,一定有无数的老摄影师看不起数码相机,色彩暗淡、宽容度就是个笑话,分辨率低成满眼马赛克……缺点多如麻。20 年前的大 V 也许会说:只有 01 的世界是没有灵魂的!

  现如今,我们正站在一个新的历史变革的舞台上。在计算机技术急速发展的今天,在数码成像技术已经遍地开花的今天,数字图像处理算法,终于可以发挥真实的威力,全面提升画面质量。摄影,已经开始了新的时代;而算法,是这个新时代中,新生的王。

  @玩机小胖 有一篇文章也表达过类似的思想:

  玩机小胖:瞧不起算法?它或许才是摄影的未来历史的车轮无法阻挡,再激烈的争辩也无法阻止历史前进的脚步。我们回过头看当年蒸汽机车与马车的争辩,看当年数码与胶片的争辩,大概只会轻轻一笑。

  对于技术革命,有人这么形容:就像一列向我们驶来的火车,一开始我们听见火车的鸣笛声,以为这列火车离我们很远,可是下一秒,这列火车就从我们身边呼啸而过,永远不会再回头。在技术革命的浪潮中,我们即使不是坐在车头上的司机,也要在火车经过身边的时候,努力爬上车厢成为乘客。

  我先介绍一下,这场技术革命的核心——算法,在这里到底起了什么作用。

  戏说不是胡说,算法处理图像也不是靠瞎猜,而是靠算。我这里形象地、不那么严谨地比喻一下。小华养了一个婴儿,希望他长大之后成为最厉害的「月亮美颜师」,于是从小给他看各种各样的月亮的图片:有的是高清拍摄、纹理丰富,于是告诉小婴儿这是好的图;有的是随手一拍,糊成一团,于是告诉小婴儿这是坏的图。小婴儿逐渐成长,他看了成千上万张图,好的图坏的图,他学到了什么是好的月亮,什么是坏的月亮。这个时候有人拿来一张拍糊了的月亮图片给他请他帮忙修一修,他就按照学到的知识,加强一些纹理,锐化一些细节,把糊的月亮修得像好看的月亮的风格一样。

  这是不是和人类学摄影很像?老师不停给你看摄影大师的作品,告诉你什么是好照片什么是不好的照片,慢慢你就对好照片有感觉了;老师不停给你看伟大画家的画作,告诉你什么是好的构图和色彩,什么是不好的画作,慢慢你就培养起审美来。

  这时候你来到一个公园,走来一位客人请你帮忙拍个照。于是你拿起相机,在按下快门的时候,脑子里回想起伦勃朗的光,于是你请客人调整了角度让阳光斜斜的射过来;你回想起了蒙娜丽莎的微笑,于是请客人勾起嘴角,摆好手臂……终于你按下了快门,拍出了一张非常棒的照片。

  你见识过的素材越多,你的老师教育得越高明,你的摄影水平就越高明,你的审美就越独到,你给客人拍的照片就越好看。

  算法也是一样,喂给了他越多的训练材料,它就越聪明,对图像的增强效果也就越好。

  你拍的照片里,有伦勃朗的光影,有达芬奇的构图,但客人还是客人。你并不是对伦勃朗或者达芬奇的生搬硬套,而是融汇贯通。

  算法也是一样,月亮还是你拍的月亮,增强的细节并不是使用素材进行贴图,也是一种融汇贯通——或者,在机器学习领域里,可以叫学到了一些先验知识。

  在我和小伙伴的讨论中,我有一个观点,就是先验知识在后期处理中所扮演的角色是什么。举个例子,比如有人觉得,华为 p30 pro 拍的月亮细节多了一点,是「无中生有」,所以是造假;但是对于风光摄影师常见的大光比环境下,包围曝光、后期合成 HDR 照片,却觉得不是造假,认为是真实反映人眼所见。

  其实两者本质上是类似的。对于 HDR 图片,因为我们人眼能同时看到高光和阴影的细节,我们先验地觉得 HDR 场景就应该是这样的,于是我们按照先验知识对图片进行了改变,得到一张 HDR 的风景;而对于月亮的细节呢?算法在训练的时候见识了很多月亮的图,它就学会了一个「月亮是长这样的」先验知识,当你给了它一张模糊的图片告诉他是月亮,他就按照先验知识对图片进行了改变,增加一些细节,于是我们看到细节变多了。

  所以,月亮的照片不是「无中生有」,而是根据先验知识,对原图进行加工——而这,正是所有人类摄影师在做的事情。只不过,一个是人类头脑中的先验知识,一个是算法模型中的先验知识。

  类似的,最近的大新闻:人类终于拍到了黑洞的第一张照片。然而如果你去看科学家们发表的论文,了解了这个照片是怎么出来的来龙去脉,就会发现,这简直比无中生有还要无中生有。如果直接把原始数据画出来,基本就是白茫茫一片,什么都没有。科学家是如何从这一片白茫茫中看出黑洞的模样?还是先验知识,科学家使用了不同的先验知识作为引导,算法从白茫茫中的蛛丝马迹取得信息进行计算,配合先验知识的引导,就得到了黑洞的照片。

  即使如此,科学家选用不同的先验知识,取得的照片也是不一样的,在论文中贴出了四组不同的科学家,用四种不同的先验知识来引导不同的算法,得到了四张,在外人眼里看来,「千差万别」的图像:

  人类首张黑洞照片正式发布,有哪些重要意义?这四张照片,谁是真的?谁是假的?其实都是真的,都是基于先验知识,对数据进行加工,从一片白茫茫的原始数据中提取、重构、增强了黑洞的细节。只是他们基于的先验知识(以及算法)不一样。

  我再举一个例子,我们都知道,相机传感器并不是每一个像素都能完整接受 RGB 三原色的,可是我们得到的照片却是每一个像素都有 RGB 的分量,这是怎么做到的呢?在相机的 ISP 处理流水线上,这一步叫 debayer,有人翻译为去马赛克,也有人喜欢通俗化地叫做猜色。

  在每一个像素上,对于缺失的 RGB 分量,就从相邻的其他像素上来计算(比如平均一下,比如线性插值一下)。这也是一种「无中生有」(生出了没有感知到的颜色分量),可是每一个了解 debayer 原理的人都觉得非常理所当然,并没有觉得不妥。包括我与 @刘博洋 的讨论中,博洋兄提到,线性插值是无脑算的典型,debayer 应当视为不依赖先验知识的例子。

  真的没有先验吗?其实不是的。

  我们之所以承认 debayer 这种「无中生有」是有道理的,是因为我们有一个先验知识:颜色在相邻的像素上是差不多的,不会突然变化,所以我用相邻的像素颜色来计算本像素的颜色,是可以的——这并不是显然成立的,这是我们的先验知识。

  在讨论中,有一个问题大家辩论了很长时间:华为把出师表拍出了月亮的细节,是不是说明算法在造假?是不是拿了别的素材贴图的铁证?

  我认为根源还是在先验知识,这里 @Nekit CrB 给出了一个绝妙的例子:

  这个图,对于「不懂汉字的外国人」、「普通中国人」、「熟知杭州地名的中国人」来看,肯定会有不一样的结果。对于不懂汉字的外国人,甚至普通中国人来说,如果我告诉他上面有两个字「桂乎」,他会不会觉得很有道理?甚至拼命把马赛克的明暗方块跟「桂乎」两个字对应起来:你看这里就是那个短横,那里就是一个短撇,你看我勾勒一下,更明显了是吧?

  可惜,这两个字是「临平」——这个时候有人跳出来说,哈哈哈明明是临平你给勾勒出桂乎,你一定是造假,是不是在暗讽某个蓝色狗头网站?——那对于这个做着勾勒工作的人来说是不公平的。

  对算法来说,出师表还是月亮,这是无法分辨的(只给那一张拍糊了的图,即使是人也无法分辨)、并且算法的职责也不是分辨是出师表还是月亮。但是用户选了 AI 模式,并且显示了是月亮(当然这是由另一套算法来分辨),那么算法就开始按照月亮来进行处理了:这里有一点暗影,大概是月海,那里有一点小白点,估计是环形山,我给你弄明显一点……都在按照月亮这个先验知识进行修改,可惜,这个先验知识就错了。

  就像上面举例的黑洞照片,如果你拿出师表的数据作为输入让四个团队的科学家计算,那也一定会出来一些明暗的斑点、环纹的,因为你预设这是黑洞的数据了。但要因此说科学家造假,那未免太不理智了。

  我不禁想起了前两年闹得很火的「绿茶验尿」的新闻。尿检的机器、试剂,都是按照尿液来设计的,你拿绿茶去送检,当然会指标爆炸。

  比如「仪器检测的就是【悬浮固体含量】这项指标,你用茶去测,测出的就是「茶叶残渣含量」;你用尿去测,就是「尿酸晶体含量」。如果你预先告诉机器,你测的是尿,但实际拿的是茶(茶里当然没有尿酸晶体,只有残渣),但报告当然会告诉你是:尿酸晶体超标」就像是用茶去验尿,不仅会验出尿酸超标,还会验出葡萄糖超标。茶水里哪来的葡萄糖?机器测的只是还原性物质而已,你告诉它是茶,报告里就会显示「茶多酚含量xx」,你告诉它是尿,他就会显示「葡萄糖含量xx」(这两个很棒的解说来自 @Nekit CrB )大家觉得华为拍月亮,用算法增强细节是在造假。这引出了又一个很大的问题:摄影的真实性怎么考虑?这个问题太大了,在一篇文章的一个小节中肯定无法展开得详细,只能说一些我思考的碎片。

  很多摄影老法师会觉得直出才是真的摄影,你需要的所有效果,就应该在前期全部搞定。拍风光?用渐变灰滤镜压一压控制光比;拍人像?三四个灯+反光板,好好化个妆,光线、氛围都有了。你要说后期 HDR 啊,什么磨皮啊中性灰啊,人家就觉得都是假的。

  其实啊,直出的片子,就一定真吗?从前面我举的 debayer 的例子来看,当前几乎所有的数码照片,全都是依照某些先验知识对数据进行修改的结果。如果我们认定对数据修改就是造假的话,那么恐怕没有一张照片是不假的了。

  即使是严肃的场合如天文领域,对数字后期也是非常宽容的,天文学家们反而是数字图像处理的急先锋。相信大家看过给哈勃 P 图的新闻也会有所了解。有人会反驳说,这不一样,这些处理手段都是有依据的,是有道理的处理,不是 P 图。

  可是啊,深入想一想,本质上还是利用先验知识对原始数据进行修改,这一点并没有任何区别,凭什么天文学家的先验知识就是真的,算法的先验知识就是假的呢?

  有小伙伴说可以从结果改变幅度来看,哈勃 P 图没改变原图的纹理,华为的月亮改变了原图的纹理。但是,什么样的改变叫改变了纹理,什么样的就不是呢?这个问题可能只能由人来判断,而无法形成一个客观标准。因为,「有意义的纹理」,这是一个高层的、抽象的、语义层面的信息。也许有人会说可以用神经网络模型来学习高层次的语义信息——这又回到原点了,这次整个大辩论的起源之一,正是有人对算法的不信任。

  摄影的真实性边界在哪里?

  很难回答了。如果认为一切修改都不行,那只好承认现在几乎所有摄影师都在造假;如果认为某种程度可行,那这个程度的界限在哪里呢?

  就像忒修斯之船,换了一个钉子、换了一块木板,大家也许还觉得这船没变,可是到最后整条船每一一个零件都换了一遍,没有一个是出发时候的零件了,那这条船还是原来的船吗?

  在这里我无法回答。

  技术革命的高速列车是不会停下的,未来一定是算法为王的时代。尽管如此,列车的轨道还是可以有道岔,列车还是可以驶向不同的方向。

  当眼见不再为事实,「无图无真相」这句话大概要彻底进入历史的垃圾堆了;在不同场合(比如新闻报道、摄影比赛、艺术创作、科学研究)中图片的创作和使用,也一定会建立更为完善的条款和制度。

  在这个全新的时代,我们该走出什么样的路?我不知道细节,但是我自己的行动是明确的:

  作为图像算法工程师,我要坐在前排车厢欣赏这全新时代的绝美风景,我要为这辆高速列车增添新的动力,我要招呼更多的人登上这辆列车;

  作为摄影师,我引用一下好友 @江文韬 的话:

  风光摄影、星野摄影,本来就不是纪实、新闻这种严肃的摄影主题,无论风光也好星野也好,前后期都有一堆增强细节,甚至修改像素来强化主题的技巧。 技术是无罪的,何况这还是大趋势,未来肯定会有越来越多类似的技术出现。 纠结是不是无中生有,还不如把精力搁在摄影本身上,想想咋去拍好一张照片,讲好照片背后的故事深以为然,引以为戒。

  也许,未来真的会成立一门「成像伦理学」的学科呢。

  至于华为 p30 pro 拍了个假月亮?我才不管,还愣着干嘛,买买买啊~

  许多小伙伴在讨论中给出了很有深度的思考,令我受益匪浅,在此一并感谢!(我不知道所有人的知乎账号,先列出我已知的,后面慢慢补充)

  @王卓骁 @Nekit CrB @刘博洋 @丘寒 @朱一静 @江文韬 @Steed @李泰宇

  各位评论区的杠精要笑死我了,花式冷嘲热讽,还说我拿钱洗地的,就这还得了不少赞。这算哪算洗地呀?你看要是换一家苹果三星小米发布这个,我这篇文章是不是还一样写。把里面举例的时候名字换一家就是了。所以啊,好多人真的是不看完文章的,连我这篇文章在讨论什么都不清楚。我这里统一说一声,这种评论我就一律忽略了。