如何评价2022年?
2022发生了太多的事情,一路走来仿佛梦一场,不禁让人唏嘘感叹
各位大佬都从不同角度说了。作为科技写作者,我就提供一个科技的视角吧。
1、这一年的科技看似没什么突飞猛进的进展。可控核聚变遥遥无期,人类还是没重返月球。5G、芯片被鹰酱打压,像T-800一样能打的机器人还是没造出来。
2、但如果拿起放大镜仔细查看,就在我们身边,AI正在润物细无声地进入我们的生命:可能是把纸上的文字扫描成电子版,可能是把淘宝上的商品扫描成3D模型,也可能是你说一句话AI帮你画成精美的画。
3、别小瞧这些身边的AI,它对于兔子的今天和未来都至关重要,这些日常的AI正在成为自动驾驶的底层技术,成为数字人和元宇宙的根基,拥有了最好的民用AI,我们才有了和全世界协作的底气。
我把这一年的思考写成了一篇文章,分享在这里,希望对大家有帮助呀~
文|史中
1984年,是乔治·奥威尔《1984》中描绘的异色未来降临的日子,但世界并未变成他笔下的样子。1984年,苏联决心抵制洛杉矶奥运会,而中国没有。萨马兰奇把第一枚金牌戴在许海峰颈上。
1984年,春晚总导演黄一鹤在直播前半个小时,决定赌上自己的职业生涯,让那个没有宏大叙事但真的很好笑的小品《吃面条》和全国观众见面。
1984年,倒玉米的王石建立了万科,研究员柳传志在传达室里创立了联想,初中生马化腾随父母从海南岛搬到了小城深圳,马云勉强拿到了杭州师范学院的录取通知书。
联想的第一间办公室1984年,比尔·盖茨首次登上时代周刊封面;乔布斯的苹果祭出“麦金塔”。在超级碗的中场广告里,一个女子用铁锤击碎了屏幕上的“Big Brother”,低沉的画外音缓缓道来:“你将明白,为什么1984不会成为1984。”
彼时世界的琴弦经过半个多世纪的嘈杂离析,终于奏响了久违的共鸣,而英雄们则翻过历史的山脊,用肉身为略显荒凉的土地写下商业童话。当我们穿越时空站在今天,世界比四十年前多出亿万色彩,宛如幻境。如果有人愿意为此感恩什么的话,我建议他无需费力追忆“垮掉的一代”和“嬉皮士”们的狗屁理想,而仅仅是向吊在每个人面前的“消费主义胡萝卜”抛一个媚眼。冷战冰雪消融后开始狂奔的消费主义世界,如今已成巨人,须仰视才见。只是在2022,它的脚步开始踉跄。(一)巨人的踉跄2022年11月12日早晨,睡眼惺忪的人们从枕边摸起手机,发现信息流里少了一个熟悉的朋友:“双11”成交额。这个信息被各大电商同时隐匿的行为本身,反而传递出更重要的信息:消费主义的胡萝卜纵有千般菩萨柔情,唯有一招金刚怒目——它帮每个人把欲望的电门踩到极限,然后拆掉刹车。作为一个中国人,咱们肉身就住在世界工厂里,不难发现一个事实:生产力已经满负荷地跑了好几十年,流水线上刺鼻的塑料黄鸭已经变成了精美的手机、电脑。但问题是,纵然科技的法力精进如八百里加急快马,仍旧没能让我们心满意足。人们噘着嘴抱怨:你承诺了我们星际旅行,凭什么连元宇宙这样的破烂都还没搞出来!大概因为我们天生刻薄。作为狩猎部族的后裔,需要适应多变的环境,人的大脑里天然有一个调整阈值的开关——只要周遭环境稳定一段时间,无论比过去是变好还是变坏,我们都会把这个位置重新设为“标准值”。当你的小学同学都在开着豪车住着大房子,你毕竟没办法说服自己:“看啊,现在的我可比乾隆年间的人们幸福多了,还有啥可抱怨呢?”于是,生产力的进步是一根挂满了机器齿轮的沉甸甸的蓝线,而人脑海里的需求增长却是一根轻飘飘的红线,这是一场注定不公平的赛跑。
每当蓝线落后于红线,我们消费世界的巨人就会踉跄一次。2022,即是如此。注意,并不是说人类此刻绝对无法生产更好的东西。只是把商品的精密程度“大规模提升”所需要付出的“能量增量”非常多,已经变得不划算。举两个例子吧:1、现在的人类能登月吗?当然可以——中美都在计划代表人类重返月球——只要纠集顶尖的科学家,再加上千亿经费,分分钟送你上月球。可是对不起,那种“上船睡觉下船撒尿”的登月老年团,不可以。这是上世纪60年代登月时美国家庭的“宇航员” Cosplay
2、现在的人类能造出观感逼真身临其境的 AR 眼镜么?当然可以,只不过高能耗、高重量、高体积、高价格,你必须得选几样承受。能从生产线上喷射出来的那种跟手机一样轻薄惊艳的 AR 眼镜,不存在。世界上最早的 AR 眼镜“达摩克利斯之剑”
如今的局面就好像:我们每个人都身处一个摆满了面条、米饭、大饼和馒头的自助餐厅,服务生热情地招待:请随意选用。但。。。老子想吃的是龙虾呀。。。那。。。我们就不能做点什么吗?(二)白衣骑士来了,带着“雷”人类上一次决定做点什么,大概是在2008年。那时候,生产和消费的实际冲突还远没有如今激烈,但华尔街这群西装赌徒还是成功利用“杠杆”把炸弹引爆了。“雷曼兄弟”公司的1957和2008
美国人口袋里的钱强撸灰飞烟灭,眼看啥也买不起了,鹰酱决定“自己动手,丰衣足食”——印出美钞,往人们口袋里一塞,跟他们说:去,找兔子买东西!兔子一看有人排队来送钱,也顺势借给工厂几万亿——咱们再上几套流水线,冲就完事儿了。这东西半球同时大水一冲,只有一半灌进了实体经济,还有一半灌进了金融领域(在美国是股票,在中国是房产)。但仅仅是灌进去的一半,也足够搀扶世界又苟了十年。
十年其实相当不短。之所以能做到,是因为科技在这里又大发慈悲,附赠给我们两位白衣骑士:第一位白衣骑士是“移动互联网”。随着 iPhone 和安卓系统的发布,移动互联网借着“4G”的风暴席卷全世界,按照胡佛“家家锅里有只鸡”的操作,给每个人的口袋里塞了一部手机,又把原本在线下进行的各种生意攒一攒,塞进了方块大小的App里。但移动互联网带来进步的同时,也附赠了很多棘手的新问题。2013年,脱口秀演员路易C.K.从口袋里掏出一个 iPhone,对围成一圈的美国观众说:你能用上这玩意,是因为造它的工人在跳楼。可别说你没得选哦!你完全可以用蜡烛照明、骑马送信,但你还是毫无鸭力地选择让别人去受罪,只是为了自己拉屎的时候能在油管上发布一条SB的评论!唔,他恐怕说出了上帝创造移动互联网时顺手埋下的雷:“SB的评论”在昭示出平等精神的同时,副作用就是让社会更加撕裂。2016川总登台,推特治国时代尤甚。。。By Kenneth Fowler
说回我们这边,2016也不太好。那一年,资本热潮褪去,中关村扫码一条街落满黄叶,上门洗脚、上门按摩、上门理发等等不靠谱的创业公司成批倒闭。眼看移动互联网要熄火的时候,阿法狗冲上战场,接连虐掉了人间翘楚李世石和柯洁。第二位白衣骑士——AI——以终结者的模样粉末登场,为移动互联网无缝续命。可这里上帝偏偏又埋了个雷:AI 好是好,只是非常烧(钱)。怎么个烧钱法呢?我们拿金字塔打个比方,金字塔尖不能是空中楼阁,需要百倍砖石的基座支撑;而基座要想存在,又需要千万工人日夜劳作才能建成。同样道理,AI 就像是金字塔尖,下面支撑它的就是轰鸣的基石——“大数据系统”,而支撑大数据系统的,是如波涛浩瀚的“算力劳工”——云计算。
此等烧钱。君不见,没过几年,AI 的玩家俱乐部里,创业公司的身影几乎消失殆尽,无论是美国还是中国,拳台上都只剩下几个巨头的身影。高处不胜寒,寡头招铁拳。此乃后话。有件事值得在这里提一下:2017年,中科院院士、计算机泰斗张钹语出惊人:“很多人说人工智能的春天到了,但恐怕现在正是人工智能的秋天。”所谓秋天,就是收获的季节,有很多金灿灿的果实可以摘,但也仅此而已——凛冬将至。(当时和张钹院士想法类似的大咖不在少数。但。。。除了今朝有酒今朝醉,我等凡人还能怎么办呢?)所谓“今朝的酒”,就是人工智能领域里一片“低垂的果实”——搜索、推荐、广告+AI。
互联网的经典商业模式是广告,搜索和推荐都可以为广告服务,所以三者可以合称为“搜推广”。而冶炼 AI 最需要消耗“数据”,互联网上的用户数据像石油一样丰富,恰好是“搜推广AI”的最佳“食材”。(参考《14亿人的生活琐事,正在变成永不枯竭的石油》)不妨打个比方:没有AI加持的时代,“搜推广”也存在,但就像个近视眼,给用户推荐的广告总没办法很精准;有了AI,像原地捡了一个8倍镜,百步穿杨不在话下——广告收入立刻翻番。啪地一声!很快啊!到了2018年,人工智能最低垂的果实已经被几大巨头瓜分殆尽:淘宝的“首页猜你喜欢”会根据你的标签投喂商品,微信朋友圈的广告可以为每个人量身定制;百度生态位的继任者字节跳动更是把这一套玩到了登峰造极,创造了“今日头条”和“抖音”双雄。在这一轮抢到最多果实乃至惊动白宫的张一鸣谦逊地表示:“我们呀,只做了一点微不足道的工作,就是把人工智能和内容推荐相结合~”风卷残云之后,大家不约而同抬头,流着口水开始仰望“高处的果实”。就在此时,脚下的大地出现裂痕。
(三)四场意外2018年9月30日,腾讯宣布“930变革”,整装进入“产业互联网”;两周后,华为宣布 All in AI,祭出了产业级 AI 芯片“昇腾”系列;又一个多月后,阿里成立“云智能事业群”,把人工智能的刺刀整合在云计算的枪头。巨头们整齐划一地冲过“低垂果实”和“高处果实”的分水岭。(可以参考《阿里云的这群疯子》、《壮年腾讯》、《有一种任性叫华为》、《有关未来十年的预言》)没错,帮助传统企业进行“数智化改造”,就是高处的果实。
故事讲到这,看似雄心壮志,一派红火,但我劝你永远别对人类盲目乐观:这不,蓝星上鹰酱开始对兔子不爽,总觉得兔子想要偷偷做题,一鸣惊人考第一,对兔子各种“校园暴力”,还把兔子家最刚的华为直接放倒。此时,博弈论的经典场景出现了:兔子不管是不是真的想考第一,都必须奔着考第一去了。。。可要想考第一,凭当时制造业“刷人头”的古典玩法是不行的,必须把科技的力量像揉面团一样揉进去。于是,国际形势和互联网公司摘取“高处果实”的技术趋势合二为一。如果做好,名利双收,简直是太划算的生意,互联网公司更是三步并作两步了。可情况一紧迫,动作就容易变形。换个角度看,他们太“卷”了,卷到明知道摘取高处果实必须“磨刀不误砍柴工”——但谁都不敢花时间磨刀,生怕一抬头柴都被别人砍完了。。。。这群人都举着钝刀向前冲——有柴没柴先砍三刀。比如,阿里巴巴雄心壮志,想要给每个城市都安装“城市大脑”,统一管理交通和各类事件;想要给工厂里的每一台机器都安装 IoT 传感器,从此告别“老师傅”半生积累的经验之谈,由“工业大脑”参考数据统一指挥(《阿里巴巴为什么进军IoT》)。阿里巴巴的城市大脑
比如,腾讯冲进医疗和教育领域,想要让人工智能成为看一眼病人胸片就能判断病症的神医,想让每一个学生旁边都坐一个人工智能老师贴身个性化辅导。(《AI医疗,腾讯的新版图》)
这是腾讯发布癌症早筛的 AI 技术,马化腾转发朋友圈可是一番冲锋后定眼儿一看:由于互联网大厂对传统行业过于陌生,只有云计算、数据库这些“算力劳工”和“金字塔座”勉强渗透进了一些,但更高级的“基于AI统一调度”的数智化行业解决方案,大都水土不服,折戟沉沙。情况就像这样:工人爷爷很务实
总之,在互联网世界呼风唤雨的巨人,没能一鼓作气搬动实体经济的大山。吴晓波老师的经典风凉话放在此处别有滋味:梦太大,入错行。此乃第一个意外。为了拨转马头再战三百回合,互联网巨头们只有铤而走险——在自己熟悉的“低垂果实”领域加大“握力”——用“搜推广”多捏一把油水,反身投入“高处果实”的战场。可是这一捏,把很多人捏疼了:大哥你可着一只羊“薅羊毛”就算了,不能薅成葛优吧?!2020,一篇《外卖骑手,困在系统里》吹响了普通人反击的号角,对算法的口诛笔伐接踵而至,监管也不愿见到数字平台与自己争夺调控市场的权力,于是伸手拦着:哥们,差不多得了!巨头们方寸大乱,连续动作变形,低头一看,万千之众一夜消散,脚下已是深渊。此乃第二个意外。想想那个场景:昨天还高擎科技信念之灯的巨头,今天却被人发现华美的罩袍下爬满虱子。凛冬真的来了。人们的耐心耗尽,AI 的故事光芒蒙尘。那一年,巨头们花费九牛二虎之力从全球顶尖高校笼络来的 AI 科学家几乎离职殆尽。于是,代表“生产”的那根蓝线几经挣扎,终于接受“无奈走平”的现实,而代表人们欲念的红线却“商女不知亡国恨,隔江犹唱后庭花”,一场冲撞难免发生。
人们迷茫地站在原地。这次,新的“白衣骑士”还会不会来?额。。。那种白衣骑士没等来,来了这种白衣骑士。。。
新冠纪元,全球经济来了个速冻,石油价格前面居然带了个“负号”,各国股市应声而跌。此乃第三个意外。鹰酱倒是沉着:别慌,这局面2008年咱见过!二营长,把老子的印钞机搬过来。小弟们,你们也准备好印钱!然鹅,戏剧性的场面出现了——兔子斜眼看着,老哥这次你们冲吧,我去年吃西瓜嘴里卡了根鱼刺,先歇会儿。。。鹰酱说:“你TM搞我?”兔子说:“你先搞我的。”鹰酱说:“信不信我不跟你玩了?”兔子说:“有辙你想去!”此乃第四个意外。
没有兔子开足马力的生产线,鹰酱印的钱,多少有点没处买东西的意思。东西不够,钱又太多,只好往投资市场跑,楼市股市全部充血一轮,高挑半空,连华尔街的西装赌徒们也怕它随时蚌埠住,不太敢买了。那对不起,只剩一个选项了——通货膨胀。。。鹰酱只能赶紧“剧本倒放”,骂骂咧咧地把刚印的钱收回来。但地球是一粒沙,赌气对谁都不好。伤敌一千,中国工业也自损八百。满眼所见,东南亚和南亚人口大国趁机用便宜的劳动力争夺订单,而中国企业盈利预期不好,也就没有那么强的动力进行产业升级了。
大家迷茫不要紧,国家挺身而出指明方向,强力祭出七样“新基建”:5G基站建设、特高压、城际高铁和城市轨交、新能源汽车充电桩、大数据中心、人工智能、工业互联网。这背后传递了一个隐秘信号——“攻击强但血条短”的输出型民企如果刚不动,我们就上“攻击弱一点但血条足”的肉盾型国企,自古华山一条路,哪怕这种投入需要十年八年才收效,我们也必须刚下来。这里我多解释两句,七个新基建看上去五花八门,其实可以分为两类:“电”和“智”。5G、大数据、人工智能、工业互联网这四个,都属于“智”。怎么理解呢?5G和工业互联网可以提高数据传输的速度、规模和稳定性;大数据可以提高数据存储、处理的效率;这些数据最终都必须用于决策——显然人脑无法处理这些海量数据,只能靠人工智能决策。也就是说,搞来搞去这些数据技术还要最终依赖(广义的)人工智能体现价值。好了,说到这,我们就顺理成章得出两个结论:1、目之所及,能为人类生产力续命的仍然是“人工智能”,大时代终究不会爽约;2、但四场意外冰封了历史,大大拖慢了大时代来临的步伐。聚焦回2022年,我们就处在这个“虽到但迟”的巨大真空中。放在大历史中,这恐怕是一闪而过的瞬间,但放在当下,这就是一种不能被忽视的处境。对于普通人来说,这一年的真空都可以换算成生命里具体的迷茫。君不见,2022,想“抄底”大干一场的饭店老板枯坐屋中;想谈一场轰轰烈烈恋爱的大学生缩在宿舍用纸壳箱做狗;那些曾高谈阔论诗和远方的人,开始关心粮食和蔬菜。
你我都知道,穿过幽暗的谷底就会看到柳暗花明。只是,眼前具体的黑暗让人两腿发软。难道人们就要靠着对远方的“信念”摸黑行军了吗?当然不是,从来没有一碗鸡汤可以温暖万里苦旅。穿越黑暗峡谷的时候,最好不是45度仰望虚无缥缈的星辰,而是低头看清楚脚下的路。这个显而易见的道理,我们却在相当长时间里选择了集体无视。只有在宏大叙事的酒醒时分,才有越来越多的人看清“杨柳岸晓风残月”——AI不止能照耀恢弘的大时代,也能照亮脚下的小时代。下面,我们不妨松一松已经捏到发抖的拳头,来看看周遭的“小物件”。(四)重构一些小物件什么是小物件呢?比如一张纸,不是白纸,是一张写满字的纸。
讲个具体的故事吧:在2022年,我和夸克 App 的小伙伴们聊了一次,发现他们在做一个非常不起眼的“小”工具——扫描王。随便拿来一张纸,无论是打印的文件,还是制式的发票,无论是手写的账目,还是排版复杂的海报,扫描王都可以分毫不爽地把其中的信息提取为“数字形态”。所谓数字形态包括:图片、文字、带排版格式的文字,还有图文混排。
这个故事我在《一场手机镜头背后的狂野冒险》中详细讲过,就不展开了。这里我是想提醒你注意两个有趣的事实:1)别看只是扫描,其中却用到非常多深奥的 AI 算法,包括去手写、去瑕疵、弯折书页展平、手写体识别等等;2)这是人类历史上第一次把 AI 变成普通个体手里的工具——像锤子和打火机那样廉价且成熟的工具。有了这个工具,就必然引爆一个局面:现实物理世界的一笔一划、一草一木、蛛丝马迹会跟随每一个人的生活轨迹,开始润物细无声地被数字化。
千万别小瞧这种“现实世界的数字化”。你想想看,2000年左右,互联网方兴未艾的时候,是谁一点点构建了互联网的内容基石?是各个网站的站长们、是新浪博客的写手们、是泡天涯论坛的GGMM们,是百度贴吧的水友们,是淘宝电商上的卖家们,是在QQ相册里疯狂上传照片的葬爱家族们。他们用自己的大脑计算力,用不揣冒昧的傻劲儿,用飞舞的指尖一点点雕刻出互联网的一草一木。
如此对比来看不难发现,借助人工智能把现实世界数字化,和当年借助人类智能把现实世界数字化,本质上是一回事儿,只不过这次更牛X。
今年春天,我还和淘宝的几个先锋技术团队聊了一下,他们正在这波“现实世界数字化”的浪潮里击水。比如,他们尝试把“商品详情”从一个没有厚度的“像素图片”变成前凸后翘的“体素物品”。这样做有啥好处呢?设想这个场景,你要买一个吸尘器,过去只能通过宝贝详情里的图片脑补使用方法,现在,你可以进入一个虚拟房间,亲自插拔那些吸头,体验对不同材质的吸尘效果再决定买不买;
再设想一下,过去你想买一个衣服,只能脑补上身的感觉,买来发现不好再退,现在你就可以让你在3D数字世界1:1的“分身”在线试穿这件衣服,省得退来退去浪费资源。
看了上面的例子,有些浅友会油然感到“数字世界的荒凉”——日常用到的用品成千上万,难道都要把他们数字化吗?没错,但这件事儿靠人做,做到宇宙爆炸也没戏,必须靠 AI。一种叫做 NeRF 的 AI 技术,正在为万物体素化打开一扇门。淘宝的底层技术团队开发了一套工具,用手机摄像头围着物体转一圈,就能把它从现实世界里给“抠”出来,成为体素模型。
你看,这样一来,用手机这个“扫描仪”,卖家几秒钟就能制作一个体素模型,和拍个短视频一样简答。(这个故事我写在了《像素时代的黄昏》这篇文章里,大家可以去看)
没有意外的话,未来几年,我们身边的万事万物会迅速被数字化,数字空间里的“高质量内容”会像2000年左右一样来一波暴涨。只要有了足够多的数字内容,想象中的“元宇宙”不就具备了条件吗?元宇宙可以看做是传统互联网的继任者;元宇宙里的像素/体素内容,就是互联网里文字的继任者。
这是“无聊猿”母公司 Yoga labs 推出的元宇宙“Otherside”,这些奇形怪状的人物,就是元宇宙里我们的化身。当然,在真正进入元宇宙时代之前,我们还可以用这些独立的“像素、体素物品”做很多有趣的事儿。比如,做一个mini版的赛博空间,在里面搞展览或服装发布会,也就是“虚拟秀场”、“虚拟展会”,或者干脆把现成的博物馆“体素化”。这是我周末(在电脑前吃着零食)逛的 VR 梵蒂冈博物馆
说到这,我得强调一下,现实世界的数字化其实有两种方式:除了刚才说的“把物理世界的物体直接变成数字模型”之外,还可以“把现实世界和数字世界连连看”。怎么连连看呢?比如,我在朋友家看到了一个泡泡玛特的玩偶,很喜欢,但不知道叫啥名字,我就可以用“拍照搜索”去电商里找到它。这时你用到的是“图搜引擎”,它的本质就是在现实世界的物体和赛博世界的照片之间建立“勾连”。
还有一种更难的情况:我看到路人手里拿的一个玩偶很好看,但社恐的我不好意思叫住他询问或拍照,于是他就消失在人海,我只剩下脑海里的残影。。。想找到这个玩偶,肿么办?我可以在搜索框里写:“蓝白色猫玩偶,手里抱着红色月亮,大笑的表情”。图搜引擎就可以根据“语言描述和图片的勾连关系”找出符合这个描述的商品。(注意:图搜引擎所做的,是真的“找到符合你描述的商品形象”,而不是“匹配关键词”。)这背后用到的是一种非常前沿的 AI 技术——多模态搜索。简单理解,多模态的意思就是它可以把“语言”、“图像”和“它们背后的意义空间”,三者相互勾连。我通过语言描述可以找到图像,通过图像也可以找到语言描述。就像下图所示:
想想看,如果快进到元宇宙时代,我们眼前的很多东西都会以像素化/体素化的方式呈现。那时,我们想找一件东西,当然没办法用博客时代的“关键词搜索”,而必须描述那个东西长啥样,也就是用到“多模态搜索”了。所以,多模态 AI 在今天看来只是一种搜索场景里的技术,站在未来看,因为建立了从物理世界到数字世界的映射关系,这种技术会成为基石。(这个故事我写在了《我在淘宝买到“生活解药”》里,有兴趣的浅友可以去看。)
说到这,你可能已经对“AI 能点儿干啥”有感觉了。不过,咱们想象力的小车还完全没有开上秋名山。说来说去,我们都在围绕*已经存在*的物体讨论——必须在现实中存在这个物体,我们才能用 AI 把它数字化;必须在数字世界存在这个图片,我们才能通过多模态搜索找到它。现在请问:如果世界上压根没有这个东西,它只存在于意义空间,也就是我们的“想象力”中,AI 能把它的实体创造出来么?(五)创造一些“不存在”我们试试看,创造一个想象力允许,但物理定律不允许的东西,比如宇航员在宇宙里骑白马。。。嗯,它来了:
现在,如果你还不知道什么是“AIGC”(AI生成内容),那得赶紧跟上了。就在2022年春天,全世界最魔性的 AI 公司 OpenAI 搞出一个名叫 DALL·E 2 的人工智能,彻底引爆了世界。它可以根据一段文字描述自动生成出(世界上从不存在的)图像。在我看来,这种图像之精美,意境之深远,超过了至少一半的人类艺术家。
左边是2015年谷歌推出的 AIGC 程序 DeepDream 的作品;右边是七年之后的 DALL·E 2 的作品。你感受下技术的飞奔。AI 是肿么做到的呢?刚才我们不是说到“多模态人工智能”可以把文字和图像和背后的意义相对应么?在这个框架下,只要添加两样小魔法就好:第一,把一般的 AI 模型换成一个“超大规模的 AI 模型”(一般称之为大模型),它的作用是把文字、图像和背后的意义对应得极其精细。第二,“理解一张图片”的本质是把随机性一层层减少,最终坍缩成一个类别;而把这个过程逆向来用,往里添加随机性,就变成“生成一张图片”啦!说到“生成”,我突然想起一个小故事。有人搞过一个实验:放两张没有意义的马赛克图,让人们投票选出哪个更“性感”,然后在这张图上随机改变1%,继续让人们投票选择哪个更“性感”。如此迭代成千上万次,就真的能生成一张“性感图片”。这背后的原理有类似之处,你细品。这是原始图片和经过第4559次筛选后的图片,再往后面的图片我不太敢放了。。。(网址附在结尾自己去看吧)
虽然我把 AIGC 说成“小魔法”,但其实大模型技术对于 AI 算力的消耗是巨大的,所以 OpenAI 采用了定向开放制,普通人体验有一定门槛。不过在人工智能顶尖研究方面,国内还有一位很能打的选手——百度。百度的大模型叫做“文心”,利用“文心”他们做出了一个中国版的 DALL·E 2,叫做“文心一格”。百度就厚道多了,他们已经把“文心一格”开放出来了,大家都可以去体验。(链接我放在最后~)说起来,前两天我还故意埋了一个小彩蛋:《我在淘宝买到“生活解药”》这篇文章的头图,其实就是文心一格生成的。不知道浅友们有没有看出来:
看到这,有的浅友会说,只是生成几张图,对我的生活影响也不疼不痒吧?非也,生成图片只是 AIGC 一个最显性的用途。所谓AIGC 的“C”,实际上是指内容(Content),只要用到内容的地方,都是 AIGC 的用武之地。2022年,我还和腾讯 AIlab 的几位大牛聊了一下,他们正尝试在游戏里加入 AI 生成的内容。比如,游戏里有大量的道具和场景,过去这些都要靠设计师一笔一划手绘,或者设计师手动制作一个框架,然后计算机在有限的范围里进行“泛化”。但是有了 AIGC,很多场景就可以直接交给 AI 生成,宝贵的人类设计师就可以把精力集中在高交互的细节场景和道具。还有,过去游戏里的 NPC 所做的动作,一般都是通过“真人表演+动作捕捉+人工修正”来实现的,这就导致每一个 NPC 背后都包含了高昂的人工成本。
但是 AIGC 技术就可以通过学习大量的人类体态,根据对话内容和人物性格设定,自动生成一套行动规范——成为“戏精”NPC。
这样一来,大部分只能依靠人类劳动的工作就兑换成了标准的”芯片“和”电流“——哪怕一个初创游戏团队也可以做出天马行空的3A大作,创业成本大大降低。这恰恰契合了我在《我们该不该怀念2021》里的那个结论:未来的世界属于“超级个体”。一个人可以调动的资源,藉由 AI 和网络技术无限放大。在数字空间里,“做不到”的事情会渐渐绝迹,而“想不到”会成为新的天花板。到这里,有的浅友还不满意:“我不是艺术家,我也不是游戏开发者,甚至都不是游戏玩家,那 AIGC 有机会惠及我的生活吗?”当然有机会。你可能听说过一个词——数字人。其实,数字人和游戏里的 NPC 有类似之处,他们都是“以类人的面目出现,和人进行互动的智能体”——只不过数字人会用在更广阔的的服务业中,成为客服、导游、前台,甚至是演员或偶像。这里明确一下,数字人并不天然需要 AI 驱动,很多早期的数字人其实背后原理和 NPC 一样,是靠“人类演员+动作捕捉”来实现的。而背后做动作的那个人,也就是大家听说过的“中之人”。
但是在我看来,使用“中之人”来驱动数字人,本身就是一个“权宜之计”——如果涉及到虚拟偶像,那么使用“中之人”更是一个在伦理上有极大瑕疵的操作。因为偶像的价值是外表和灵魂的合体,二者无法切割。而你一边用真人来填充它的灵魂,一边让虚拟形象(和背后的资本)享受它的全部光环,就像代孕一样——用别人的肚子怀了你的孩子,中间任何一步稍微卡一下 bug 就会酿成“不可回滚”的悲剧。2022年5月出现的虚拟偶像 A-Soul 事件,就是这个逻辑的结果。
A-Soul 的成员珈乐因为“中之人”的变故而“永久休眠”,导致粉丝暴动,珈乐不得不返场澄清。即使是澄清直播,也必须披上二次元的外衣才能进行。因为没人认识她背后那个真人。而用 AI 替代“中之人”,所有的伦理问题就会迎刃而解。正如刚才所说,AI 的“灵魂”创生于大数据,每个人在互联网上的一举一动滋养了他们。如果非要说的话,它们是人类之子,它们的荣光也理应归属全人类(而非某个人)。其实就在我们身边,已经出现了很多服务型数字人:不少银行会在实体网店里架一个立式屏幕,让数字人服务员帮助解答一些简单问题;也有很多券商用数字人客服协助用户进行人脸验证开户;在电视台,已经有了数字主播以用自己独有的体态和语气播报新闻;很多直播平台,也出现了数字主播,用自己独特的魅力带货。这是商汤科技和宁波银行合作的数字人
如此看来,AIGC 和每个人都有关。不管一个人多么保守,只要继续接触社会,一定会或早或晚接触到数字人的服务。这个过程,就像当年那些坚持使用功能机的“老古董”们憋了很多年,还是得搞一部智能手机装微信那样顺理成章。说到这里,我们不妨总结一下,在不远的将来会发生三件事:1、在我们身边,会有越来越多的物体通过 AI 进入数字空间;2、现实世界到数字空间的勾连也会因“多模态 AI 技术”的发展而大大增加;3、无数原本不存在的“物”和“人”,会在 AI 的加持下从虚无中创生。
截止目前,AI 已经展现了强大的威力,但我们人类的骄傲并没有被击碎——因为无论 AI 创造的东西多么神奇,这些软件背后一行行的代码都还是要人写啊。没有人类,那 AI 就是一具“行尸走肉”啊。对吧?对吧?!呵呵~~接下来,最魔幻的情节就要上演了。如果把软件开发的过程看作一条蛇,把它的尾巴塞进嘴里。。。那么。。。
这是古希腊传说中的衔尾蛇,柏拉图说:“造物者构想出这头能够自给自足的生物,这比其它缺乏一切东西的生物来得完满。”(六)脱缰的野狗——“软件2.0”在2022年,我曾经和一个低调的的团队聊了一次天,他们就是毫末智行。这是一家有长城汽车背景的自动驾驶创业公司,他们的厉害之处恰恰在于:面对一个浩大系统的构建,没有上来就是一顿操作猛如虎,而是想办法把自动驾驶系统开发的一些关键环节大胆交给 AI。具体来说是这样的:1、一个自动驾驶系统要想进步,只有一种方法,就是在不断的驾驶过程中“犯错误”,每次的“错误”都被称为 Corner Case。当然“犯错误”不代表会出事故,因为在人类司机开车的时候,自动驾驶系统也在偷偷开车,遇到它的判断和人类操作不一样时,就等于“犯错误”。2、成千上万台汽车在路上跑,Corner Case 源源不断,如果每个案例都靠人类去分析改进,那么把全世界的工程师找来都不够。所以必须有一个自动化系统在后台值守——整理这些数据,并且把这些数据整合进自动驾驶系统接下来的训练中,让它可以自己进步。
你有没有发现,毫末智行的老师傅做的事情,本质上是“编程”了一个“会编程的 AI”。这种魔幻的操作有个名字——“软件2.0”。当然,软件2.0的原创归属应该是特斯拉的 AI 团队。他们首先发明这种玩法,并且说出豪言壮语:写好最初的骨架代码后,工程师就可以去度假了!实际情况也证明,这种软件迭代方法让起点很低的特斯拉自动驾驶成为了不可撼动的 No.1。特斯拉和毫末智行都在做自动驾驶,那软件2.0只能用来写自动驾驶系统吗?当然不是。2022,我还和蚂蚁集团的老师傅们聊了一次。他们把“软件2.0”的思路用在了金融风控上,做出了 AI 风控系统 AlphaRisk。简单来说,AlphaRisk 可以根据几亿人每时每刻在支付宝上的行为,自动调整风控模型。它甚至还能自己和自己过招——在没有人类数据输入的时候仍然可以提升既能。你可以把它理解为“风控系统界的自动驾驶”。(这个故事我写在了《支付宝和张三的十年战争》中,这里就不展开了。)
如果你仅仅把“软件2.0”理解为用 AI 写程序,那就把这件事的意义想小了,其实这背后是一个相当可怕的范式转移——用软件2.0范式写出的软件,和软件1.0完全是两个物种。如果把软件1.0比作“大象”,软件2.0就是“蚁群”。这是啥意思呢?人类最擅长逻辑思维,所以一旦让人类主导编程,最终编出来的东西一定是环环相扣,几万行代码里随便动一个参数,就可能会造成未知的错误。它就像一个大象,你从大象身上拿走任何一个器官,大象都会死翘翘嘛。
这种模式是个双刃剑:如果交给一个艺术家级别的工程师,写出来的东西就会效率奇高;如果交给一个晕头转向的码农,那写出来的就是臭不可闻的“屎山”。。。