【音乐笔记】音乐人工智能的伦理思考 ——算法作曲的自律与他律

  文章作者:付晓东,中国音乐学院教授。

  摘要:本文首先尝试以音乐美学中的“自律论”与“他律论”观念为参照,对人工智能算法作曲所依据的美学原则进行分类,由此展开对音乐人工智能在艺术伦理层面的思考,为音乐领域内的“人工、智能”——“自然、机械”这一对应术语的边界进行定位。

  二十世纪50年代至今,“人工智能”(AI)技术的发展经历多次起落,近几年突然以无可阻挡之势席卷工业、金融、医疗、教育、运输等各行业,并于去年入选“2017年度中国媒体十大流行语”1,由此可见其势头之火热。现在,它正迅猛地向着音乐领域进军,甚至可以预言,在未来十年内,越来越多未经人类大脑构思的音乐作品将会充斥于我们耳畔。由于音乐是一种主动侵入性的艺术,它不像视觉艺术那样给人类保留以选择权:如接受,驻足观赏、定睛打量即可;如拒绝,转移视线或索性闭眼即可。音乐无法防备,以迅雷不及掩耳之速入侵,而人耳却无法象数字滤波器一般对声音信号进行信噪优化处理:如接受,必须将音乐信号连同所有的背景音响无条件地全部接受;如拒绝,只能捂上耳朵,屏蔽一切音响。所以,相对于其他艺术领域的人工智能技术的应用,音乐人工智能带给我们的冲击可能会更猛烈。

  

   今天在座的专家大致来自于两个领域:计算机与音乐。我猜想,在展望音乐人工智能的前景时,计算机阵营可能会敲键相庆,音乐阵营可能会抚琴长叹。每一位学习音乐的人都知道,音乐技能与理论的掌握是一个漫长的过程:快、精、准的乐器演奏技术掌握,敏锐的节奏、音高与织体的听觉捕捉,冗长枯燥的基本乐理、作曲四大件的规则应用,再加上庞大繁复的音乐学相关理论的支撑,我们才能以之谋生。在座的每一位同行都可能深有体会,学习音乐的过程是一把血泪史。当然,天才除外。如今,人工智能突然冒出来,宣称这一切学习过程都可以略去,无论是创作还是表演,一切交给机器,代价只是费电而已。这个残酷现实对于传统音乐家们而言,震惊且疑惑。那么,我就从传统音乐阵营的立场出发,思考一下音乐人工智能的伦理:AI要在多大程度上改变我们的音乐生活?在音乐领域内,何为“人工”、何为“自然”?何为“智能”、何为“机械”?或者,从艺术审美的层面来看,它有没有边界?

         在音乐美学理论中,长久以来存在着两种对立的观点,一为“自律论”,另一为“他律论”。我尽量简要地给计算机专家们介绍一下:所谓“自律论”,是指音乐的美存在于其自身的结构与形式之中,无关于内容,也独立于情感——简而言之,音乐不需要抒情,音响本身的结构序列就是美。欧洲的代表人物有奥地利音乐学家汉斯立克,其代表作为《论音乐的美》,以及德国古典哲学创始人康德;中国的代表则是三国时期的嵇康,其代表为《声无哀乐论》,也是魏晋玄学的千古名篇。所谓“他律论”,是指音乐的规律和法则受到外来因素即人类的情感的影响和制约。持此观点的欧洲代表有舒曼、柏辽兹、李斯特等音乐家以及哲学家黑格尔等。中国则以儒家音乐美学思想为代表,如孔子的“尽善尽美”,如《尚书·舜典》的“诗言志、歌永言、声依永、律和声”,以及《礼记·乐记》所述“凡音之起,由人心生也;人心之动,物使之然也”等等。

  

         国内曾于上个世纪末在音乐美学界掀起了一场轰轰烈烈的“自律论”与“他律论”的争论,可谓是音乐理论界的一场“真理标准大讨论”。终于在世纪之交,理论界动用了辩证法之法宝,以“自律与他律的矛盾统一”之定论将这场讨论平息(或暂时平息)。本人更倾向于“他律论”,这里不阐述理由,只举一个极端的例子:数学与物理中的公式、法则与定律,都体现了纯粹的自律之美,但是当我们面对如质能公式时,如果我们对相对论一无所知、对“一切物质都潜藏着质量乘于光速平方的能量”这个伟大命题丝毫不为所动,那么这个公式对于审视者只是一串不知所云的符号。再如同聆听西洋交响乐,如果听者对欧洲音乐没有感性与理性的基本了解,那么就会像张爱玲所描述的那样“交响乐的攻势是慢慢来的,……四下里埋伏起来,此起彼应,这样有计划的阴谋我害怕。”2 因此,对于审美主体而言,如果不具备对审美对象构成要素的先验基础,人类并无法将对作品产生审美愉悦。转回音乐人工智能这个主题。音乐人工智能的实质是机器自主地创作音乐作品,其核心是“算法”(Algorithm)。以音乐审美的角度,大致可将机器的算法分为“自律”与“他律”两种类型:前者是机器依据事先规定好的内部结构原则,严格或非严格地对其遵循,对应于音响素材而生成音乐作品,最终的音响呈现受到内部结构原则的自律性限定;另一种类型是机器依据人类经验规定好的外部结构原则,严格或非严格地对其遵循并映射为音响而生成作品,最终的音响呈现受到外部结构原则的他律性限定。当然究其根源,任何算法都是由人类所指定,因此并不存在绝对意义上的“自律”型算法。但是“自律性限定”的算法一旦启动即自主执行,而“他律性限定”的算法则受外部因素的支配与调整。从这个层面来审视,算法程序仍然能够在某种程度上划分出“自律”类的人工智能与“他律”类的人工智能。以下将根据这个原则对各种算法作曲进行粗略分类。

  一.自律类音乐人工智能算法

   1.数学模型(Mathematical model) 

   以数学算法与随机事件构成数学模型进行作曲。其中算法相当于作曲法则,随机事件相当于音乐元素——音乐中的各种元素可分解为一系列随机事件,如音的四属性、音乐三要素等,作曲家(程序员)将其赋予不同权重,使用特定随机算法对其进行运算处理而得出音响序列,其结果是非确定性的。常用的随机算法有马尔科夫链、高斯分布等。目前以数学模型为主的音乐人工智能作品在伴奏的速度跟随、乐句的力度处理、终止式的伸缩节奏方面有相当的“智能”感,但是在作品的整体可听性方面仍有明显的欠缺。

   2.演化算法(Evolutionary methods)

   源于达尔文所揭示的生物进化理论,用算法模拟物种进化的过程来构建音乐作品。将随机或人为的音响事件集合为一个种群,通过选种、遗传与突变的算法反复迭代,将种群中现有的多个个体中进行优胜劣汰,其结果由适应函数构成的审核程序予以矫正,以保证其审美意义的质量。最常见的演化计算方法是遗传算法(genetic algorithms)与遗传编码(genetic programming)。演化算法试图将物种进化的过程匹配于音乐生成过程的逻辑不够完善,因此作品的审美认可度并不高,如今常用于和声配置与伴奏任务中。

  3.语法系统(Grammars)    

  音乐的构成法测可类比于人类语言的语法规则。人类语言由字、词、句等按照一定的语法规则而构建成表达单元,音乐中的动机、乐节、乐句也具有相似的结构特征。首先创建一个特定音乐作品的语法规则,对和声、节奏与音高等各种音乐素材进行组合,最后生成音乐作品。诚然,音乐与语言在某种程度上具有同构性,但是比较而言,音乐规则体现出更大灵活度与可变性,由一个固定的语法规则附加若干可变规则的语言算法,产生出的音乐作品多少带有生硬而呆板的特征。

  二.他律类音乐人工智能算法

   1.迁移模型算法(Translational Models)。 

  将非音乐媒体信号源中的信息映射并迁移为音乐音响信息。最常见的是将视觉信息进行转换,例如将图像中的线条转换为旋律、色彩转换为和声、色度转换为力度;将运动物体的空间位移转换为旋律、速度转换为节拍节奏等;也可用于非视觉信息的迁移,如将文学作品中的积极/消极的描述,通过自动情感分析系统迁移为大三/小三和弦。实际上,人类的感官在一定程度上的确具有“联觉”效应,如空间线条与旋律走向的对应。但是如果将其进行严格映射,并没有心理学的有力证据。因此使用迁移模型算法生成的音乐作品,常常出现在交互性的新媒体艺术表演中,更多地以现场的事件相关性与交互性为审美趣味。而一旦音乐作品如果与其映射对象脱离而抽离出来单独呈现,这类作品的可听性将会大大降低。

   2.知识推论系统(Knowledge-based systems)

   以某种音乐风格类型为知识库基础,通过对该音乐风格的审美特征提取出来并进行编码——即归纳推理,以编码程序为算法而创造类似风格的新作品——即演绎推理。例如基于对位法原则的巴罗克音乐风格编码、基于大小调和声体系的古典浪漫音乐风格编码以及弱化和声功能的印象派音乐风格编码及各个相应风格作品的生成,即属于知识推论系统算法。这种算法已经在某种程度上接近于音乐学院作曲技术理论的学习过程,生成的音乐作品与其所基于的特定风格知识库非常相像,具有很高的可听性。其缺点在于归纳——演绎两个环节的相对割裂,即风格编码必须由操作者提供,程序本身仅仅是对编码的执行运算,由此作品的结果严重受到操作者对创作规则的抽象理解,并且会存在僵化与雷同的缺点。

   3.机器学习(Machine learning) 

  操作者为计算机输入大量的音乐音响,计算机对其进行有效“聆听学习”——即运用统计方法对音乐构成的法则进行学习,其过程与知识推论系统相似,但是操作者并不严格指定音乐类型,也不为程序提供风格编码,这个过程由算法程序自动完成,强调其自主性与“无监督”式的学习(unsupervised learning)。当然,从本质上来看,机器学习的“无监督”只能是在一定程度范围内,它依然受制于操作者所提供的知识素材库的界限。机器学习与数学优化、数据挖掘等计算科学的研究成果相关,更与认知科学领域与神经网络学科的研究成果密切相关,其中最为显著的是采用决策树、人工神经网络、深度学习等方法,是迄今为止对生物学习过程模仿程度最高的一种算法。这仍然属于仿生,但它超越了对结构与力学层面的仿生,是对人类大脑思维过程的仿生。机器学习既可以用于一般意义上的音乐创作,也适用于即兴演奏与竞奏等场合。虽然可以生成各种指定风格或混合风格的音乐作品,它仍然取决于操作者提供的音乐数据类型,是通过对随机事件进行统计与概率得出规则后的音响预测。

   上述几种算法作曲的分类以图表说明如下:

  

   我必须承认,这是以一个音乐家的知识结构对音乐人工智能算法的理解,将其归入自律与他律的伦理范畴,也仅仅是这些算法体现出的显性特征而作出,因此二者的界限并不是泾渭分明的。考虑到在实际运用中,这些算法可能会彼此整合,形成一个混合的超级算法模型,以弥补各自的缺点而得到音乐生成的最优化,所以,并不存在绝对的自律或他律的音乐人工智能算法。实质上,将音乐美学中的自律论与他律论观点二元对立化,本身就是对矛盾的割裂与绝对化。并且,我深信,随着量子计算技术、脑科学研究以及信息论控制论的发展深入,将会出现更多的混合型音乐人工智能的算法模型。

  

   之所以作如上划分,是想从音乐审美的角度来说明这样一个观点:倾向于自律型的算法可能会陷入音乐审美的死胡同。举个例子,上个世纪初兴起的以勋伯格为代表的十二音技法,就是一种强调自律的作曲法则:将十二个半音割裂孤立,追求其绝对的平等,就是否定音乐调性——万有引力的联觉作用,就是企图从底层将人类主观体验对音乐构成法则所施加的“他律”作用予以否定。其后的整体序列主义则更是倾尽全力将人类对律动、色彩、力度的主观先验基础从音乐构成法则中彻底地排除,可谓是彻底地“存天理、灭人欲”。从这个意义上来看,偶然音乐、噪音音乐等也在美学伦理上属于“自律”的范畴。毋须多言,历史已经证明,这类音乐风格早在世纪之交就基本上销声匿迹了,主流音乐家们依然回到由情感支配、由联觉控制、由先验引导的共识法则的构架体系内进行创作与表演。此外,更不能忽略,这个世界上种类繁多的民间音乐、传统音乐或原生态音乐,自始至终就没有被所谓的“自律”伦理所约束过。以音乐风格的演变为鉴,在音乐人工智能的生成过程中,完全采用数学模型、演化算法以及语法系统等具有显著自律特征的算法,前途并不乐观。

   那么,具备了“他律”特征的算法音乐,似乎有一个畅通的未来,这其中,尤其是掌握了深度学习技术的算法技术,如同媒体鼓吹的那样有着灿烂辉煌的前景。问题是,以深度学习为代表的算法作曲技术,到底在何种程度上改变我们现有的音乐观念、审美趣味乃至我们的音乐生活方式?这个问题的最终解答需要上帝出面,我只是斗胆发表一下自己的浅见。

  

  如同对“高科技”进行定义一样,“智能”也是一个边界模糊的概念。最简单的例子:电动磨相对于水动磨、水动磨相对于驴拉磨,驴拉磨相对于人推磨,前者都更具“技术含量”;电算对珠算、珠算对筹算、筹算对结绳记事,前者更具“智能因素”。但是不要忘记,就在十年以前,我们在广告上看到过带有温控、声控、光控开关的电器,还动辄冠以“自动”、“数字”甚至是“智能”之名,今天看来,几近荒唐。诚然,智能有“弱智能”与“强智能”的层级之分,但这个集合的边界从来就是从历史这端不断收束,向着未来那端不断延展。以智能演奏为例,从十九世纪的风靡欧洲的八音盒(Musical Box)、到二十世纪席卷欧美的自动演奏钢琴(Player Piano),再至二十一世纪崭露头角的音乐机器人(Musical Robot),智能演奏的定义不断被刷新,所界定的对象也不断被历史封存。自动演奏钢琴比之于八音盒,具有一定“可编程”性(纸带输入)与交互性(人力驱动),这就是八音盒在十九世纪后期没落的原因之一。如果我们回顾一下八音盒的产业史,就会发现,在其最兴盛的十九世纪中期,制作家们大多数都拥有另一个身份——钟表匠,且国籍多为瑞士或德国,我们就看出隐藏在其中的寓意:精美的八音盒在一定程度上是“醉翁之意不在酒”——八音盒是展示精确、巧妙与完美的机械技术广告与炫技品,当自动演奏钢琴出现后,八音盒的使命基本告终,钟表匠们接着就返回了自己的本行,这就瑞士钟表与八音盒的渊源。今天的八音盒已沦为礼品店的玩具,但是人们可能忘记了,正是八音盒的卷轴启迪了MIDI音序器及其钢琴卷帘界面。接着来回顾一下自动演奏钢琴的历程:在其代替八音盒后,在上世纪20年代达到顶峰,随即开始急剧衰落。人们不再为键盘自动上下翻飞的技术与音响重现而惊叹,它沦为一个更换曲目繁琐、维护成本高昂的播放器。因为留声机的出现,立刻宣告了它的使命已终结。留下的是自动钢琴的纸带信息记录的设计,它启迪了早期计算机指令输入的方式。最后来回顾一下音乐机器人:20世纪80年代初,日本早稻田大学研制成功演奏音乐会管风琴的音乐机器人“早稻田2号”(WABOT-2)3,它具有人类的外表与结构,以摄像头为眼,能够阅读乐谱、演奏中等难度的乐曲,但是它并没有在音乐界引起太多的轰动效应,因为在音乐家的眼中,它至多是一个具备人形而高度自动化的播放器而已;丰田汽车公司于2005年与2007年分别推出了类人小号音乐机器人与小提琴机器人4,具备高度仿生的人类外形并可进行交互,引起了一时的轰动。但是,值得注意的是,与八音盒的制作产业类似,丰田公司推出小提琴机器人的目的不是智能音乐产业,而是在于开发陪护与服务机器人(Toyota Partner Robot)以进军家用市场,演奏乐器仅仅是展示其高超的运动与控制水平,也就是另一个广告作用与眼球效应的例证。从八音盒到自动演奏钢琴,再到音乐机器人,在音乐家的眼中,其音乐功能的核心只是“自动化”而已,它并没有撼动我们现有的音乐生活方式。

  

  WABOT-2机器人   

   音乐在很多情况下仅仅是科学技术小试牛刀的领域之一,在这个功能的展示与炫耀上,比音乐获得更为轰动效应的著名例子就是棋类竞赛。早在1997年AI就已经战胜了国际象棋特级大师,对阵双方是IBM的Deep Blue(深蓝)与俄罗斯棋手卡斯帕罗夫,后者的落败引起了世界的震动;2016年3月谷歌的AlphaGo以4比1战胜韩国职业棋手李世石,之后一鼓作气以3比0的战绩战胜了世界排名第一的中国职业棋手柯洁。Deep Blue使用“穷举法”的硬编码方案,类似于AI作曲的知识推论算法,而AlphaGo则是基于神经网络深度学习方法,与AI作曲的机器学习是一类。Deep Blue的胜利曾经给人类带来了极大的震撼,以至二十世纪末又一次出现“颤抖吧,人类”的恐慌(虽然这种恐慌已经出现过多次),很多人预言,国际象棋作为一种竞技体育项目将从此消失。但是事实却恰恰相反,20多年过去了,国际象棋爱好者的人数不降反升。二十年后AlphaGo的胜利并没有引起之前的恐慌,更没有人为围棋项目的未来而悲观,反而如今越来越多的棋手使用算法程序来辅助训练。尤为值得注意的是,2017年5月,阿尔法围棋团队宣布他们将不再参加任何围棋比赛。这个声明再次向我们证实了AI在音乐领域“醉翁之意不在酒”的意图。

  

  我国天才棋手柯洁vsALPHAGO

   音乐是人类迄今为止难以完全解释与定义的现象之一。对于音乐的起源,无论是劳动说,模仿说、语言说、求偶说等等,都难以准确地解释它为何发生;对于音乐的功能,无论社会说、审美说、认知说、教化说与娱乐说,也无法将其在人类社会所扮演的角色圆满解读。用发生学的逻辑来看,无法对音乐的起源与功能进行清晰描述,就无法为音乐人工智能的未来进行准确预测。音乐绝对不仅仅是音响的组合所带来的听觉体验,它更多联系于人的情感记忆与偏好,它能够唤醒我们一种被称之为“情怀”的感知。音乐不仅仅是引起颤抖、起鸡皮疙瘩(Gooseflesh effect)与多巴胺分泌的外部刺激,因为吸烟酗酒也会产生同样的生理反应;音乐不仅仅是学习语言的预备,因为大量的失歌症患者并不存在语言的障碍;音乐更不仅仅为了求偶,这一点所有的音乐家与音乐爱好者都会同意,即使大家承认它有点作用;音乐不仅仅是更快、更高、更准的竞赛式炫技,所以从这个角度上而言,所有的音乐机器人演奏,都只能是暂时的眼球效应,在新奇感消逝之后,它与博物馆收藏的自鸣钟并无质的区别。

  

  “莫拉维克悖论”如此表达:电脑很容易达到成人博弈的水平,但是让他具备幼儿基本的感知和行动能力却是相当困难。实际上,人工智能最根本的存在意义是颠覆我们对“智慧”的传统定义——我们之前理所当然地将符号认知与整合、规律总结与提取、定理演算与证明等能力划定为智慧,而将直觉、下意识等行为视为生物本能性的刺激反应。人工智能的出现,促使人类重新划分“人工”与“天然”、“智能”与“机械”的区间边界,这个最终答案可能是颠覆性的。反过来说,现有的人工智能,以其每秒数亿次的逻辑运算能力与人类对弈竞争,值得惊叹的恰恰是人类的智慧。人类除了下棋,还拥有自由意志与行动能力、为理想奋斗以及思考人生等目标,而算法只有一种存在的前提——通电,只有一种使命——替代人类执行枯燥的技术工作。因此,人工智能让我们重新定义艺术与技术的边界,迫使我们不断抬高艺术创作过程中的智慧含量与人性品质,这就是音乐人工智能存在并发展的意义。

  1、 2017年度中国媒体十大流行语,澎湃网,https://www.thepaper.cn/newsDetail_forward_1898292,发表日期2017-12-09。

   2、张爱铃《谈音乐》 ,载于《苦竹》第1期,1944年11月。

   3、Special issue on wabot-2, Bulletin of Science and Engineering Research Laboratory, (112), 1985.

   4、丰田发布新款伙伴机器人,专利之家,http://www.patent-cn.com/2007/12/09/7298.shtml,发表日期2007-12-09。

  注:本文根据“2018音乐人工智能发展研讨会”的主题发言整理而成。发表于《艺术探索》,2018年第5期,102-106。

  参考文献

  [1] Martin Supper, A Few Remarks on Algorithmic Composition. Computer Music Journal 25.1 (2001) 48-53.

  [2]Michael Edwards, Algorithmic Composition:  Computational Thinking in Music. Communications of the ACM, July 2011, Vol. 54 No. 7,  Pages 58-67, 10.1145/1965724.1965742.

  [3] Algorithmic composition,https://en.wikipedia.org/wiki/Algorithmic_composition, last edited on 16 May 2018.

  [4] 付晓东,音乐机器人的发展历史与技术成果[J],演艺科技,2015(05): 12-17。

  转自国音音科技