【翻译生肉】不同强度的谐波组成的复合音的协和度研究【声学杂志】

  安东尼奥·贝尔尼尼 (Antonio Bernini) ^1 ,费德里科·塔拉姆奇 (Federico Talamucci, federico.talamucci@math.unifi.it) ^1

  意大利佛罗伦萨 佛罗伦萨大学 数学与信息科学系(DIMAI)

  摘要:这项研究的起点是 Plomp 和 Levelt 提出的音程协和度理论,主要参考了用于评估不同频率纯音色(正弦波)构成音程的协和度的“临界频带”(Critical band)理论。在这种经验标准的基础上,我们的目的在于提供一种估量复合音(如钢琴声和自然声等)协和度的方法,其中除考虑谐波数量外,更考虑组成复合音的每个泛音(谐波,直至无穷,从而也适用于非泛音分音的情形),从而更加准确。通过引入一种特别的算法,我们可以同时使用“频率差异”和“泛音强度”两方面的参数来量化一个由复合音组成的和弦的协和度。这些工作的结果可以激发一系列后续思考及应用,包括量化呈现一个八度内连续空间上所有音程的协和度,以及评估在一个音阶上的不同和弦的协和性层级等。

  关键词:协和性,复合音,音阶,临界带宽,谐波强度,响度

  当同时响起的音调具有简单的频率比时,通常会获得令人满意的感觉,称为“协和性”。音乐理论中称同度(频率比 1:1)、纯五度(2:3)、纯四度(3:4)为完全协和音程,大三度(4:5)、大六度(3:5)、小三度(5:6)和小六度(5:8)为不完全协和音程。协和性与频率比简单性的关联可以追溯到古希腊的毕达哥拉斯:毕达哥拉斯发现一条振动弦的 {1 \over 2},\, {1 \over 3}, \, \cdots\, , \,{1 \over n} 长度与整条弦长度( 1 )的振动具有“悦耳的一致性”。

  到十八世纪初,与毕氏相同的概念得以用频率表示,当时音高对单位时间内振动次数的依赖性很明显。萨维尔(J. Sauveur)于 1701 年的实验证实了复合音中存在协和的泛音(译者注:Harmonics,即与基频成整数倍的分音——Partials),这从某种意义上证实了“频率比越简单,声音越协和”。萨维尔的实验还从某种意义上还证实了:一个特定音高的音可以某种形式包含在另一些音高的音中而构成一个听上去像只有它自身的整体;音色与音高是相互蕴含的关系——泛音个数越少、与基音的频率比越简单(越接近于泛音列),声音整体越“纯”(即“协和”)。(译者注:这句可能稍难理解,可以参考官大为的以下视频《一次搞懂「泛音列」》。)好和弦独家代理|[Ep.46] 一次搞懂「泛音列」!_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

  十九世纪,亥姆霍兹(Helmholtz)等对协和性与泛音问题进行了更深入的研究。亥姆霍兹提出的理论 [1] 旨在用“拍频”(beats)来解释协和性,主要在于意识到非常小的频率差异(如 440 Hz 和 441 Hz 的两个纯音同时响起)会产生一些单独听到且不令人不适的“有节奏的、粗糙的嗡鸣声”,即“拍频”(其频率为该两个纯音的频率差,此例中即 441-440=1 Hz)。另一方面,当我们扩大该频率差时,引起的拍频数量也会随之增加,直至我们无法听到它们。亥姆霍兹通过实验确定了直至拍频不可闻的临界频率差为 30~40 Hz,并假设该临界频率差不受频率高低的影响。

  进入二十世纪,Plomp 和 Levelt [2] 改进了亥姆霍兹的理论,提出“拍频的临界频率差实际上受到频率范围的影响”,并提出“粗糙度”(roughness)的概念——即拍频的“响度”,以拍频让声音变得“不协和”而“粗糙”故。为了评估特定频率差的两纯音的最大粗糙度对其平均频率的依赖性,Plomp 和 Levelt 参考了 Zwicker、Flottorp 和 Stevens [3] 实验测量的临界带宽。简而言之,我们可以将 临界频带(Critical band) 定义为:两个纯音(频率记 f_1f_2 )随频率范围的改变,能够因拍频现象而被感知为“粗糙声音”的频率差范围。图 1

  图 1 中带圈的曲线展示了临界频带的宽度[3] 作为 f_0 = (f_1 + f_2) / 2 的函数的形式;另外两条直线供对比参考,分别是大二度和小三度(译者注:可以理解为在连续的频率空间上平移的相隔大二度或小三度的两个纯音的平均频率)。

  由图可见,对于 f_0 > 650\,\rm Hz ,临界带宽保持在小三度的稍下方(译者注:即在比小三度略小的范围内变化);而对于平均 650 \, \rm Hz 以下的两纯音,则临界带宽范围达到直至一个八度。根据 Plomp 和 Levelt 的假设,最大协和度发生于临界带宽的 25~100% 区间。事实上,Plomp 和 Levelt 汇总并获得的数据通过实验室实验得出的协和度曲线(图 2)基本上证实了他们的推测。图 2

  可以观察到,最小协和度 c_{\rm min} = 0 (最不协和)发生在临界带宽的大约四分之一( \approx 25 \% )处。另一方面,在同度(频率差为 0 )处取得的协和度最大值 c_{\rm max} = 1 并不会如猜测的那样再次发生于 100 \% 处,而是再次发生于 \approx 120 \% 处,记此位置为 r^* 。(译者注:即记 r^* \approx 1.2 。)

  我们可以利用图 1 和 图 2 两条曲线来估算两纯音(频率记 f_1f_2 )的协和度。运用 从 Plomp 和 Levelt [2]派生的理论,有以下算法 S :计算两纯音的平均频率 f_0 = (f_1 + f_2) / 2 。从 图 1 中找到相应的临界带宽 \Delta (f_0) 。计算临界比: r = 。若 r \leq r^* ,则在 图 2 中找到对应的纵坐标,即为协和度(consonance) cr > r^* ,则直接置 c = 1 。欲求不协和度(dissonance),即用 1 减去协和度即可: d = 1 - c 。(易知 r > r^* 时, d = 0 。)

  为了使以上算法有效,我们需要临界带宽曲线(图 1)的解析式。我们用 图 1 中带圈的数据点做多项式拟合,以 4 次多项式拟合效果最好,得出解析式如下:

  P_{1}(x)=91.43+0.0257 x+5.2393 \times 10^{-5} x^{2}-7.0515 \times 10^{-9} x^{3}+3.5803 \times 10^{-13} x^{4}, \quad 0 \leq x \leq 5500 \quad \cdots \cdots \, (1)

  用同样的方式,我们拟合了图 2 的解析式(5 次多项式取得最好拟合效果),如下:

  P_{2}(x)=0.9994-10.461 x+36.422 x^{2}-48.808 x^{3}+29.693 x^{4}-6.8823 x^{5}, \quad 0 \leq x \leq 1.2 \quad \cdots \cdots \, (2)

  算法 S 可以扩展到复合音中。参考欧姆(Ohm)的声学定律,人耳可以对复合音的谐波成分进行分析感知[1],因而可推知两个复合音的协和度可以简单考虑组成两复合音的各泛音之间拍频的两两叠加[2]。由此,我们可以求两个复合音叠加而成的声音的协和度:

  设有两复合音 s_1s_2 ,基频分别为 f_{0}^{(1)}f_{0}^{(2)} ,组成它们的泛音分别记为 f_{1}^{(1)}, \quad f_{2}^{(1)}=2 f_{1}^{(1)}, \quad \cdots, \quad f_{n}^{(1)}=n f_{1}^{(1)}f_{1}^{(2)}, \quad f_{2}^{(2)}=2 f_{1}^{(2)}, \quad \cdots, \quad f_{n}^{(2)}=n f_{1}^{(2)} ,它们叠加在一起,则我们可以应用算法S 求出协和度:把每个泛音看作一个纯音,然后给每一对泛音的所有可能的组合都应用算法 S 。这样,整体的协和度 c(s_1,s_2) 即为其所有泛音对的协和度之和。

  这暗示着,同样的求解过程也适用于非泛音的分音(译者注:亦即“不成比例的音高”——non proportional tones,即所谓的“微分音”以至“噪音”)情形。按照欧姆声学定律的精神,复合音的每个泛音都被当做独立的正弦波。除此之外,我们发现还需严格考虑同一复合音中各对泛音所处的临界带宽带来的影响。但是,在实际情况下,对于 n \leq 8250 \leq f_0 \leq 6000 \, \rm (Hz) 的复合音,这样的情况实际上是不存在的。

  考虑到单个泛音与其自身的匹配不会对总的协和度产生任何影响,我们得到算法 S 匹配计算的次数为 \left(\begin{array}{l} 2 n \\ \, \, 2 \end{array}\right) 。在更一般的和弦情况下,由 N 个复合音  s_1, \, s_2, \, \cdots, \, s_N (每个复合音中的泛音个数为 n )构成的和弦,则使用算法 S 需要计算 \left(\begin{array}{l} Nn \\ \, \, \, 2 \end{array}\right) 次。显然,声音整体的不协和度 d 几乎不受 nN 的影响。无论如何,我们发现标准化 d 的值并不是必需的。

  该求解过程最相关的应用之一是绘制一个八度内音程的协和度曲线:图 3

  如 图3 所示为纯律音阶(Just Intonation scale)下,固定的音程低音 \rm C_4 \, (\approx 261 \, Hz) 与一个八度内不同频率(连续实数范围取值)的高音组成的音程的不协和度的最小值。该曲线的意义用数学语言可以表示为:对于 f_0(s_1) = \rm C_4 (\approx 261 \, \rm Hz)f_0(s_2) 为横坐标值的 d_{\rm min} (s_1, s_2) 。前述横坐标值在一个八度内,即 f_0 (s_1)2f_0 (s_1) 之间变化。之所以说是最小值,是因为这考虑的是纯音(单一正弦波)音色,如果还有别的分音则不协和度只能更大。当 n = 6 时,这一曲线与 Plomp 和 Levelt 的文献[2] 556 页中的相同。显而易见,曲线的局部最小值对应于具有简单频率比的音程——1:1和1:2(同度和八度)、2:3(纯五度)、3:5(大六度)、3:4(纯四度)、5:6(小三度)、4:5(大三度)。值得强调的是,如果选择更大的 n 值(译者注:即选择包含更多泛音的、更复杂的音色),则会引起如下现象:随着 n 的增大, d_{\rm max} 也会增大。这是因为泛音越多,就会期望匹配到越多的临界带宽内形成的拍频。协和度曲线中将出现额外的最小值,而且如果叠加的一系列纯音接近泛音列,则会产生新的音程,从而引起 f_0 的分化(例如,相较别的泛音,第七泛音更能激发产生额外小七度音程,从而使小七度音不是作为泛音而是另一个独立的基频而分离出来)。

  这些极小值的存在,以及关于协和度曲线的更普遍的性质在 Sethares 处得到了广泛的研究[4]。

  算法 S 的另一个应用在于估算由稳定音高组成的和弦(tonal chords)的协和度。我们可以把一个由稳定音高组成的和弦(简称“和弦”)看作同时响起的 N 个复合音( N \geq 2 )。用数学语言解释:设有 N 个复合音 s_kk = 1, \, 2, \, \cdots \, , N ),每个复合音由泛音(分音) f_{1}^{(k)}, \quad  f_{2}^{(k)}=2 f_{1}^{(k)}, \quad \cdots, \quad f_{n}^{(k)}=n f_{1}^{(k)} 组成。这样,算法 S 就可以应用到每对纯音(即泛音、分音): v_{i}^{(k)}, \quad v_{j}^{(h)}, \quad (1 \leq i, j \leq n, \quad 1 \leq k \leq h \leq N) (当 h = k 时跳过对 i = j 的控制),由此可得每对泛音——复合音 h 的第 i 泛音与复合音 k 的第 j 泛音匹配的相应不协和度值 d_{i j}^{(h, k)} 。由此可进而计算出和弦整体的不协和度值: d=\sum_{1 \leq k \leq h \leq N} \sum_{ i, j=1}^{n} d_{i j}^{(h, k)} . ( 显然,N = 2 时就是我们前述的简单情形)。这一方法的应用将在本文第四节详述。

  众所周知,生活中的声音和音乐声大部分都是复合音。复合音的音色主要由组成其的分音(泛音)的比例决定。在本文第二节中描述的理想情况下,为简单起见,假设构成复合音的所有分音都是相同的强度(纯音响度)。然而,两个音产生的谐和感某种程度上取决于它们的相对强度——如果两个音的其中之一减弱直至消失,那么这个音程的粗糙(拍频)也会随之减弱直至消失,反之在增强时粗糙感也会增强,这种想法是很自然的。前述 Plomp 和 Levelt 得出曲线的实验[2],是在 65 \, \rm dB 的恒定声压下进行的。而在龟冈等的文献[5]中考虑了每个单音的声压值,从而引入了声音强度方面的影响。另一方面,Sethares[4] 从认为可以把复合音分解为不同振幅纯音的叠加出发,其计算不协和度的公式直接由纯音的振幅值组成。

  我们提议一种估算协和度的新方法,它只涉及响度的大小(而不是参考客观测量的声压或振幅)。该方法最基础的一步在于“修正”算法 S 对于纯音 f_1f_2 组成的音程的不协和度 d(f_1,f_2) 的求解。形式上,我们的目标是根据一对纯音中各自的强度(记 xy )找到一个合适的加权函数 q,以它修正后得到的不协和度的新值为 d \times q(x,y) 。一旦找到了 q ,则两个复合音的总不协和度将与本文第二节中所述方法同样地,定义为所有经修正后的项之和。此时重要的是,需要指明用来表述声音强度的单位。以此研究衡量主观听觉感知的声音协和度的目的,选择主观单位的“方”(phon)——而不是客观的分贝(dB)——作为响度单位是比较自然的。这是为了避开那些实际响度非零,然而不能听到的声音的情况:对那些无法听到的声音并不能造成任何协和或不协和的感受。因此,实验数据中所有用分贝(dB)表示的声音强度值,都会用 Fletcher-Munson [6] 的“等响曲线”(curves of equal loudness)转化为以“方”(phon)为单位的主观响度值。如此, x = 0, \quad y = 0 对应于等响曲线上可闻阈的下限。我们也应当注意 Sethares[4] 恰当地指出了等响曲线的使用。

  我们现在讨论加权函数 q(x,y) 的选择。首先,我们可以很自然地想到当一对同时响起的纯音 f_1, f_2 中的一个不能被听到时,其不协和度应为零。因此形式上,我们需要:

  q(x, 0)=q(0, y)=0 . \quad \cdots \cdots \, (3)

  除此之外,可以很自然地推测出“粗糙度”的感知模式与对响度的感知类似。更具体地,我们可以说函数 q 需满足以下要求:无论两个响度的其中一个是否保持不变,总体不协和度必须随着其中任一个响度的增大(减小)而增大(减小)。换句话说, q(x,y) 必须沿着满足下式的 xy 为常数的直线的方向增大:

  q\left(x_{1}, y\right)>q\left(x_{2}, y\right) \text { if } x_{1}>x_{2} \geq 0, \text { and } q\left(x, y_{1}\right)>q\left(x, y_{2}\right) \text { if } y_{1}>y_{2} \geq 0 . \quad \cdots \cdots \, (4)

  现在我们考虑两音响度相等的情形: x = y 。基于 Frova [6]关于两个同时响起的复合音的总响度的讨论,可推知:当两个纯音以相同响度同时响起,且它们的频率在临界频带以内,则它们的总响度保持不变。因此在 x = y 方向上,函数 q 应满足:

  q(x,x) = x . \quad \cdots \cdots \, (5)

  基于 (5) 式的线性特性,我们可以直接推论得到:如果两个相同响度的音 (x,x) 的响度增加一倍、两倍或减半等,则整个混合声音的不协和性(同时等于响度)以相同的比例增减。我们注意到,在这种情况下,不协和度的最大值 1 (见图 2)将被替换为 x ,其中 x 的值可以是任意的,这并不符合我们的建模目的。因此,函数 q(x,y) 的对称性存在疑点。龟冈(Kameoka)与栗谷川(Kuriyagawa) [5] 关于人耳对协和性的感知实验表明:对人耳的主观感知而言,当两个纯音同时响起时,高者更响时比低者更响时协和。在我们的方案中, x 表示低者的响度, y 表示高者的响度,让我们先考虑 x \leq y 的情况。如果我们要求 q 通过算术和几何平均值作用于 xy ,则可以进一步接近对 q 的选择:

  q(x, y)=\left(\frac{x+y}{2}\right)^{\alpha}(x y)^{\beta},\quad 0 \leq x \leq y. \quad \cdots \cdots \, (6)

  其中 \alpha\beta 是非负实数。任何属于 (6) 式类型的函数都能满足性质 (3) 和 (4) 。再由 (5) ,可知一定有:

  0 \leq \alpha<1, \quad \beta=\frac{1-\alpha}{2} .\quad \cdots \cdots \, (7)

  由此代入消去 \beta ,可得:

  q_\alpha(x, y)=\left(\frac{x+y}{2}\right)^{\alpha}(x y)^{(1 - \alpha)/2},\quad 0 \leq x \leq y , \quad 0 \leq a < 1.\quad \cdots \cdots \, (8)

  注意当 \alpha = 0 时 (8) 式可得几何平均数;而 \alpha = 1 时可得算术平均数,这与性质 (3) 不相容。此外,取决于参数 \alpha 的一组函数 q_{\alpha}(x, y) 需满足:\sqrt{x y} \leq q_{\alpha}(x, y)<\frac{x+y}{2}f_{\alpha_{1}}(x, y) \leq q_{\alpha_{2}}(x, y) \, \text { if } \, \alpha_{1} \leq \alpha_{2} ;当 \alpha\rightarrow 0 ,所有 q_{\alpha}(x, y) \rightarrow \sqrt{xy} (而非 x + y \over 2 )。

  通过引入一种与 (8) 式同类型而指数不同的函数,我们可用同样的方式处理另一种情况 x > y 。我们期待一个指数 \alpha' > \alpha ,因为两音同时响起时低者被认为对协和度的贡献不如高者大 [5]。这样,我们获得了该修正加权函数 q_{\alpha, \alpha'} 的定义,如下:

  \begin{aligned} q_{\alpha, \alpha'}(x, y)=&\left(\frac{x+y}{2}\right)^{\alpha}(x y)^{(1-\alpha) / 2} \times \frac{1-\operatorname{sgn}(x-y)}{2} \\ &+\left(\frac{x+y}{2}\right)^{\alpha'}(x y)^{\left(1-\alpha'\right) / 2} \times \frac{1-\operatorname{sgn}(y-x)}{2}, \quad x, y \geq 0. \end{aligned} \quad \cdots \cdots \, (9)

  其中的 \rm sgn 为取符号运算:若实数 z 为正, \operatorname{sgn}(z) = 1z0\operatorname{sgn}(z) = 0z 为负,\operatorname{sgn}(z) = -1 。为了让读者对该函数有直观的感受,我们作出了 \alpha = 0.2,\quad \alpha' = 0.8q_{\alpha, \alpha'}(x, y) 的图象,见图 4。图 4

  由此可注意到,当 x \rightarrow 0y \rightarrow 0q 的导函数 q' \rightarrow \infty 。此外,参数 \alpha 越大,在轴附近的函数图象就越“陡峭”。这一现象的物理意义是,满足 \alpha 越大的模型的人耳对不协和度的感知越迅猛。如果 (5) 式对该函数线性特征的推测不符合实际经验,则对函数 q 保持如 (6) 式的结构,我们会对 x = y 的情况得到 q(x,x) = x^\gamma ,其中 \gamma = \alpha + 2\beta ,这样给 x 的强度引入非线性的独立性。

  为清晰起见,我们总结前文讨论过的算法及其应用:给出 N 个复合音 s_{k}, \quad k=1,2, \cdots, N ,它们各自包含各自的第 n 泛音 f_{1}^{(k)}, f_{2}^{(k)}, \cdots, f_{n}^{(k)} 。运用算法 S,计算出 f_{i}^{(h)}f_{j}^{(k)} 所产生的不协和度值 d_{i, j}^{(h, k)} 。用修正系数(加权函数的值): q_{\alpha, \alpha'}\left(x_{i}^{(h)}, y_{j}^{(k)}\right) \quad \cdots \cdots \, (9') —— 其中 x_{i}^{(h)} (相应 y_{j}^{(k)} )是 f_{i}^{(h)} (相应 f_{j}^{(k)} )的主观响度,来修正 d_{i, j}^{(h, k)} 的每项。用公式 d=\sum_{1 \leq k \leq h \leq N } \sum_{i, j=1}^{n} d_{i j}^{(h, k)} q_{\alpha, \alpha'}\left(x_{i}^{(h)}, y_{j}^{(k)}\right) ,求出声音整体的不协和度 d

  据我们目前选择的参数 \alpha (对于 x \leq y )和 \alpha'x > y )而言,我们设定以下实验中 \alpha = 0.2,\quad \alpha' = 0.8 。然而,只要进一步的推测或实验数据导致某些特定的选择,这两个值就可以在 (0, 1] 内任意取值。

  我们考虑的第一个实例是绘制带有 8 个特定响度泛音( n = 8 )的从 \rm C_4 \, (261.6 \, Hz)\rm C_5 \, (532.2 \, Hz) 连续频率区间的协和度曲线。此时我们需要让这些泛音的响度与特定乐器频谱一致。在这次绘制中我们采用了钢琴,并通过“等响曲线”[6]将各个泛音的强度(声压,以 dB 为单位)转换为主观响度(以“方” phon 为单位),列表如表 1:表 1

  表 1 展示了经“等响曲线”转换后的 \rm C_4\rm C_5 前 8 个泛音 f_{i}, \quad i=1, \cdots, 8 的主观响度(单位为“方” phon),乐器为钢琴。

  之后我们在试图补全 \rm C_4\rm C_5 之间的连续频率区间的各泛音响度信息(译者注:即把表 1 做成连续动态的形式)时,遇到了无可用数据的困难(译者注:可能由于乐器条件不允许,或者支持调律的采样乐器的精度无法达到无限的客观原因造成)。

  我们通过以线性方式对现有数据进行插值来填补这一空白。我们假设线性插值可以适用,是基于“在钢琴 \rm C_4\rm C_5 的八度中,能量均匀分布与各谐波(分音)之中”的事实,正如我们从 Jeans 文献[7]中推导出来的。如我们所料,音色确实会影响协和度(协和性)的感知:为此,我们避免像 Sethares[4] 假定的那样对不同音高的复合音保持相同频谱。(译者注:这里作者的意思是指,避免就像一些采样音色那样只通过伸缩音频改变音高,音色实际没有变化,因为实际情况是乐器在不同音高和音区上的音色即频谱都各不相同。)对固定的低音 \rm C_4 的连续滑动的高音(从 \rm C_4\rm C_5)之间音程的协和度变化的评估,我们使用 MATLAB 软件绘制了音程高音从 \rm C_4 \, (261.6 \, Hz)\rm C_5 \, (532.2 \, Hz),步数为 1000(步长即“精度”为 0.26 Hz)的音程协和度曲线,如图 5:图 5

  图 5 展示了带不同响度的上述音程协和度曲线。图中虚线的横坐标对应频率为十二平均律的 12 个半音,供对照。符号 ○、◇、× 所在位置的横坐标分别对应纯律(Just Intonation)、中庸全音律(Meantone,简称“中全律”)和韦尔迈斯特第三律(Werck III)下的 c-e \flat (小三度)、c-e(大三度)、c-f(纯四度)、c-g(纯五度)、c-a \flat (小六度)、c-a(大六度)音程。

  在此再次强调,一个音程的频率比越简单越协和,因此协和度的最大值对应最简单的频率比。正如本文第二节中观察到的那样,增加泛音数 n 会导致出现更多的不协和度最小值(与下文实例的表 2 比较,其中 n = 6 。)实际上,图 5 在 \rm 457.8 \, Hz 处的局部最小值对应于 \rm C_4 的第七泛音,即七次谐波(在十二平均律中这个音在 \rm a\rm a \sharp 之间)。这一泛音也跟别的泛音共同引起了图 5 中 \rm d\rm d \sharp 之间的局部最小值(译者注:即横坐标 300 Hz 稍右方的最小值)。

  众所周知,是简单的频率比派生出了纯律。过去的几个世纪中,出于实际原因(主要是关于键盘乐器的原因),人们引入了许多律制和调音系统。我们将尽可能考虑覆盖最广泛(古老和现代)的键盘调音系统:巴洛克时期的“四分之一音差中全律”(Quarter-comma meantone)、近代的“韦尔迈斯特第三律”(Werck III)和现代的“平均律”(Equal Temperament)。这些律制的介绍可参阅 Rossing[8] 和 Hall[9] 的文献。在图 5 中,我们还标记了每个音程根据每个特定律制(中全律、韦尔迈斯特第三律、十二平均律)的自然音阶进行调整的差异。

  将图 5 的曲线与图 3 的曲线进行比较(所有泛音即谐波的声强都相同),我们指出,在协和音程的层次中,完全协和音程 1:1(同度)、1:2(八度)、2:3(纯五度)、3:4(纯四度)应被置于不完全协和音程 3:5(大六度)、5:8(小六度)、4:5(大三度)、5:6(小三)之上。

  让我们考虑第二个实例。我们测量了不同律制下的相同和弦,得到了非常有趣的结果。我们选取三度叠置密集排列的原位大三和弦,范围从 \rm c-e-g\rm g-b-d',各自不同的律制(纯律、中全律、Werck 第三律、十二平均律)。为清晰起见,我们将 \rm c 音的音区定为 \rm C_4 。(译者注:作者系意大利人,使用大小字组表示音名,“小写”的“小字组” \rm c 在当代科学分组法即 DAW 卷帘窗常用分组法中表示为 \rm C_4 ;高一个八度的“小字一组” \rm c^1 或写作 \rm c' 是对应 \rm C_5 ,如此类推。同时,如果单独出现小写字母音名如 \rm c 等,则也可能指不特定音区的音名。之后这一段论述即属于这种情况。)让我们假设有一个键盘,它有从 \rm c\rm b 共 12 个键: \rm c , c \sharp , d , e\flat, e , f , f \sharp , g , a\flat, a , b\flat, b 。我们知道,两个频率 f_1f_2 \quad (f_1 < f_2) 之间的音程(以“音分”——cents 为单位)的定义式如下:

  \text { cents }\left.=1200 \log _{2}\left(f_{2} / f_{1}\right) \quad \text { (cents } \approx 3986 \log _{10}\left(f_{2} / f_{1}\right)\right). \quad \cdots \cdots \, (10)

  纯律十二声半音阶的音分值(距离 c 音,单位“音分”——cents)如下:c (0), c? (71), d (204), e? (316), e (386), f (498), f? (568), g (702), a? (814), a (884), b? (1018), b (1088), c′ (1200);中全律为:c (0), c? (75.5), d (193), e? (310.5), e (386), f (503.5), f ? (579), g (696.5), a? (814), a (889.5), b? (1007), b (1082.5), c′ (1200);Werck 第三律为:c (0), c? = d? (90), d (192), d? = e? (294), e (390), f (498), f? = g? (588), g (696), g? = a? (792), a (888), a? = b? (996), b (1092), c′ (1200);(译者注:需特别注意 Werck 第三律跟十二平均律一样,都是支持等音的。)相应地,十二平均律就是全部等分,每个半音都是 100 音分:c (0), c? = d? (100), d (200), d? = e? (300), e (400), f (500), f? = g? (600), g (700), g? = a? (800), a (900), a? = b? (1000), b (1100), c′ (1200)。上举的所有音分值都是直接运用 (10) 式计算得出。在下面的论述中将对这些音在各自律制下的频率比作详细解释。

  我们运用上面总结的算法以及公式 d \times q(x,y) 计算了不同律制下不同根音上的三度叠置密集排列的原位大三和弦(形如 \rm c-e-g )的非标准化不协和度值,根音范围 c 到 g , N = 3, \quad n = 8 (译者注:大三和弦有 3 个音,所以 N = 3n = 8 是因为只取了钢琴音色频谱的前 8 个泛音作计算,得出的结果虽然并不适用于完整的钢琴音色频谱,但由于钢琴的音色“正弦性”较强,声学能量都集中在开头几个泛音,所以跟完整频谱还是比较接近的,具有足够的说服力。)得出了表 2:表 2

  特别注意,对于不支持等音的律制(或称“非等音律制”,Non-enharmonic tuning),在此例中为纯律和中全律,由于只使用了 12 个音的数据(如只用了 c?而没用 d?,等等,而实际上在非等音律制中 c?和 d?等的音高是不同的),因此所求的大三和弦在这些律制中是取了 \rm c\sharp-f-a\flat …… 而非 \rm c\sharp-e\sharp-g\sharp …… 等的音高音分值。这点需特别注意。

  显然,不同根音上的三和弦的协和度差异在纯律中最显著。对表 2 中检验的和弦使用的音列是: \rm c , c \sharp , d , e\flat, e , f , f \sharp , g , a\flat, a , b\flat, b ,对于根音为 c 到 g 的这九个大三和弦而言,尚有 \rm e\sharp, g\sharp 两音在音列之外。在纯律等“非等音律制”中, \rm e\sharp = f, \quad g\sharp=a\flat …… 的“等音关系”是不存在的,实际的音高不同,即:在“非等音律制”中, \rm e\sharp \ne f, \quad g\sharp \ne a\flat …… 。因此上述实验中,在音列内的和弦,即保持了与以 c 为根音的大三和弦相同的音程的和弦,即根音与三音之间的大三度(纯律中的频率比 4:5,对应 386 音分)和根音与五音之间的纯五度(纯律中的频率比 2:3,对应 702 音分),具体是 \rm e\flat-g-b\flat\rm f-a-c\rm g-b-d,它们的不协和度值与 c 为根音的 \rm c-e-g 非常接近(在 100 左右)。而为了适应音列而不得不使用等音“代理”的和弦,具体是 \rm c\sharp-f-a\flat(代理 \rm c\sharp-e\sharp-g\sharp)、\rm e-a\flat-b(代理 \rm e-g\sharp-b)、\rm f\sharp-b\flat-c\sharp(代理 \rm f\sharp-a\sharp-c\sharp),则不协和度明显较高(分别约为 130、110、110)。显然,如果我们在同样的纯律下引入能囊括所有升记号和降记号的完整十七音音列(比原来我们选取的十二音音列多出那五个所谓“等音”),从而把那些需要“代理”的音都“解放出来”,那么这些较高的不协和度将被明显缓和。例如:考虑对 e 上的原位大三和弦(原来“代理”为 \rm e-a\flat-b )引入 \rm g\sharp (772音分,这个音分值在原十二音音列中不可用),这样我们就可以按 \rm e-g\sharp-b 计算,得到不协和度值是 99.91 ,不出所料是一个接近 100 的值 (即接近 \rm c-e-g 的不协和度)。此外对于以上未解释的 \rm d-f\sharp-a ,虽然在音列上但不协和度却较高(达到了 120 左右),这是因为 \rm d-f\sharp-a 的大三度(364音分)和纯五度(680音分)的自然比例都发生了变化,这并不奇怪。这还说明了纯律以外的律制(表 2 的其余三列)存在的必要性,因为乐器能支持的音列总是有限的,键盘乐器一个八度内往往只能装下十二个音,而要覆盖完整的纯律音高(音列)则需要十七个。实际上,可以观察到 \rm d-f\sharp-a 显然在“中庸全音律”中的不协和度更低(对照表 2)。这是因为相较纯律,“中庸全音律”(Meantone,简称“中全律”)对平移的大三度的协和性的保存得更好,具有更好的“平移稳定性”(译者注:“平移稳定性”即同一大小的音程在平移过程中协和度值保持不变或尽可能小幅度变动的特性。在纯律下,大三度的“平移稳定性”差,而在“中全律”下,大三度的“平移稳定性”好)。事实上,由于“中全律”是从\rm c - g ,\quad g - d′ , \quad d - a , \quad a - e′ 四个纯五度音程缩小一个“准同度音差”(syntonic comma)得来,这种生律方式造成所有的大三度音程都是自然的,\rm c-e 等大三度音程的最简单频率比 5:4 得以体现,(译者注:可以把频率比最简单的音程称为最自然——natural 的音程),且所有除 \rm c\sharp-a\flat (738.5 音分)外的五度音程都相等(696.5 音分),与纯律相近——这客观上导致了在“纯律”和“中全律”下 \rm c\sharp 上的大三和弦(代理为 \rm c\sharp-f-a\flat )的不协和度是最高的。再次强调:在上列各和弦中,三度为自然音程是较低不协和度的成因。“韦氏第三律(Werck III)”是从 \rm c - g ,\quad g - d′ , \quad d - a , \quad b - f\sharp′ 四个纯五度音程缩小四分之一个“毕氏音差”(Pythagorean comma)得来,因此五度圈是封闭的,是一个支持等音的律制。在此律制下所有大三度都不是自然的(译者注:即并非最简单频率比的),而且并非所有纯五度都是 702 音分(即不是 2:3 的最简单频率比),因此这个律制下的大三和弦都不如纯律那样达到完美协和。在历史上,作为十二平均律的前例,“中庸全音律”和“韦氏第三律”都是为了方便乐器转调而引进的。表 2 的数据也表明,相较纯律,“韦氏第三律”均匀了各个根音上的三和弦的协和度。律制的发展史是一部在“纵向完美协和”与“横向平移不变性”的权衡史,为了纵向的完美协和(如纯律),则必定会牺牲横向的音程平移不变性,反之亦然。在“韦氏第三律”中,c、d 和 g 上的大三和弦仍然保持了最简单频率比,因此如纯律那样保持了这三个和弦的完美协和。这是一个“折中”的律制,直至十二平均律普及后,“完美协和”被完全丢弃。在十二平均律中,没有一个音程(和弦)是真正自然的:大三度总是 400 音分,纯五度总是 700 音分,它们的频率比是一个无理数(音程的“半音数”为 n ,则频率比为 2^{n \over 12} )。然而十二平均律的音程平移不变性很好,从表 2 也可以看到,十二平均律下不同根音上大三和弦的不协和度都可以近似为 110,平移的波动在实践中小到可以忽略不计。(译者注:在“音符思维”的音乐实践中确可以忽略不计,然而如需要精确到频谱,如频谱音乐的“音色思维”等,则不能忽略不计。)表 2 最后一列数据显示不协和度随频率升高而降低,这以一致的方式反映了一个事实:随着平均频率的增加,小三度音程和临界带宽的频率差趋于减小(见图 1)。

  我们还对小三和弦测试了该算法,计算出的不协和度值如表 3 所示:表 3

  我们注意到在这种情况下小三和弦比大三和弦更不协和。同时,小三和弦的不协和度数据(表 3)与大三和弦(表 2)展现出相同的关系与趋势,因此同样适用我们上文对大三和弦讨论的那些性质。

  我们进而对相同音色下不同种类的七和弦( n = 8, \quad N = 4 )运用了同样的算法,得出结果如表 4 所示:

  正如我们已经注意到的,相对于三和弦,七和弦的不协和度明显更高,因为相较之下 N 增大且各音预期在临界频带内的匹配数量也增多。但是,我们发现与其通过数值计算提出一种绝对的“不协和”概念,不如以各表间数值的对比为导向来研究更加有趣及有意义。即使我们采用的泛音数据是来自现代钢琴(十二平均律),表 2 中的数据放到别的律制下会导致误差,但本文中为了保持研究的主题,暂且忽略了该问题。

  观察表 4,首先,与其它类型的七和弦比较,小小七和弦在所有律制下的协和度都较小:实际上,从文艺复兴时期以来,作曲家(如帕勒斯特里那和蒙特威尔第等)就已广泛使用小小七和弦,可以举出很多例子。而且,甚至在中世纪的多利亚调式(如 \rm d-e-f-g-a-b-c' )中也已可以找到这样的和弦结构。另一个有趣的方面是,减减七和弦(减七和弦)在中全律和韦氏第三律下的不协和度远高于其它七和弦,然而放到十二平均律则与其它七和弦不相上下。这可以解释 18 世纪时随着十二平均律的传播,减七和弦开始变得与别的七和弦一样常用——这除了协和性与风格的原因之外,十二平均律中减七和弦不协和度的显著降低也是重要原因。

  我们还对减三和弦 \rm B-d-f (译者注:即 \rm B_3-D_4-F_4 )进行了一个有趣的测试,结果如表 5 所示:表 5

  如我们所料,减三和弦的不协和度比大三、小三和弦大。但是,我们指出,转位(上表是第一转位即“六和弦”)的减三和弦比原位协和——对所有律制都是如此。这尤其反映在十八世纪音乐的和声进行中转位和弦的广泛使用上。

  关于原位和弦与转位和弦何者更协和,我们做了进一步实验,得到了表 6:表 6

  表 6 中,我们选取了选取一些与表 2 和表 3 构成音相同的(大、小三)和弦的转位(译者注:如此,原文表 6 中的和弦 \rm e-g-d'\rm a\flat-g-c 似为笔误。)计算了不协和度。这些数据对比表 2 与表 3,可以总结出一个规律:一个和弦及其在音集论的中的逆音集所对应的和弦(如大三与小三和弦)原位与转位的协和度的关系及其程度都相反。例如,大三和弦的原位比转位协和一点点,那么小三和弦的原位就比转位不协和很多。这与在终止式中使用转位小三和弦的实际音乐规则相符。

  我们提议用于评估两个或多个纯音或复合音构成的声音的协和度的方法,是一次对 Plomp 和 Levelt[2]方法的改进尝试。一个重要的改进是把每个纯音和复合音的声强或主观响度纳入考虑的因素之中。我们主要参考了如图 2 的曲线,它以临界频带的方式决定了不协和度的数值。我们的方法基于这样一个推测,即“最不协和音程的频率差与临界带宽成正比,与音的响度无关”——这点需要特别说明。一方面,我们可以合理地假设声压级(声强)不会明显影响临界带宽的大小[3][5],因此,图 1 曲线纵坐标的上边界适用于大范围的声强。另一方面,我们也可以推测,最不协和音程的频率差确实会随着声压级(声强)而增加,正如龟冈等[5]明确指出的那样。在那种情况下,我们提出的算法需要稍作修改,包括用一个函数来表达最不协和音程的频率差——实际上龟冈等[5]已经给出了公式 \Delta(f_1,L) = [1+(L-57) / 40] \times 2.27 f_{1}^{0.477} ,其中 f_1 为音程低音的频率, L 为该音程 (f_1, f_2) 的总声压级(声强)。我们认为这一方法切合实际,因为频率低于听觉阈值的声音不会对协和性造成影响。毫无疑问,由于 (8) 式的修正函数的形式是我们推测的,通过实验找到合适的 \alpha\alpha' 值存在明显困难。目前,在我们的模拟中只观察到了这两个参数十分轻微的影响:不修正的情形 \alpha = \alpha' = 0 和只取 xy 的几何平均数产生的是同样的曲线。不过,在我系学位课程中将继续展开相关一系列实验以得到这两个参数更准确的信息。另一方面,我们解释的方法需要了解过程中涉及的任何复合音的完整谐波频谱:事实上,尚不容易获得此类数据。无论如何,本文论述的方法在测定特定乐器(具有特定的谐波频谱)声音内部的协和度层级方面有着不可忽视的优势,正如预期的那样。事实上,图 5 的曲线一定会受到复合音中不同泛音(分音)的声强(主观响度)的影响,这是因为最简单的频率比对应最协和的声音,而事实上只有纯音(即没有别的分音的音色)能在全频谱上达成最简单频率比。从这个意义上讲,我们要做的就是绘制不同乐器的协和度曲线(即不同乐器版本的图 5),以供之后直接取用之便。此外,就如 Sethares[4]所调查的,相反的问题也是十分有趣的:一旦给出了乐器的频谱,就可以在有限个数的音列中求出最协和的基频。在这种情况下,重要的是要考虑那一系列在实数范围内取值的(即“非泛音的”)分音——在不协和度曲线中存在的那些最小值可以定位特定音列的各音程的频率位置。我们上述的理论和数学工具可以作一些细微的修改,以解决这些问题。

  此外还需注意,根据 Terhardt [10]所解释的概念,我们还未将“协和”(sensory consonance——感官上的和谐,以令人不快的因素的排除量为尺度)与“和谐”(harmony——美学上的和谐,考虑的是不同音乐中更具体的“音响亲和力”)区分开。毫无疑问,音乐的“和谐”不仅仅是单纯感官的、物理上的协和,整体音响的“亲和力”、相容性与人的认知也是重要的影响因素。但是,在我们看来,在心理声学评估和音乐理论或音乐经验中出现的一些冲突必须放在考虑单个乐器特定频谱的正确角度。从这个意义上讲,对于某些特定频谱的乐器(译者注:例如一些特定的电子音色),在乐理中认为不协和的 “七度音程”反倒比普遍认为是协和的“四度音程”要协和的现象是不足为奇的。我们在图 5 中获得的协和度曲线(近似钢琴音色)对比图 3(纯音音色),展现出不同的协和度层级结构,这是因为在纯音音色中每个分音对协和度的贡献都是相等的。音程协和度的最大值由音色泛音的个数决定,最小值由音色泛音的强度决定。

  对我们的方法的一个有趣的测试(从音程扩展到和弦)可能在于与作曲家和表演家们所知的音乐创作与表演实用规则相对照。从这种意义上,最好的对照对象莫过于拉莫《和声论》(1722 年)[11] 第二卷《关于和弦的性质与特性,以及可能用于让音乐变得完美的一切》。拉莫在很大程度上讨论了协和性与不协和性的问题。拉莫对协和性的研究包括讨论和弦的转位等,将来我们可以跟随拉莫的步伐,进一步验证不同转位、排列方式、重复音、省略音、和弦外音的准备与解决等和弦的协和度与性质差异的影响。

  本文发布于 声学杂志 (Open Journal of Acoustics),2014:4,78-89 . 知乎中文版由 @Raymond 翻译。http://dx.doi.org/10.4236/oja.2014.42008

  该论文属于Creative Commons协议,使用CC 4.0-BY,在保留署名的前提下可规范转载。