文化的几何学:通过词嵌入方法分析阶层的含义
原文链接
Kozlowski, Austin C., Matt Taddy, and James A. Evans. "The geometry of culture: Analyzing the meanings of class through word embeddings." American Sociological Review 84, no. 5 (2019): 905-949.
导读
近年来随着自然语言处理技术的发展,对于大规模文本数据进行历时性分析已经成为可能。该文作者提出词嵌入模型(word embeddings)作为研究文化的重要工具,并以社会阶层这一概念为例,向我们展示了英语世界关于社会阶层文化含义在过去一百多年中的变迁。词嵌入模型将每一个单词表示为高维空间中的一个向量,通过计算词向量之间的距离来量化单词之间的语义相似程度。如果我们将语义视为文化含义的一种表现,词向量及其语义空间即可被理解为对文化在几何学意义上的呈现。该文是将基于深度学习基础上的词嵌入模型纳入文化分析最早的作品之一,对于计算社会科学、文化社会学、文化研究、以及社会分层等领域的研究都具有借鉴意义。
问题的提出
社会阶层(social class)是社会分层研究领域最为核心的概念之一,旨在衡量个体在社会经济结构中的位置。当代社会科学研究通常将其视为一个多维度概念,主要包含收入、职业和教育等方面。然而,越来越多的学者指出阶层不仅仅是经济地位的体现,而且在日常生活中还具有象征性的含义。从韦伯对经济阶层和声望群体的区分,到布迪厄的文化资本, 都强调了阶层不仅包括物质上的优势,还包括名望、修养和品位等象征性优势。此外,阶层中的道德含义和性别含义也越来越受到关注。此外,阶层中的道德含义与性别含义也逐步受到更多关注。虽然过去的研究对各个阶层维度进行了广泛的研究,但是这些维度之间的关系以及它们如何随着时间的推移而共同演变仍然需要进一步研究。因此,本文使用词嵌入这一自然语言处理模型对上百万册英语书籍进行定量式文本分析,以回答以下两个问题:第一,社会阶层的文化维度之间如何相互关联?第二,随着经济和社会的变化,这些维度如何随时间演变?
数据和方法
(一)数据
该研究主要数据来源为Google Ngram语料库,为英语世界现存最大规模电子文本数据库,囊括了人类历史上出版书籍的6%。该语料库包含各类文本的出版时间,因此可以用于分析同一词或词组在不同年代的语义变化。本文主要使用的是该语料库中20世纪出版的文本。词嵌入模型通常需要极大规模的文本数据来构建稳定准确的语义联系,Google Ngram因此成为使用这一方法探究概念共享含义的最佳数据来源。值得注意的是,由于文本数据的特殊性,该语料库展现的文化并不能被认为是具有一般代表性,而更多地反映英语世界精英群体的文化特性。此外,文章作者还使用了当代问卷、历史问卷,以及其他电子化文本数据(如Google News和Common Crawl)来验证Google Ngram结论的可靠性。
(二)分析方法
该研究采用word2vec这一词嵌入模型分析社会阶层在20世纪含义的变迁。词嵌入模型将每一个单词表示为高维空间中的一个向量,在文本中共享相似上下文的单词会在空间中位置相近,而在不相关上下文中出现的单词则会在空间中位置较远。在词嵌入模型中,通常使用cosine similarity来测量两个词向量之间的空间距离。Word2vec是目前最为广泛使用的词嵌入算法之一,其采用两层神经网络架构,通过与其他单词的共享上下文来优化单词预测。在此嵌入向量空间中,位置接近的词向量往往具有相似的含义。换句话说,一个词向量的周围空间通常为其近义词或者具有相似含义的向量占据。两个单词之间语义相似程度即可用cosine similarity来测量。
词嵌入模型有效解决了以往文本分析方法的局限性。定性式文本分析,如阐释性文本分析和定性编码方法,无法分析大规模文本,且有赖于研究者自身的阐释,缺乏可重复性。定量式方法,比如语义网络分析与主题建模,虽然使分析大规模文本数据成为可能,但在捕捉词之间的连续关系和处理多维度之间关联方面存在不足。词嵌入模型将词表示为高维空间中的连续向量,这使得对词之间关系的更细致分析成为可能。
本文作者使用了Google Ngram中20世纪的文本,将其按照10年为单位划分为10组语料,并利用word2vec算法的skipgram架构,将不同年代的语料训练为10个空间维度为300的词嵌入模型。这些词向量空间可以理解为由单词组成的语义空间,每个单词都有其特定的坐标位置。通过计算词向量之间的坐标距离,可以量化不同词之间的语义相似程度。为了将社会阶层操作化,该研究将其划分为7个文化维度:富裕程度(affluence), 就业(employment), 声望地位(status), 教育(education), 品位教养(cultivation), 道德性(morality), 以及性别(gender)。每一个维度由语义关联的反义词构建,通过计算每一维度反义词词组之间差异的平均值而得,例如富裕维度可通过rich- poor,affluent-destitute等词组差值的平均值计算。
研究发现
(一)富裕维度含义的稳定与变迁
作者首先对富裕程度—这一阶层的核心含义—与其他维度之间的关系进行了分析(图1)。通过计算富裕维度向量与其他维度向量的cosine similarity在不同年代的变化,作者发现,富裕与就业(雇主或被雇佣)的关系最为微弱(靠近0),而与文化修养和声望的关系最为密切。尽管就业地位在社会学理解中与财富积累密切相关,但在一般社会话语中它的关联性却相对较弱。作者认为这与马克思和布迪厄的观点相一致,即生产关系虽然支撑经济层次系统,但阶层的外在象征(如消费模式)是更加可见且具有文化象征意义的。此外,作者发现女性特质(性别维度向量为male - female)与富裕程度具有正向关联。作者认为这可能与历史背景有关,因为在上层社会中,妻子和女儿常常被视为男性“代理消费”的工具,无需工作、挥霍财富的女性正是他们阶层身份的象征。同时,在20世纪末,教育与富裕程度的关联变得越来越密切,超过其他所有维度。这说明20世纪下半叶以来随着教育在世界范围内的大规模扩张,在公共文化讨论中,人们认为教育在社会经济成就和财富积累中发挥的作用越来越大。
(二)多文化维度的相互交织
图2将焦点从富裕扩大到了阶层含义多个维度之间的关系。尽管20世纪发生了经济变革,但阶层的各个文化维度之间仍然非常稳定。修养、道德和教育始终紧密相连,与地位和富裕程度适度相关,但与就业状况几乎是无关的。就业与道德有相反的联系,说明雇主相对于被雇佣者来说被认为有一种负面的道德含义,但却与富足和地位有着正向的联系。
(三)单一维度中关联词汇变迁
文化含义的变迁还可通过关联词汇的变迁展现。图3展示了20世纪初和末期在就业维度上关联程度最高的单词,正向关联表示与雇主(employer)关系密切,负向关联则代表与被雇佣者(employee)关系密切。在世纪初期,与正式职位相关的头衔(如lords, governor)与雇主含义最为相关,而“工资”和“打工人”则与被雇佣者更为相关。随着时间推移,头衔逐渐失去优势,代之以与工业和金融化经济体系相关的术语(如promoter, speculator, rival, mogul);而在世纪末,被雇佣者的含义转向了“退休”、“资格”, “失业”和“学生”,这表明了一种新兴的文化现象,即将被雇佣者视为专业化的白领阶层和中产阶级。
研究讨论
文化含义随着社会经济变迁将发生何种变化?该研究以社会阶层这一社会学的核心概念为例,向我们展示了在20世纪一百年间有关阶层含义的变迁。通过分析过去一百年出版的数百万本书籍中的文本,作者发现随着20世纪经济变革的不断推进,阶层的具体标志持续发生变化,但基本的文化维度却保持着显著的稳定性。值得注意的例外是教育,它与财富的联系变得更加紧密,与文化教养的联系不再那么紧密。
在数字化文本呈指数级增长的背景下,词嵌入模型为分析文化提供了强大的工具。这种模型具有超越传统方法的优势,可以用于处理大型语料库,展现出丰富的语义关系。通过词嵌入模型,研究人员能够以创新的方式探索文化动态,捕捉多种关联,并提供复杂的文化表征。这种高维度模型呈现出文化的多面性,突显其微妙而不断变化的特性,从而可以增进我们对有组织和自发的社会行为的理解。
导读人 | 姚曼 韩思齐
原标题:《文化的几何学:通过词嵌入方法分析阶层的含义》
阅读原文