人类最后堡垒将被攻破！GPT读心术来了，能偷窥大脑

时间：2023-05-09

　　人类最厉害的莫过于缜密的大脑，而现在，有研究表明，这一人类最后的堡垒或将被攻破。

　　研究人员已经开发出第一种非侵入性的方法来确定内在言语(inner speech)的要点，为不能说话的人提供了一个可能的沟通渠道。

　　在一项开创性的研究中，科学家们利用类似ChatGPT的生成式预训练转换器(GPT)人工智能模型，通过功能性磁共振成像(fMRI)记录，被动解码人类思想，准确率高达82%。

　　大多数现有的思维转语言技术使用大脑植入物，监测一个人运动皮层的活动并预测嘴唇试图形成的词语。但神经科学家希望使用非侵入性技术，如fMRI，来破译内在言语，而不需要手术。

　　现在，研究人员通过将fMRI监测神经活动的能力与人工智能语言模型的预测能力相结合，向前迈出了一步。

　　为了理解思维背后的实际含义，美国德克萨斯大学奥斯汀分校的计算机科学家Alexander Huth和Jerry Tang及其同事将功能性磁共振成像(fMRI)与被称为大型语言模型(LLM)的人工智能算法结合起来。大型语言模型是ChatGPT等工具的基础，经过训练可以预测一段文本中的下一个单词。

　　在5月1日发表于《自然-神经科学》的这项研究中，科学家们让3名志愿者躺在fMRI扫描仪中，记录下他们每人听16个小时播客时的大脑活动。

　　通过测量志愿者大脑的血流量，并将这些信息与他们所听故事的细节以及大型语言模型理解单词之间关系的能力相结合，研究人员开发了一个编码图谱，描绘了每个人的大脑对不同单词和短语的反应。

　　接下来，研究人员记录了参与者在听故事、想象讲故事或观看不含对话的电影时的fMRI活动。

　　研究人员将他们之前为每个人编码的模式和确定一个句子可能如何基于其他单词构建的算法结合起来,试图对这种新的大脑活动进行解码。

　　结果发现，GPT人工智能模型从感知言语、内在言语甚至无声视频中生成了可理解的单词序列，准确率非常高：

　　◆感知言语（受试者听播客）：解码准确率72-82%。

　　◆内在言语（受试者在脑海中叙述一分钟的故事）：准确率为41-74%。

　　◆无声电影（受试者观看无声的皮克斯电影片断）：在解码受试者对电影的解读时，准确率为21-45%。

　　事实上，由于fMRI的高空间分辨率和低时间分辨率，长期以来，从非侵入性记录中解码单词一直是一个挑战。

　　虽然fMRI图像质量很高，但一个想法可以在大脑信号中保存长达10秒，从而使记录能够捕捉到以正常语速说出的大约20个英语单词的组合信号。

　　在GPT大型语言模型出现之前，这项任务对科学家来说几乎是不可逾越的。非侵入性技术只能识别人类受试者正在思考的几个特定单词。

　　然而，通过利用定制训练的GPT LLM，美国科学家们似乎成功创建了一个强大的连续解码工具，因为要解码的单词远远多于可用的大脑图像——这正是LLM的超能力所在。

　　技术缺陷

　　德克萨斯大学奥斯汀分校的计算神经科学家、该研究的主要作者Jerry Tang在一次新闻发布会上说：“大脑数据中的信息比我们最初想象的多得多。”

　　这项研究也被Tang描述为“一个概念证明，语言可以从大脑活动的非侵入性记录中解码。”

　　在德克萨斯大学奥斯汀分校的生物医学成像中心，Alex Huth(左)与Jerry Tang(中)和Shailee Jain(右)讨论语义解码器项目。

　　(图片来源:Nolan zunk /德克萨斯大学奥斯汀分校)

　　值得注意的是，解码器技术还处于起步阶段。它必须为每个使用者进行广泛的训练，而且它不能构建一个他们听到或想象的词语的精确记录。尽管如此，这仍然是一个显著的进步。

　　GPT LLM对它所解码的故事有很多遗漏。它在代词等语法特征方面很吃力，不能破译专有名词，如名字和地点，有时会完全搞错。

　　另一位研究员Alexander Huth说：“我们得到的仍然是一种‘要点’，或者更像是对原始故事的一种解读。”

　　不过，与过去的方法相比，GPT LLM达到了很高的准确度。在这些故事中72%到82%的时间里，解码器对它们含义的解码比随机预测的更准确。

　　此外，研究人员还发现，欺骗这项技术很容易。当参与者在听播客故事时想到一个不同的故事时，解码器无法确定他们听到的是什么单词。

　　编码图谱在个体之间也存在差异，这意味着研究人员无法创造出一种适用于所有人的解码器。

　　Huth认为，随着研究人员绘制出更详细的个人大脑图谱，开发一种通用解码器将变得更加困难。

　　美国国家心理健康研究所(NIMH)的神经科学家Francisco Pereira表示，要确定大脑如何从语言中创造意义是非常困难的，“看到有人做到了，真是令人印象深刻。”

　　心理隐私政策的必要性

　　研究人员现在知道，人工智能语言系统是ChatGPT背后模型的早期亲属，它可以通过查看fMRI脑部扫描，帮助对诱发大脑活动的词语做出明智的猜测。

　　可以看到，尽管并不能真正读心，但利用大脑成像将内部经验转化为文字的技术，能够帮助那些不能说话或以其他方式对外交流的人，如那些遭受中风或患有肌萎缩侧索硬化症(ALS)的人。

　　虽然目前的技术限制使该解码器无法被广泛使用，但研究人员仍强调，需要制定积极主动的政策来保护个人内部心理过程的隐私。

　　“这还不能用来做真正邪恶的事情，”Tang说，“但我们不想在我们制定政策来防止这种情况发生之前让它达到这个地步。”

　　随着这项突破性技术的不断发展，提高人们对大脑解码相关风险的认识，解决伦理问题和制定防止思想解码技术被滥用的政策，这一点至关重要。

　　不过，当人类步入一个由人工智能驱动的思想解码的美丽新世界时，伦理影响不容忽视。

　　哈佛医学院的生物伦理学家Gabriel Lázaro-Mu?oz说：“我不是在呼吁恐慌，但像这种复杂的非侵入性技术的发展似乎比我们预期的更接近地平线。我认为这给立法者和公众敲响了警钟。”