《大数据》2022年第6期目次&摘要

  《大数据》

  第8卷第6期 2022年11月

  大数据2022年第6期

  目次

  01?专题:面向人文领域的大数据技术和方法

  袁晓如

  摘要

  专题:面向人文领域的大数据技术和方法

  数字人文视域下面向历史古籍的信息抽取方法研究

  作者:韩立帆, 季紫荆, 陈子睿, 王鑫

  摘要:数字人文旨在采用现代计算机网络技术助力传统人文研究,文言历史古籍是进行历史研究和学习的重要基础,但由于其写作语言为文言文,与现代所用的白话文在语法和词义上均有较大差别,因此不易于阅读和理解。针对上述问题,提出基于预训练模型对历史古籍中的实体和关系等进行知识抽取的方法,从而有效获取历史古籍文本中蕴含的丰富信息。该模型首先采用多级预训练任务代替BERT原有的预训练任务,以充分捕获语义信息,此外在BERT模型的基础上添加了卷积层及句子级聚合等结构,以进一步优化生成的词表示。然后,针对文言文标注数据稀缺的问题,构建了一个面向历史古籍文本标注任务的众包系统,获取高质量、大规模的实体和关系数据,完成文言文知识抽取数据集的构建,评估模型性能,并对模型进行微调。在构建的数据集及GulianNER数据集上的实验证明了提出模型的有效性。

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00026.shtml

  历史典籍的结构化探索——《史记·列传》数字人文知识库的构建与可视化研究

  作者:郑童哲恒, 李斌, 冯敏萱, 常博林, 王东波

  摘要:中国古代典籍文献浩如烟海,蕴藏了大量的历史人文知识。以电子化和全文检索为主要方法的古籍数字化开发应用模式已经成为语言文学、历史、哲学等学科的重要基础资源和工具。随着人工智能与大数据技术的发展,数字人文的研究范式不断演进,将传统典籍的文本转换为高度结构化的新型数字人文数据库是一项新的探索,将文本中词汇、人物、地理实体等要素有机组织起来,对于历史现象可视化、历史规律量化具有重大意义。以《史记·列传》为对象,进行古汉语自动分词及词性标注、人工校对以及实体信息人工标注,形成多层次、高质量的数字人文知识库,实现包含古籍词汇、人物、地点等要素的定量分析与可视化检索,挖掘出《史记·列传》人物和地点分布情况、人物关系、人地关系等信息。得出:《史记·列传》共出现人物1 787位、地点1 173个;相比《史记·本纪》和《史记·世家》,《史记·列传》特有人物共1 092位,特有地点共556个。本文研究内容为古籍数字人文知识库的构建提供了新的思路与框架。

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00040.shtml

  文本情感可视分析技术及其在人文领域的应用

  作者:张伶俐, 褚琦凯, 王桂娟, 张巍瀚, 蒲慧, 宋振金, 吴亚东

  摘要:情感分析是对信息情感倾向的挖掘,主要用于舆情监测、商品评论分析以及信息检索等方面。随着社交媒体的快速发展,文本数据量呈现爆炸性增长,文本情感分析成为自然语言处理领域重要的研究热点之一。与此同时,由于情感数据具有海量、时变、非结构性、强关联性的特点,能够直观高效地呈现情感倾向的可视分析技术在这个领域得到广泛应用。回顾了近年来的情感可视分析研究,从表现形式——“主题词”“关联”“演变”“时空分布”4个方面阐述文本情感可视分析方法,并对未来情感分析技术及文本情感可视分析研究进行展望。

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00056.shtml

  数字人文中的可视化

  作者:罗煜楚, 吴昊, 郭宇涵, 谭绍聪, 刘灿, 蒋瑞珂, 袁晓如

  摘要:信息技术的发展推动了科学研究范式的转变。近年来,社科人文领域也逐渐发展出了数据驱动的研究方式。从可视化的角度,对国际数字人文大会论文进行分析,从任务、数据和应用视角3个层面总结了当前可视化在数字人文中的应用现状。通过分析从人文、可视化技术、艺术3种角度出发的数字人文项目,揭示了多学科交叉对提高数字人文与可视化结合项目质量的巨大潜力。同时,分享了北京大学在探究这种多学科交叉合作新范式的实践,包括交叉人才的教育、学科交叉融合的科普以及相关智能可视化技术的研究等方面。最后讨论了通过探索更好的人与人之间合作及人与计算机之间的协作来促进数字人文与可视化学科交叉发展的展望。

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00074.shtml

  研究

  基于双曲空间图嵌入的科研热点预测

  作者:戴筠

  摘要:预测科研热点可以有效地开展科学研究和更好地分配科学资源。数据挖掘和机器学习算法已经被广泛应用到科研热点预测中,比如基于论文文本内容的主题模型建模和挖掘论文被引频次的算法等。提出一种新的将关键词信息嵌入双曲空间的双曲空间关键词图嵌入(PKGM)算法,利用关键词和它们之间的关系构建一个关键词网络,通过计算双曲空间中两个节点的距离来判别两个节点之间存在边的概率,从而对科研热点进行预测。该算法与7个基准算法的实验比较结果显示,PKGM算法与效果最好的欧氏空间嵌入算法相比有7.3%的AUROC和5.8%的AP提升;与双曲图神经网络算法相比,有10.8%的AUROC和7.2%的AP提升。这显示了PKGM算法的有效性。

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00094.shtml

  基于社交网络大数据的民众情感监测研究

  作者:李爱黎, 张子帅, 林荫, 王秋菊, 杨建安, 孟炜程, 张岩峰

  摘要:近年来,新浪微博、推特等社交网络平台逐渐成为反映社会舆情的主要载体之一,为网民发表观点和表达情绪提供了便利。基于社交网络大数据的舆情监控已经成为新的研究热点,利用各国的社交网络大数据进行民众情感监测,有助于直接掌握国际关系中的民众情感倾向,对我国外交、对外贸易等方面都有很重要的作用。基于此,提出了一种面向中日语料的民众情感监测系统,该系统能够同时分析新浪微博和推特等社交平台的中日文语料数据中包含的情感倾向,并以可视化的形式展现给用户。情感分析算法方面,在BERT模型基础上结合自扩展的中日文情感词典,提出了一个新的情感分析模型——EmoBERT。实验结果表明,相比于原始BERT模型,EmoBERT模型在中文情感分类任务和日文情感分类任务上都取得了很好的表现。其中中文模型EmoBERT-C将中文BERT模型准确率从89.68%提升至92.15%,日文模型EmoBERT-J将日文BERT模型准确率从74.73%提升至78.26%。

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00105.shtml

  基于深度学习的警情记录关键信息自动抽取

  作者:崔雨萌,?王靖亚,?闫尚义,?陶知众

  摘要:随着智慧警务的兴起,民众报警渠道拓宽,非结构化警情激增,警情实体识别难度增大。针对这一业务痛点,引入BERT模型获取词向量,融合自注意力机制来捕获文字之间的长距离依赖关系,并构建BERTBiGRU-SelfAtt-CRF警情实体识别模型。为了验证模型的性能和泛化能力,在公开数据集上进行了实验。为了验证模型在警情领域的可行性和效率,在构建的警情数据集上进行了实验。实验结果表明,提出的模型在警情数据集上的精确率达到了82.45%,召回率达到了79.03%,F1值达到了80.72%,优于其他模型。可见,提出的模型可以满足实际公安工作需要,是可行、有效的。

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00127.shtml

  论坛

  欧盟开放数据和公共部门信息再利用指令的启示

  作者:张群, 尹卓, 于浩, 王为中, 贾晓杰

  摘要:公共数据开放利用有利于促进数字经济高质量发展。我国积极出台相关政策引导公共数据开放利用,多个地方出台了有关公共数据开放利用的地方规章和法规条例,但国家层面尚缺少针对公共数据开放利用的法律法规。与我国相比,欧盟持续发布和修订公共数据开放利用相关指令,加快促进数字经济领域技术创新。梳理了我国公共数据开放利用的相关做法,分析了欧盟开放数据和公共部门信息再利用指令的主要内容,结合我国国情,提出对我国公共数据开放利用的相关启示,希望为进一步完善我国公共数据开放利用政策法规和机制、推动我国公共数据深度共享和有序开放提供借鉴。

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00143.shtml

  学术科普

  漫威电影中的知识图谱

  作者:王元卓,?张琨,?陆源

  原文链接:http://www.infocomm-journal.com/bdr/article/2022/2096-0271/2096-0271-8-6-00153.shtml