CIO时代APP微讲座:西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用
3月8日,西南科技大学教授张晖在CIO时代APP微讲座栏目作了题为《大数据和人工智能在高校舆情处理中的应用》,详细介绍了舆情处理方面所利用的技术。
目前,计算机已非常普及。据统计,西南科技大学70%的学生每天上网的时间达到2-5个小时,30%的学生的上网时间达到5个小时以上。在这种情况下舆情一旦发生并快速传播,将会对学校造成无法挽回的损失。
西南科技大学在舆情管理方面有三支队伍:第一,党委宣传部中有一个网络管理科,负责网络舆情的内容审查,以及学校官方微博、微信的维护;团委中有一个队伍,当发现舆情后,进行正面宣传;还有就是自行开发的信息化系统,负责网络舆情的自动发现及学校舆情的自动监控。
一、舆情系统架构
系统的架构大概分为三个部分:
1.系统逻辑结构
第一,数据采集层。采集的数据对象有新闻、网页信息、BBS信息及微博信息等,采集信息使用了网络爬虫技术,将信息采集后放在服务器上。由于所采集的网站多、信息量大,我们使用了分布式爬虫技术与大数据的技术,通过一个刀片服务器里的十个服务器同时进行采集,采集后放到学校的大型存储之上。对存储的数据进行数据清洗和抽取后,存入舆情数据库,再进行多维数据分析、情感分析、热点分析等分析工作,分析后的数据将形成舆情报告,并发送到微信上,为宣传部的工作提供指导。
2.系统业务结构
在基础架构上,主要使用了以下几种平台:第一,大数据技术平台。上述提到的分布式爬虫技术综合应用了redis和mongodb进行数据存储,redis快速将爬虫爬到的数据进行预处理,处理好后的数据存入到mongodb中。中间的一层是基于统计机器学习和复杂网络理论的舆情处理层,主要的技术是话题的演化(对已经发生话题、如何发展、正面的话题、负面的话题信息进行分析),分析后的数据在一段时间后需形成摘要,如一周的舆情摘报,传给宣传部整理后发送给相关部门,在此过程中也需要个性化推荐技术。对外发布基于SaaS的云服务,在服务器上发布后,其他高校的宣传部无需安装服务器,只需一个账号即可直接看到其舆情信息。
3.分布式网络数据采集
目前的分布式爬虫技术已做到近200个网站的实时监测,通过基于大数据的分布式采集,其响应时间为3~5分钟,如果网页上有变化,3~5分钟便可察觉,每天的信息增量为8000~10000条。除爬虫之外,为方便了解其他搜索引擎所用到的一些搜索结果,也使用了元素引擎,将学校的主题发送到百度等搜索引擎中,将搜索出的结果与自己爬虫搜索的结果进行组合使用。
舆情系统的功能及核心技术便是分层的处理结构。在信息获取到后,关键在于舆情分析,具体分为三层:最简单的浅层便是用户所设定的关键词,如学校、学院、校领导的名字等浅层信息,以及与这些浅层信息相似的本体组合到一起。接着在关键词和本体上计算与主题的相关性,具体是以主题模型来实现,将一周的舆情做一个文本摘要提供给宣传部使用。通过这些摘要可以发现学校的活跃话题,以及发现关于舆情的发展,是否会形成某一个话题,是否最终会变为一个舆情。然后需要对舆情的舆情正负面进行分析。
这是早期实现的系统4.0,其中未应用到大数据处理技术,但用了人工智能技术,当时的爬虫是基于单机做的一个效果。
这是目前做的系统5.0,其中应用了大数据处理技术,已达到比较好的性能,满足了学校对于舆情处理的需要。
二、舆情系统的特点
爬虫7×24小时不停监测与学校相关的信息,响应速度能达到3~5分钟。
97%以上的信息抽取准确率,提高舆情发现的精度。
基于机器学习的自然语言处理,深入分析舆情倾向、热点、趋势等信息。
多维度统计分析,深入理解舆情的传播过程。
整合高校微信公众平台,让相关工作人员及时掌握舆情动态。
采用云计算模式,监测信息及时,节约用户开支。