东北大学在海量异构数据集成管理与分析领域取得新突破
央广网沈阳3月14日消息(记者徐志强)目前,大数据技术广泛应用于各个领域,高效的集成管理与分析技术成为充分挖掘大数据价值的关键。海量数据的规模已远远超出了人们掌握和理解数据的能力,给数据的正确使用带来了巨大挑战。尤其是异构数据,由于缺乏统一的格式与规范,在各部门和各软件系统中的流动与共享困难重重。
近日,由东北大学王国仁教授牵头研发的项目“海量异构数据集成管理与分析技术及应用”针对数据集成质量、数据管理效率和数据分析可伸缩性等关键难题开展攻关,从模式匹配、数据清洗、数据管理和数据分析等关键技术切入,实现了以质量为中心的数据集成、以效率为中心的数据管理和以伸缩性为中心的数据分析,在我国“数字水资源”“数字医疗”和“数字国土资源”等领域的海量异构数据集成管理与分析方面发挥了不可替代的作用。该项目获得2016年度教育部高等学校科技进步一等奖。
以NoSQL和NewSQL为代表的大数据管理系统,在海量异构数据的集成管理与分析功能和性能上存在许多不足,具有巨大的提升潜力。海量异构数据的集成管理与分析有效手段的欠缺,导致了数据管理与分析处理低效和知识发现困难。针对这些技术瓶颈,“海量异构数据集成管理与分析技术及应用”项目提出了一套基于人机交互的数据集成体系,与当前国际上最先进的数据清洗系统相比,数据集成质量提升至少10%,集成方法的可用性居世界领先水平;开发了基于消息传递机制的改进框架及建立于其上的高效查询处理技术,与国际通用的Hadoop生态系统相比,数据管理效率提升50%以上;在国际上率先提出了面向大数据的分布式极限学习机(ELM)数据分析技术,实现了整合有监督、半监督和无监督的分布式极限学习机,与主流的分布式学习系统Mahout相比,系统的平台可伸缩性、数据可伸缩性、隐层节点可伸缩性、数据标注可伸缩性最高提升近20倍。
本项目技术成果和系统已经成功应用于5家企事业单位的7类产品和业务化运行系统中,支撑了系统集成商、政府部门、企事业单位等100余家大型单位的关键业务系统。项目研发了具有自主知识产权的海量异构数据集成管理与分析平台,2013年到2015年,累计新增销售额144802.1万元,新增利润21666.35万元,新增税收6439.79万元,取得了突出的社会和经济效益。