思考总结:领域知识图谱平台构建与业务应用「指北」

  编辑导语:如今,领域图谱的应用范围非常广泛,也有越来越多的企业、机构希望通过搭建领域知识图谱,开发上层业务图应用,实现智能分析决策。本篇文章详细介绍了领域知识图谱平台的构建和应用,一起来看看。

  一、图谱平台简要介绍

  领域图谱的典型应用场景有国防、金融、公安、工业等。从行业渗透情况上看,领域知识图谱最早用于公安、国防等政府部门,随后在金融行业,如银行、保险、基金等得到更大规模的应用,并逐渐拓展至能源、医疗、零售等行业。

  知识图谱可分为构建和应用两大部分。

  对于图构建,主要用户是企业信息化部门、科技部门的技术人员,但在实际的图构建过程中需要与业务人员进行需求梳理与沟通;

  对于图应用,主要用户是业务人员,与图谱平台在行业落地的应用场景相对应,例如银行主要是风控、营销、审计等业务的人员,公安是负责刑侦、经侦、缉毒等工作的人员。

  1. 图谱平台搭建背景

  当下市场环境,各领域、行业对于数据应用需求日渐强烈,越来越多的企业、机构计划建立起数据之间的关联,希望通过搭建领域知识图谱,开发上层业务图应用,实现智能分析决策。

  在建设图谱应用的过程中,会发现数据来源广、规模大、标准不统一等一系列数据问题,伴随业务场景构建复杂、变化快、建模难、复用性低等。此时,图谱平台作为一种领域图谱构建及应用工具,其便捷性与提效降本能力显现出来。

  2. 图谱平台定义

  图谱平台是基于企业内外部的海量多源异构数据,提供完整的图谱构建与应用流程,实现数据抽取、数据融合、图构建、图可视化研判、图计算、图分析、图挖掘、图模式匹配等,并提供各类图应用输出方式以及图业务场景,助力企业快速完成图谱的一站式应用,深度挖掘数据之间的关联价值,赋能数字化转型。

  图谱平台不仅仅是一个技术平台(工具),应该有机集成各种图谱技术,汇集各种知识,包括常识性知识与领域行业知识;良好的人机交互体验,使平台具备一定的流畅性与实用性;并且具备知识服务能力及多行业迁移能力。

  3. 图谱平台建设目标

  领域图谱,面向某一行业或特定领域,用户是业内相关人员,用来辅助复杂的分析或研判,支持应用与决策,对准确率、性能要求较高。因此,图谱平台要有完备的工具、便捷的操作和深度的应用性。

  图谱平台的建设目标首先是降低图谱的构建门槛,让图谱可以被普通客户消费的起;沉淀图谱技术与行业应用能力,快速构建知识图谱并支撑各行业应用能力。

  图谱平台的使命是促进知识图谱的行业落地,因此,集成各种图谱工具模块,积累各行业本体和知识,积累各种应用经验,提高图谱构建效率,降低图谱应用门槛。

  领域图谱平台离开行业落地是没有生命力的,平台并非凭空设计,而是在实战中不断抽象、不断完善,在行业应用中实现完美的技术与业务融合。

  4. 图谱平台业务目标

  搭建图谱平台,一方面,实现业务数据的一站式存储、管理、查询和挖掘,提高决策的准确性及完整性;另一方面,实现业务应用知识沉淀与前置,将图谱理念输入到业务策略中。

  实现对多源异构数据的融合、转换、计算与存储,并基于知识图谱平台开发上层的业务应用。从功能规划和应用设计上以金融风控为例,图谱平台一般提供两方面能力:

  一方面,为机构用户提供企业统一视图、智能关系查询、负面舆情提醒等信息聚合类应用,以满足业务发展中贷前背景调查、贷中授信审批、贷后动态监控等多场景风控需求。另一方面,通过隐性集团派系识别、授信集中度统计、黑名单关联等应用实现合规性风险的深度挖掘和集中展示,满足穿透式监管的需要。图谱平台实现外部数据与业务数据的融合,推出更多应用场景,包括企业信息查询、关联关系查询、动态舆情监控、隐性集团授信集中度分析、异常担保关系识别、黑名单关联分析、担保圈链识别、隐性资金链路等,助力实现数据价值深度挖掘。

  通过建设图谱平台,实现自动信息整合与业务知识挖掘。

  一方面,节省了在信息搜寻、梳理关系工作上耗费的人力及时间,实现业务工作的降本增效。

  另一方面,加强数据洞察与数据价值变现,为业务决策提供有力的工具支持与策略指引。

  二、领域图谱平台应用方法论

  在图谱平台如何构建一个业务场景图应用,以金融行业为例,进行简要方法介绍。我们将整个步骤拆解成9个关键步骤,包括:业务理解、本体设计、关键数据分析、数模映射、数据入图、图可视化、图分析/挖掘、图指标/模型和图输出方式,接下来对该9个关键步骤进行详细拆解。

  1. 业务理解

  首先确定主要使用的业务部门和业务目标,以及展示要求、性能要求、更新要求等等。若业务部门没有相关经验,则需要根据以往的经验结合当前客户的业务目标来引导对于图应用的具体想法和思路。

  有了图应用的想法和思路便可分析现有数据情况,需要的数据内容、数据接入形式、数据来源、数据体量、数据更新机制和要求。

  数据是一切之本,有了数据便可构思本体设计,设想所需的数据属性、关系等计算需求,如:确定实体及属性、关系及属性、事件及属性,确定计算哪些隐形属性和关系,设计计算规则和策略。

  2. 本体设计

  本体设计是图应用中的重中之重,一切的图展示、图计算、图分析、图挖掘、图模式匹配的基础在图构建,而图构建的核心是本体设计(本体设计的方法论本次不做过多赘述,后面单写一篇)。

  设计好本体,便可根据本体进行相应的实体抽取、关系抽取、事件抽取,实体抽取需确定实体的种类、实体的唯一标识、实体的普通属性等,关系抽取需确定关系的种类、关系的主体和客体、关系的属性等,事件抽取需要确定事件的种类、事件的主体和客体、事件的属性等;此处所进行的本体均为后续的图应用做准备,需全面、细致的考虑。

  3. 关键数据分析

  对于关键数据的分析直接决定图应用的质量。因此,需要对数据的特征进行严格的分析,如:是否唯一标识、是否多值、是否空值、是否错误数据、是否标准统一、是否特殊字符等等;

  评估完成数据特征就需要根据图应用要求对数据进行加工,数据加工即清洗、融合、解析、识别、转化等,对入图数据的质量制定一个好的标准。

  4. 数据映射

  数据映射即将需要入图的数据与本体进行一一对应,涉及表的映射、属性字段的映射、字段的治理规则等,根据映射关系和治理规则自动或手动从原始数据治理成图谱需要的数据格式,做好入图前的准备。

  5. 数据入图

  数据入图就是将与本体映射完成的数据导入图数据库,此步骤需要对数据赋权、规定数据入图的任务流、数据导入的方式、以及数据更新方式。

  数据赋权即对数据源权限授权和管理;数据入图任务流需要对ETL任务流进行设计、对任务事件进行管理,使数据按照既定策略进行任务执行;

  数据导入方式,可对不同级别的数据进行不同的导入方式,小批量数据可进行页面可视化导入,对于大批量数据进行接口批量导入,此处用作测试验证和生产环境不同需求来定;

  最后便是数据的更新方式,更新方式包含两种即全量覆盖更新和实时增量更新,导入方式与具体的业务强挂钩,如实时反欺诈就需要实时增量更新,隐性集团派系识别可使用全量覆盖,此处的更新方式不固定,以实际情况作为判断依据。

  6. 图可视化

  图可视化是图应用的重要组成部分,支撑图展示、图分析、图研判,既然是图可视化,就需要一些图操作功能,例如:图查询、图展开(图查询方式,单实体关系展开、单实体对多实体关系展开、批量实体关系展开、多实体对多实体关系展开)、实体类型外观编辑、关系类型外观编辑、属性值高级筛选、属性值高级过滤、图查询语句使用、图图示化分析工具栏、实时查询计算、各种图布局、时序分析、路径分析、实体操作、地理空间分析、关系展开合并、2D&3D切换等等;

  作为行业知识图谱平台,支撑行业场景库的图可视化也非常必要,如:反欺诈团伙展示、担保圈、担保链、企业集团关联关系、资金网络关系、组合风险传导。

  7. 图分析/图挖掘

  图分析图挖掘以图拓扑结构为基础,再图结合图算法、业务场景策略、图推理方式、图计算引擎对图特征及场景结果进行计算。常用的图算法类型有:中心性衡量、节点特征发现、社团检测、特殊结构发现、路径查找等,结合具体的业务场景需求,对图场景数据集进行计算;

  业务场景挖掘需要结合业务识别经验和业务识别规则,对图场景进行分析挖掘,并对分析结果、挖掘结果进行展示,并且可在分析、挖掘结果的基础上进行二次拓展,对严格满足业务规则结果的入库,对疑似满足业务规则的进行结果人工研判。业务场景常用的也需要一些图推理,如:描述逻辑推理、规则推理、以及分布式表示推理。

  当然所有的图计算、图分析、图挖掘都要在分析挖掘引擎之上进行,常用的计算引擎有两类:实时计算引擎、批量计算引擎,此处不做过多赘述。大规模图搜索、图数据的代表节点评价、图数据的社区划分、图数据的向量嵌入,基于图的推荐、节点预测、关系预测等实际应用对图计算引擎性能提出了更高的要求。

  8. 图指标/图模型

  对于图的分析、挖掘离不开对应的业务指标和模型,例如事件规则库、指标库、画像特征库、模型库以及图模式匹配库;以金融风控来说:

  事件指标库有识别规则、风险事件、预警规则、资金事件、关联规则,指标库有业务经营指标、关联风险指标、担保风险指标等;

  画像特征库有社区画像特征库、担保风险特征库、关联关系特征库等;

  模型库有传导路径模型、预警模型、风险计量模型、风险事件传染、图谱特征分析、预警计算、风险传导、中介度、风险扩散度、风险汇聚度、网络影响度、风险大小分布、风险密度分布等。

  还有一定程度的图模式匹配需求,如:资金流转链路、资金回流、隐性资金流转线索,以及担保圈中的循环型担保、融资型担保、平台型担保、循环担保等等,并且可支持自定义的图模式匹配

  9. 图输出方式

  按照如上的图应用类型,图谱平台需要提供与之对应的输出方式,向业务赋能;常用的图谱平台赋能方式可以总结为以下4种类型:

  业务系统嵌入,把图分析、图挖掘结果嵌入到业务系统当中,当查询到某一业务节点时,可打开对应业务场景的图谱展示。接口传参调用,当业务系统有新增时通过接口传入图项目数据集当中进行实时计算或批量计算,计算完成后通过接口返回。独立平台提供,图谱平台作为独立的图一体化平台,提供图构建、图展示、图分析、图挖掘、图推理等服务。内部数据源,将各种图数据指标、图特征计算完成之后,推送至数仓、业务系统、决策引擎或其他业务系统等进行调用。三、数据处理能力

  1. 入图数据处理能力

  图谱平台跟大数据平台一样,需要处理各种格式的数据,对入图数据进行加工。对于结构化数据,图谱平台跟大数据平台有重合功能,区别在于,图谱平台需要通过本体来建立数模映射关系,并将数据库数据以本体为标准集成形成知识网络,数据库则通过表结构对数据进行集成。

  对非结构化数据,图谱平台与大数据平台则有本质的差异。大数据平台一般将文本、图像、视频等非结构化数据存入数据库或加索引,通过关键词检索,一般有对文本的分类、聚类、打标签、命名实体识别,但不具备或者具有比较弱的图谱构建能力,最多基于图数据库做图数据的导入。

  图谱平台最好与大数据平台进行隔离,形成高内聚低耦合的大数据平台与图谱平台,图谱平台只进行入图数据格式的处理及加工,大数据平台对数据进行治理、统一标准,治理完成之后输入图谱平台。

  2. 非结构化数据处理能力

  据IDC调查报告:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。据报道指出:平均只有1%-5%的数据是结构化的数据。

  面向非结构化数据,提供易用的可视化标注模块来满足实体标注、实体关系标注、事件标注、实体属性标注等多种标注任务,并尽可能地支持多人协同标注、以篇为维度的标注、以标注实体/关系/属性类型的标注等多种标注形式是图谱平台不可获缺的能力。

  对于非结构化数据源,先进行基于本体约束的结构化抽取,形成三元组,然后再进行结构化映射。结构化数据的映射,自身已结构化,涉及到的抽取操作更多是工程和产品上的,需要考虑操作易用性、数据安全性和完备性。

  非结构化数据接入模块所体现出来的是极具门槛性的,“非结构化抽取能力”,即常说的“实体识别、实体关系抽取、事件要素、事件关系抽取”能力,包括抽取模型设计、抽取模型实施以及抽取模型评测等几个方面。

  非结构化数据,由于存在从非结构化到结构化的过程,是整个环节中最为关键的部分,这个部分是产生数据误差、引入噪声最有可能的一步,抽取规则选择不当或者抽取模型性能达不到要求,后续步骤便很难走通。

  四、图谱平台应用展望

  1. 功能趋势

  起初,图谱平台偏向基础图构建、图展示和图研判,随着业务应用的深入,业务人员发现图展示和图研判的路径非常多,对于获得正确结果的路径很长,并且极有可能出错。

  这对于图谱平台的应用和大规模的推广极其不利,因此,随着应用的深入,图谱平台逐渐向智能化、简单话方向探索,将业务策略、业务规则直接融入平台,利用图计算引擎,快速获得结果,在图挖掘、图模式匹配等的基础进行判定和二次研判。

  此后,相信图谱平台智能化、便捷化、自动化的能力会越来越高。

  2. 成本趋势

  当前的图谱构建和应用高度依赖于人工,虽然图谱平台具备部分自动化构建功能,但为了同时保证效率、准确性以及可解释性,主流的图谱平台构建和应用方式为人工和自动化的结合。

  未来,随着图谱平台的自动化程度越来越高,图谱的构建和应用成本将大幅降低,依赖人工的程度也将降低,可大幅提高分析决策效率。

  3. 行业趋势

  目前,各行业对知识图谱平台认可度的提高,图谱平台正在领域内拓展开来,目前公安、国防、金融、电商、团购、教育等行业依托图谱实现业务的智能分析与决策。

  未来图谱将在医疗、能源、电力等更多知识密集型行业落地,发挥巨大价值,建设或购买图谱平台成为各行业实现智能分析与决策的重要环节,相信日后会有更多的行业应用案例和产品应用案例展露。

  本文由 @阿拉灯神丁 原创发布于人人都是产品经理。未经许可,禁止转载。

  题图来自 Unsplash,基于CC0协议。

  该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

  举报/反馈