知识图谱技术:工程化视角下的知识图谱特性及支撑应用总结

  目前,各大知名公司也陆续推出了自己的知识图谱产品,如百度知心、搜狗知立方、阿里巴巴的商品知识图谱、微软的概念知识图谱、Facebook的社交知识图谱等,初级阶段的行业知识图谱也开始落地,如金融领域中的知识图谱查询平台企查查、情报领域在抓捕本拉登时斩获战功的palantir(虽然技术细节弄不清楚)。

  不过,从这些应用中,我们发现,一项成功的应用,是要解决一个特定场景下的特定问题的,而特定问题的解决对解决的手段有严格的定义和约束,知识图谱也是一样。它的应用场景肯定是与知识图谱自身的技术特征相匹配的。

  本文主要从工程化的视角谈谈知识图谱与语义网络、语义网的区别,并归纳出知识图谱的技术特性,以及各技术特性所支撑的应用形态,以增强对该技术的理解。

  一、再谈知识图谱的工程化理解

  知识图谱本质上是一个语义网络,是当下大数据以及应用驱动的综合性结果。

  从形式上,语义网络(semantic network)、语义网(semantic web)、知识图谱(knowledge graph)三者十分相关,三者是不同时代的产物,但本质上是好相通的,我们可以认为,在知识表达的角度,知识图谱是对语义网络的强化版以及语义网的简化版,是介于两者之间的一个中间状态。

  语义网络提出得最早,在1960年代提出,这是为了描述人类知识而采用的一种图结构表示方法,这种表示方法与语义网、知识图谱在表现形式上基本一致;

  进入21世纪,互联网开始萌芽,为了实现万物互联,对网络上的资源进行统一标记,语义网在语义网表达方式的基础上引入了基于本体的语义层次化组件,对资源的类型、构成以及表示方式都进行了严格的定义,但这样的结果就是过于“学术”,知识表达过重,而无法进行快速工程化以及满足行业知识处理的需求。

  进入2010年后,随着软硬件的发展以及互联网的大规模普及,各行各业都积累了大量的数据,进入“信息过载”时代,因此,如何进行知识简化,并支持工程化应用的知识图谱对“语义网络”和“语义网”有了更高的要求。

  下表对三者之间的区别进行了对比:

  

  我们可以看到:

  语义网是与语义网络不同的概念,语义网络的出发点不是为了描述人类知识,而是为了表示web资源,属于web资源的一种描述框架,为了“共享”、“标准”设计了一些十分繁重的规范标准。

  与语义网中所描述的以网络资源作为唯一实体不同,知识图谱中的节点是以实体作为表示,在本体表示上是对语义网的一个简化版本,对语义表示这块的约束进一步弱化,在逻辑的语义表达方面降低了要求,并突出以事实型知识为主的重要性。

  如,Freebase知识表示框架只包含对象-Object,事实-Facts,类型-Types 和属性-Properties,一般的领域知识图谱只定义实体类型、实体关系类型、实体属性类等,相当于只是采用了语义网中的RDF层次,而弱化RDFschema以及本体OWL。不过,对语义和逻辑的弱化,使得知识图谱本身不具备推理能力(语义网可以通过预先定义好的规范标准进行推理)。

  2、知识图谱的工程化视角

  虽然从最初的逻辑语义网络(semantic-net)、到语义网(semantic-web)再到Linked-data,在到现在的大规模应用的知识图谱,已经前前后后经历了将近50年的时间,而关于知识图谱的理解和概念还处于不同的变化当中。

  身处不同背景的人对知识图谱会有不同的理解。我们可以从几个方面来看:

  

  从AI的视角来看,知识图谱是自然语言处理中的一项关键技术,目的在于使用实体识别、实体关系(属性)抽取、实体对齐与融合技术对知识进行结构化,这个观点通常来自于算法工程师;

  从数据库视角来看,知识图谱是一种新型的知识存储结构,即采用图的方式来对数据进行存储,如代表性的RDF数据库、Neo4j图数据库等,这个观点主要来自于数据库存储、设计等的数据工程师;

  从知识表示视角来看,知识图谱是计算机理解知识的一种方法,采用事实三元组的形式进行知识表示,并在此基础上实现智能推理,倾向于理论计算机研究员;

  从web视角来看,知识图谱是知识数据之间的一种语义互联或组织形式,通过对数据的标记和链接,形成对数据的互联,这个在做情报分析人员(以图书馆研究员为代表);

  此外,在应用上,目前将知识图谱等同于知识图谱可视化和基于知识的问答的理解还有很多,这是知识图谱的最终呈现形态,是最朴素的理解方式。

  二、基于知识图谱抽象性的问答决策应用

  语义抽象与图结构是知识图谱的一项重要特征。知识图谱是一种很抽象的知识表示形式,它将知识从上下文语义丰富的自然描述中抽象并抽离出来,形成以<实体,关系,实体>为表达形式的图结构。

  这种高度语义抽象的图结构是知识图谱最为重要的技术特征,将知识进一步概括成为一个词、一个短语或者一句话,这使得在查询、问答等应用场景中能够给出直截了当的结果,例如,在百度中询问珠穆朗玛峰高度时,直接返回“8848.86m”这一答案。

  1、更直接、更丰富、更简洁的搜索结果

  与之前传统搜索方式不同,基于知识图谱的搜索问答,可以使得结果更为准确,面对用户搜索关键词意义的多重性,知识图谱可以展示最全面的信息,提供更多机会命中用户需求。

  搜索结果更为全面,利用全面的摘要,相关联结果呈现更详细。搜索结果更广深搜索,通过知识图谱建立的关系让用户可以通过互动、点击拓展搜索的深度和广度。

  

  在完成对知识的抽象之后,实体之间的关联信息进一步简化,直接以关联边相联,借此形成庞大的语义关联网络,这种网络记录了数据之间的强相关性,这是信息推荐、社会网络分析等场景十分需要的技术特征。

  例如用户看过电影《叶问》后,在搜索结果的右侧,给出了甑子丹的相关定影,如《叶问三》、《街头杀手》,也给出了与叶问相关的任务列表,如池内博之、叶准、李小龙以及霍元甲,这种推荐结果更具备可理解性。

  又如,在搜索“珠穆朗玛峰”后,能够得到“乔戈里峰”等其他高峰信息和链接方式。

  2、基于业务知识抽象的决策辅助

  由于知识图谱中所存储的知识单元是对业务知识的抽象和业务逻辑的抽象,这种思想与搜索之外的场景相结合后,能够引申出诸多场景。

  例如,在工业测试和运维领域,通过应用业务日志、CMDB 配置系统等数据构建异常知识图谱,运用推导模型进行根因定位,对存在异常的子系统及其相关的IP、DCN、服务信息进行提取,对异常知识图谱进行裁剪,在此基础上应用规则引擎推导出根因结论。

  在以石油领域为代表的传统行业中,构建设备知识图谱,将设备的生产参数变化转换为状态变化和各种生产现象,模拟专家分析设备运行过程,对设备运行状态进行预测,可以基于不同生产现象的变化在决策图谱中自动选择最优措施方案,生成决策建议,通知现场管理人员进行现场作业和处理;

  在供应链领域,可以收集产品知识、物流知识、采购知识、制造知识、交通信息等数据构建供应链及零部件图谱,将采购、物流、制造联系起来,实现供应链风险管理与零部件选型等服务。

  三、基于只是图谱图结构的信息穿透

  知识图谱提供了数据的全局视图和更语义化的表达,给从业者带来了大数据驱动的决策能力。

  知识图谱的图结构,将知识节点之间进行关联,形成了一个庞大的知识网络,这个网络可以按着“文不如表、表不如图”的信息展示优先级,与数据可视化进行联手,如以Citespace,D3js等可视化手段实现的实体点击、展开、拖拽、缩放等样式,在视觉上展现出知识之间路径发现能力。

  在这个基础上,也为信息穿透在各个领域的后续分析提供了基础。

  1、基于图谱信息穿透的金融风险监控

  以金融领域为例,金融业以领域内部数据为主,通常规模巨大,知识结构复杂,对数据质量要求高,需要融合多来源的数据,并且应用形式丰富全面,要求有较强的可解释性。通常会用于授信审批、贷后监控、异常交易监控、反欺诈、反洗钱、客户经营、市场推广、客户推荐等多个方面,利用知识图谱能够将隐藏在非常复杂关系网络里的作案模式清晰地展示出来。

  例如,反欺诈是金融行业中非常重要的风控环节,其难点在于如何把不同来源的数据整合到一起,构建反欺诈策略引擎,借助图谱数据进行知识推理和规则检验,有效识别出异常信息和欺诈行为。例如客户张三和李四分别申请某银行信用卡和无抵押的消费贷,他们填写的是同一个公司电话,但填写的公司名完全不一样,当将张三和李四的信息关系起来时,“一致性验证”规则会触发,并提示这是一个不一致的风险点。

  2、基于图谱信息穿透的公安侦查分析

  与金融领域类似,公安政务领域中包括人、事、地、物、组织、虚拟身份等不同实体,属性联系、时空联系、语义联系、特征联系、位置联系等不同关系型数据,而在目前大数据联网的条件下,公安领域中的大部分数据都是以结构化信息进行存储的。

  构建起公安政务知识图谱,可以构造出以人为核心的丰富上下文信息,包括个人的基本属性(身高、身份证、亲属、住址),个人的社会行为信息(移动轨迹、住宿信息等记录)、个人的经济信息等等,这在案件侦查等领域中具有十分重要的应用。例如在进行案件犯罪侦破时,将案件所涉及的人、物、组织以及其他相关的关联关系展开综合分析,将与嫌疑人相关联的人物、事件,结合时间、空间等关联分析,抽离出嫌疑人的社交关系子图图谱。

  同时展开分析研判,掌握犯罪团伙组织架构,识别潜在的核心头目、中间人等其他团伙成员,发现犯罪团伙的行为特征、活动轨迹、异常行为类型,也可以聚合银行账户信息、资金转账信息、ATM 取款信息、多媒体图像视频等信息,通过对大量账号的资金多级交易流向分析、时空分析,识别出在复杂资金交易网络中的异常交易行为,确定可疑账户,结合 ATM 取款的地理和图像视频信息,锁定嫌疑人。

  四、基于只是图谱表示法的数据治理

  2015年8月31日,国务院印发了《促进大数据发展行动纲要》中提出,“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”大数据治理是当前大数据时代的重要基础性问题。

  大数据治理从大数据的产生到现在已经经历了十多年的发展,涉及元数据管理、主数据管理、数据质量、业务流程、数据架构、数据标准、数据生命周期、数据安全等多个方面的的内容,同时也出现了如国标GB/T34960的数据治理框架在内的数据治理方法。近年来,利用知识图谱作为数据标准进行数据的工作逐步展开。

  1、基于传统模式的数据治理

  自从互联网在我国得到广泛使用后,各类数据、应用都逐步进入信息化,公司和企业为了实现自身的业务需求,逐步开发以软件系统为代表的私有产品部署,随后在云计算的推动下,开始部署云上业务,实现共享,而实际上每个业务系统还是独立运作的。

  到后面,由于认识到数据开放和共享的重要性,开始提出利用分类、归集、打标签的方式进行数据管理,形成了大量的数据层级目录信息。这些举措暴露出传统模式下数据孤岛以及数据利用率不高数据治理的两大缺点,前者导致数据之间无法关联,发挥数据价值,后者造成了数据的浪费。而且在异构数据、非结构化数据的利用上依然存在许多不完善的地方。

  实际上,随着时间的演变,每个领域或者公司随着时间的迁移积累了大量的异构数据,如半结构化表格数据、结构化CSV数据、非结构化文本数据等,在整个过程中出现包括Oracle、MySql、SqlServer、DB2、Postgres等造成的底层数据格式不统一,CRM系统、ERP系统、OA系统、工单系统、订单系统等系统杂乱造成的数据应用系统不统一,这使得历史数据沉积,迁移困难。业务系统老旧,升级困难,业务数据分散,查询困难,急切地需要企业以及政府数据实现智能化管理。

  2、基于知识图谱的数据治理

  前面说到,知识图谱是语义网的一个延伸,作为Web3.0的美好憧憬,为互联网中的每一个数据都分配一个唯一的标识,并彼此互联,形成一个庞大的数据互联网络。以知识图谱作为目标知识形态,采用技术手段分别进行提取、转换,形成一个统一、规范、无歧义的知识数据库是解决以上智能化管理的一个突破口。

  例如,首先按照业务需求,明确数据类型、数据量级、数据接入方式、数据更新频率等,在经典的大数据治理基础上定义一个包括概念、实体、属性、关系、事件、业务规则、链接多模态数据在内的统一知识表示模型,对数据进行统一的表示。其次,在统一的表示基础上针对结构化、半结构化的数据进行实体识别、属性的抽取、事件抽取等处理,实现统一的知识实例,并根据数据探查和定义实时将海量、多源、异构数据提取、清洗、形成一个大的数据中心。

  五、总结

  本文主要从工程化的视角谈谈知识图谱与语义网络、语义网的区别,并归纳出知识图谱的技术特性,以及各技术特性所支撑的应用形态,以增强对该技术的理解。

  一个技术的落地,必将是与其技术特性相关联的,而且必定需要与工程化、实用化紧密结合。

  之前写过一篇反思文章,对该技术的特性进行了论述,两篇文章可以一起作呼应,得到一个更为体系的认识。

  本文作者

  刘焕勇

  老刘,刘焕勇,NLP开源爱好者与践行者主页: https://liuhuanyong.github.io 。

  本文来自:公众号【老刘说NLP】 作者:刘焕勇

  Illustrastion by Ekaterina Rogova from icons8

  -The End-

  扫码观看!

  本周上新!

  关于我“门”

  将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

  将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

  如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

  bp@thejiangmen.com

  

  点击右上角,把文章分享到朋友圈

  ?一键送你进入TechBeat快乐星球