金融科技最新技术介绍之知识图谱
知识图谱是近年来比较流行的概念,目标是用来描述真实世界中存在的各种实体以及他们之间的强关系,可以用来更好的查询复杂的关联信息,从而可以在深层次上理解客观实体间的关系。
天冕大数据实验室在通用知识图谱的基础上,通过大数据分析,语义理解、知识挖掘等技术分析金融信贷场景和文本,从中提炼出高精度知识,并补充组织成图谱。目前天冕知识图谱已有超过一亿的实体,被广泛应用于用户画像,反欺诈分析等产品。
知识的自动学习和更新是图谱面临的第一挑战。天冕依靠大数据平台集成各方数据,学习集成不同种类,渠道的数据关系,自下而上构建图谱。运用了包括开放信息抽取、本体自动构建、多源数据融合,缺失数据增补以及人机结合的知识验证等多项核心技术。
天冕知识图谱不仅包含了各种实体,更重要是它通过实体间的关系很好的描述了事件的各个维度,包括行为,状态,时序,空间, 概率,评分等复杂知识。随着互联网+经济的发展,越来越多的行业希望利用知识图谱来提供行业知识,互联网金融更对此有迫切的需求。天冕知识图谱根据行业特点重点建设以下能力。
首先,针对金融行业的用户,数据质量参差不齐,数据成本的高低不同等特点,优化了知识图谱构建的策略和算法,并架构了迁移到其他相关行业的能力和方案。
其次我们基于图数据库的底层数据,摸索建立一套评分机制,对相关个各种知识的节点进行测评,如下图所示这类测评结果将对后续流程提供语义理解上的支持。后面章节将对图谱构建和使用场景进行分布介绍。
从文本到图谱的知识构建
与通用图谱相比,金融行业面对的数据来源更多样、结构更复杂,其中既包括来自互联网舆情、监管机构的合规要求、内部报告等文本数据 ,还包括业务系统产生的海量结构化数据。这些数据资源的获取和整合不仅依赖数据爬取、多源异构数据治理、分布式数据存储等技术,也依赖强大的外部数据资源协作能力和内部推动能力。而在知识构建方面,在抽取实体、关系和属性时,虽然同样面临消歧、对齐和融合等难点,如业务专家带着专业知识的参与,会在构建知识图谱时更精确地设计知识结构和数据模型。知识构建阶段完成,就可以获得客户、账户、产品为核心的,包括客户之间、企业与产品之间基本关系、担保关系、资金往来关系的知识图谱。
以消费金融为例,对于每一笔新近的信贷,图谱可以清晰的构建并展示其中客户间的关系和信用情况,账户的历史使用和申请信贷情况,产品,申请设备,乃至地理位置的关联情况。
图谱的知识存储和推断
知识存储阶段承担的使命不仅仅是存储知识,更重要的是为知识应用提供稳定、准确、高效的运转能力,同时还需要支持增量数据和业务变化带来的海量知识更新。而金融机构在应用知识图谱的场景中,普遍数据规模庞大,实体关系丰富且计算复杂,通常会以成熟的图数据库技术作为优先选择。天冕对目前的主流的图数据库都有深入的研究,根据存储本身,搜索、扩展、计算能力的丰富程度、效率以及可靠性和场景来优选存储方案。
知识推断是图谱智能化的体现,天冕把业务应用看成目的明确的“问题-推理-答案”的组合。这项技术被广泛的应用到汇立金融集团的智能客服,在催收关联的合规性检查上也取得了很好的效果。
从图谱到评分的数学表达
知识计算阶段的核心任务是计算隐性关系和扩展属性,这是知识图谱体现智能的重要特点。搜索领域的知识计算主要围绕文本数据进行语义理解和计算,在金融行业中就需要深入结合行业知识。以反欺诈场景为例 ,天冕的反欺诈系统就依靠知识图谱以风控的目的去分析客户间的关系,客户距离已知风险点的距离等,把风险关系数字化。
下图为反欺诈场景下的进件关系展示。
基本原理为对于每一笔信贷数据,通过图分析的方法查出其于已有记录的关联,从多个维度统计其关系,将统计结果变量化为a1,a2,……,an , 然后视每笔数据的所有变量做为列向量v,带入通过监督学习训练后的模型M,得出评分。
举报/反馈