实战分享:基于知识图谱+机器学习技术搭建风控模型

  一、项目业务目标定义

  项目目标:

  基于现有数据,利用知识图谱+机器学习技术,搭建各类风控模型或营销模型等。

  通过本案例,可以与传统大数据、专家规则等方式,做一个比较直观的对比。

  二、建模完整流程示例

  本次案例,以搭建进件逾期风控模型为例。

  具体流程示例如下(数据为测试数据,或者金融机构提供):

  2.1 导入测试数据集

  数据集1:person:标注用户姓名、性别、手机号、用户黑名单

  数据集2:phone:手机号、手机号黑名单

  数据集3:phone2phone:通话记录拨打方、接听方、通话的起止时间

  数据集4:apply_train与apply_test

  进件贷款金额、实现、申请人工作、地点、父母手机号、同事手机号、公司电话、申请人id、进件状态(其中apply_test内status值为空)

  2.2 分析数据

  导入图数据库后,分析四张表之间的测试数据关联关系,可直接得到以下关系:

  1、people节点与apply节点之间有fill关系;

  2、apply节点与phone节点之间有parent_phone、colleague_phone、company_phone等关系;

  3、people与phone之间有has_phone的关系;

  然后通过上述关系,进而可推得如下的关系:

  4、parent_phone的持有人与进件的申请人为parent_of关系,同理可推得colleague_of关系;

  5、通过通话记录可推得两个people节点之间的known关系。

  2.3 构建知识图谱

  图:本体设计与本体构建

  图:基于图的方式实体关系呈现效果

  2.4 设计特征提取规则

  因为最终传入机器学习模型的训练应该是一个二维数组,所以我们需要从图数据库中提取每个进件的特征。

  实际项目中,可能需要设计几十个或上百个规则才可以达到需要的准确率,在这里以7个特征为例。

  图:特征提取示例

  2.5 机器学习模型训练

  提取特征后,使用逻辑回归、GBDT、神经网络等常用二分类问题模型,对测试数据进行训练。

  图:通过机器学习进行模型比较与选择

  2.6 业务上线

  图:机器学习+知识图谱的业务上线流程示例

  2.7 效果呈现

  图:基于图的方式显示各实体之间的关系

  2.8 总结:

  图:传统方式与图平台方式呈现效果区别

  图:知识图谱+机器学习典型应场景

  图:知识图谱+机器学习模型闭环上线完整架构图

  基于知识图谱+机器学习,如果想得到高价值的模型,并获取良好的落地实施效果,仅仅依靠开源平台自己研究或者基于通用知识图谱技术,是远远不够的。为了避免“踩坑”或者少“踩坑”,这里可以分享几点实战经验:

  1、本体设计。本体模型设计,需要落地经验丰富的厂商,积攒了比较丰富的设计方法论,才能有效支持知识图谱类项目的分析与建设。

  2、算法层面。算法实现及算法调优,需要了解业务,并有落地实施经验的人员参与,才能紧贴业务需求。

  3、图计算存储。基于图数据库的计算/存储引擎(ArangoDB、JanusGraph、Spark Graphx、Neo4j、OrientDB、Titan等),需要根据业务场景选择最合适的图数据库。

  4、模型迭代。从数据引入、本体设计、特征建模到业务上线的闭环、稳定、迭代,为保证实施效果,尽量选择相对成熟的产品,并与落地经验丰富的厂商合作。

  三、类似项目的实施效果说明及落地建议

  图:基于知识图谱的风险传导模型示例

  在已经落地上线实施的某金融机构风险传导模型,模型上线目标为:针对当该金融机构关注的企业出现信用违约风险之后,判断其对关联企业的传导概率和路径。

  基于知识图谱+机器学习,上线后,收到了如下效果:

  1、受染企业预警准确率达到71%。

  2、月均推送风险受染企业483户。

  3、平均每月新增逾欠客户数下降较上年同期下降11%。

  利用机器学习+知识图谱技术做风控、营销、合规、监管等场景落地,比起传统的专家规则和大数据方式,可以做到真实性、合理性、实时性、关联性、场景可视化等五个方面来呈现,因此,也受到越来越多的金融机构认可。

  通过从感知智能到认知智能的演进,打造基于本行数据特色的智能中台,形成基于认知智能的AI大脑后,从而真正实现场景的智能化。

  图:从数据中台到智能中台的演进

  由于金融机构的特殊性,面临数据来源杂、跨期长、数据大、非标准、分条线等挑战。

  在实际构建知识图谱体系落地过程中,建议从小到大,先从一个大条线的子业务版块进行构建,如零售-信用卡、对公-企业图谱、企业图谱-营销落地等,再逐渐完成一个大条线的构建,最后实现全行数据打通,构建起全行级完整的知识图谱体系。

  举报/反馈