2020年中国面向人工智能“新基建”的知识图谱行业白皮书,全文来了
知识图谱丨白皮书
全文字数:9574字 精读时间:24分钟
前言:
新 型基础设施建设是为加快国家规划建设推出的重大工程和基础设施建设项目,面向新产业、新业态和新模式,同时助力传统基础设施的智能化改造。 新基建三大规划领域中,两大领域都直接提及人工智能 。 新基建背景下 , 人工智能将迎来新一轮快速发展 。
当前人工智能的发展仍然处于弱人工智能的状态,研究重心由感知智能过渡到认知智能。 知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的大规模语义网络,帮助机器实现理解、解释和推理的能力,是认知智能的底层支撑。
2 019年知识图谱相关的融资金额较2018年增长超过200%, 逐渐成为人工智能又一热点产业,产业链已初具规模, 2019 年知识图谱核心产品市场规模约 65 亿元,知识图谱技术带动经济增长规模约 391.8 亿元。
本报告从善政、惠民、兴业、智融四个部分对知识图谱技术在其他行业中的代表性应用场景进行梳理,对知识图谱未来的发展和应用做出展望,同时对人工智能“新基建”下,城市数字化、智慧化发展的创新场景进行展示。
新基建与知识图谱概述
新基建的内涵和外延
发力于科技端的信息数字化基础设施建设
2020年4月20日,国家发改委将新型基础设施初步定义为:以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。
与传统的基础设施建设相比,新基建体现出“重创新、补短板”的特征:主要面向新产业、新业态和新模式,促进经济结构优化;但同时也对传统基础设施建设形成补充,助力传统基础设施的智能化改造,提高传统基础设施的运行效率。
伴随着技术革命和产业变革,新型基础设施的内涵和外延还将不断丰富和延展。
人工智能是新基建的重点领域
人工智能推动智能产业化和产业智能化
人工智能是新一轮科技革命和产业变革的核心驱动力,在新基建的三大领域中,两大领域都直接提及人工智能。在信息基础设施领域,人工智能与云计算、区块链一起被视为一种新技术基础设施;而在融合基础设施领域中,人工智能则被视为支撑传统基础设施转型升级的重要工具。人工智能新基建的本质不仅仅指向其自身的产业化发展,更是在实体经济中寻找应用场景,赋能生产力升级,即作为重大应用基础设施,推动各行业完成智能化转型,实现新旧动能的转换。艾瑞咨询测算,2019年人工智能赋能实体经济产生的市场规模超过570亿元。
人工智能进入认知智能探索阶段
当前呈现弱人工智能状态,在认知智能领域还处于初级阶段
人工智能的本质是进行生产力升级,因此评判人工智能技术是否有价值,要看其应用是否贴近生产核心。一般认为,人工智能分计算智能、感知智能和认知智能三个层次。计算智能即快速计算、记忆和储存的能力;感知智能即对自然界具象事物的识别与判断能力;认知智能则为理解、分析等能力。当前,数据标准化已经趋于成熟,以快速计算和存储为目标的计算智能已基本实现;在机器学习和深度学习技术的推动下,以视听觉等识别技术为目标的感知智能也突破了工业化红线,实现了机器对自然界具象事物的判断与识别。
但感知智能呈现的终究是一种弱人工智能状态,还只能在某一方面的人类工作上协助或替代人类。当人们能使用机器识别更多事物,自然而然地引发了对事物的理解和分析等深层次的自动化知识服务的需求,而需要外部知识、逻辑推理或者领域迁移的认知智能领域还处于初级阶段。学界已经展开认知智能领域的研究,2018年以来,美国人工智能协会收录关于认知智能层面的论文逐年增多,占所有收录论文的比重也有提升。
知识图谱的定义
用图模型来描述知识和建模万物关系的语义网络
知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的大规模语义网络,是大数据时代知识表示的重要方式之一。知识图谱最常见的表示形式是RDF(三元组),即“实体x 关系 x 另一实体”或“实体 x 属性 x 属性值”集合,其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。由于知识图谱富含实体、概念、属性和关系等信息,使机器理解与解释现实世界成为可能。
上世纪七八十年代,传统的知识工程与专家系统解决了很多的问题,但是都是在规则明确、边界清晰、应用封闭的限定场景取得成功,严重依赖专家干预,一旦涉及到开放的问题就基本不太可能实现,因此难以适应大数据时代开放应用到规模化的需求等问题。相对于传统的知识表示,知识图谱具有规模巨大、语义丰富、质量精良与结构友好等特点,宣告知识工程进入了一个新的时代。
知识图谱是认知智能的底层支撑
为描绘物理世界生产生活行为提供有效的方法与工具
让机器具备认知智能具体体现在让机器掌握知识,拥有理解数据、理解语言进而理解现实世界的能力,拥有解释数据、解释过程进而解释现象的能力,拥有推理、规划等一系列人类所独有的思考认知能力,而这些能力的实现与大规模、结构化、关联密度高的背景知识是密不可分的。
知识图谱通过对海量结构化和非结构化数据进行知识萃取并关联形成网状知识结构,对概念间的关系属性进行联结和转换,支持非线性的、高阶关系的分析,为描绘物理世界生产生活行为提供了有效的方法与工具,是认知智能的底层支撑。知识图谱帮助机器实现认知智能的“理解”和“解释”能力:通过建立从数据到知识图谱中实体、概念、关系的映射,使机器能理解数据,从数据中提炼出行业或领域内高精度的知识;通过利用知识图谱中实体、概念和关系来解释现实世界中的事物和现象,使机器能解释现象。更进一步的,基于知识图谱和逻辑规则或统计规律,机器能推理出实体或概念间深层的、隐含的关系,实现认知智能的“推理”能力。
知识图谱的基本构建流程
数据-知识抽取-知识融合-知识加工-知识应用
根据覆盖范围的不同,知识图谱可以区分为应用相对广泛的通用知识图谱和专属于某个特定领域的行业知识图谱:通用知识图谱覆盖范围广,注重横向广度,强调融合更多的实体,通常采用自底向上的构建方式,从开放链接数据(“信息”)中抽取出置信度高的实体,再逐层构建实体与实体之间的联系;行业知识图谱指向一个特定的垂直行业,注重纵向深度,具有丰富的实体属性和数据模式,通常采用自顶向下的构建方式,先定义好本体与数据模式,再抽取实体加入到知识库。
知识图谱的构建遵循知识抽取、知识融合、知识加工、知识应用的基本流程。从海量结构化和非结构化数据中进行实体、关系、属性和事件的信息提取,通过本体和实体对齐、指代消解解决多种类型的数据冲突问题,完成知识融合。将知识存储到知识库中,最后进行进一步的知识推理和图谱应用。
知识图谱行业现状
知识图谱的应用价值
对复杂关系的深入挖掘和直观展示
知识图谱是符号主义人工智能的代表,核心在于对多模、多源异构数据和多维复杂关系的高效处理与可视化展示,将社会生活与生产活动中难以用数学模型直接表示的关联属性,融合成一张以关系为纽带的数据网络。通过对关系的挖掘与分析,能够找到隐藏在行为之下的关联,并进行直观的展示。基于知识图谱的上述优势,适宜解决关系复杂的问题,如深度搜索、规范业务流程、规则和经验性预测等相关研究课题。
连结主义中的深度学习算法是新一代人工智能的标志性技术,但深度学习有其局限性,侧重解决影响因素较少、但计算高度复杂的问题,而不太适宜解决影响因素较多、且掺杂众多非线性关系的问题。通过与知识图谱的配合使用,依托于行业知识与经验的深度学习将产生更多贴近产业核心的认知智能应用,有助于覆盖场景中大多数问题,形成完整的以“场景需求”为导向的人工智能解决方案,进一步实现生产力升级的终极目标。
知识图谱的典型应用
原图应用
知识图谱是人工智能应用链条的第一步,是人工智能的底层技术。知识图谱在高效数据处理和知识加工推理方面的能力,可以推动人工智能既有产品的升级或提供更有效的解决方案,同时也可以转化为新的商业产品形式。
知识图谱的产品形式可以分为原图应用和算法支撑两类。原图应用指基于知识图谱的图结构和丰富的语义关系,直接通过图谱产生价值的服务形式,例如图挖掘、关联分析等。通用知识图谱被视为下一代搜索引擎的核心技术,而行业知识图谱由于有具体场景的认知深度,能很好地满足垂直领域知识类查询的需求,如企业业务流程查询、司法领域案例查询等。算法支撑指通过知识图谱对于信息源的数据进行处理,将产出的结构化关联数据用于其他人工智能任务的算法模型训练和应用中,得到能解决具体场景问题的研判建议,形成解决办法产生价值的服务形式。
支撑其他人工智能任务:搜索、问答、推荐
知识图谱为其他人工智能任务提供算法支撑的典型应用主要包括智能问答、智能搜索和智能推荐、决策分析系统等,目前都已产生了成熟且广泛应用的商业产品,同时也是各领域知识图谱中的重要一环。基于知识图谱的智能搜索能对文本、图片、视频等复杂多元对象进行跨媒体搜索,也能实现篇章级、段落级、语句级的多粒度搜索。智能搜索让计算机更准确地识别和理解用户深层的搜索意图和需求,在知识图谱中查找出目标实体及其相关内容,对结果内容进行实体排序和分类,并以符合人类习惯的自然语言的形式展示,从而提高搜索体验。智能问答可以分为直接回答、统计回答和推理回答。基于知识图谱的智能问答能从实体和短句两个维度进行挖掘,能理解多样问法和有噪音问法,具有较高的准确率、召回率。在对话结构和流程设计上,能实现实体间上下文会话的识别与推理,最终实现更自然的人机交互。基于知识图谱的智能推荐则通过获得用户和物品的精确画像,从而实现准确的匹配和有针对性的推荐,实现场景化、任务型的推荐。
知识图谱的行业发展情况
2019年核心产品市场规模约65.0亿元,预期将迎来快速发展
随着人工智能的算法和算力不断提升,数据来源愈发广泛,大规模自动化的知识获取和全新的知识表示成为可能。与之相对应的,传统知识工程受限于知识获取阶段需要重度的人工参与,在互联网时代不再能适应整个互联网高效化、智能化应用的需要。推力和拉力的共同作用促进了知识图谱发展,其构建中的核心产业主要包括Schema三元组模型构建、实体标注等技术,知识图谱管理平台与建模服务、垂直行业的知识图谱应用产品及解决方案等。据艾瑞咨询统计推算,2019年知识图谱核心产品的市场规模约为65.0亿元,仍有较大发展空间,预计2024年将突破200亿元,年复合增长率达到20.4%。此外,知识图谱技术的应用也进一步带动传统企业智能运维效率升级,据艾瑞咨询估算,2019年中国知识图谱技术带动经济增长规模达391.8亿元,预计到2024年将突破1000亿元。
知识图谱产业链与参与者图谱
知识图谱在各领域中的应用概览
数据繁杂、单一价值有限、问题抽象需要可视化展现、五层关联维度以上的应用场景更加适合搭建知识图谱
知识图谱应用场景
善政:城市治理知识图谱应用场景
知识图谱赋能城市智能公共管理系统,打造城市“数字大脑”
中国城市存在巨大的存量治理和精细化发展需求。随着城市公共管理的数据来源由政务数据不断拓展至交通、视频、环境等其他城市运行感知数据以及企业数据,城市大数据平台也从政务共享交换平台,发展成为多方共建共用共享的大数据平台。基于知识图谱技术,将分散在政府各个部门、生产生活各个领域的相互孤立的数据资源联通共享,实现多源数据集成交换,从而对政务数据和社会数据进行深度挖掘。通过数据融合分析与管控,最大化发挥数据要素的效能,发现不同群体、不同行业的服务需求,实现政务服务的精准化供给、政府科学决策和高效社会治理。
善政:公安知识图谱应用场景
重点解决数据关联性和数据价值挖掘问题,赋能线索情报分析与案件预警
公安大数据是全面助推公安工作质量、效率、动力变革的重要力量。随着跨部门、警种、业务的协同和整合大趋势的到来,知识图谱能通过数据分析、文本语义分析等手段,抽取出人、物、地、机构、虚拟身份等实体,并根据其中的属性、时空、语义、特征、位置联系等建立相互关联,构建一张多维多层的,实体与实体、实体与事件的关系网络。在解决公安大数据发展中面临的数据缺乏关联性、缺乏全警种智能应用等问题时发挥重要作用,真正激发大数据的价值。
建设公安知识图谱仍遵循知识图谱搭建逻辑,但其中知识抽取、本体层建设和实战应用开发等环节需要运用分布式储存、关联算法、语义推理等技术,将公安部门多年业务中积累的技战法进行总结和可视化处理,与技术算法相互转换,以集成犯罪和预测模型,实现重点人员场所关联分析、物品关联分析、团伙关系分析、异常事件挖掘、相似案件推理等功能,提升公安信息化的智能化水平,促进公安情报研判的演进,高效服务公安的打防管控工作,甚至做到精准的犯罪预测预警。
惠民:医疗健康知识图谱应用场景
在就医导诊、辅助诊断、药企市场拓展等领域提供知识服务
医疗健康是典型的数据海量且多源异构的行业,且限于数据专业性强、结构复杂,数据融合在医疗健康行业应用场景中更加困难。利用知识图谱的能力,可以聚合核心医学概念和全方位的医疗生态圈知识,从海量的临床案例中对经验和知识进行提炼整理、录入标注、体系构建,在解决优质医疗资源供给不足和医疗服务需求持续增加的矛盾中产生重要的作用。
惠民:教育知识图谱应用场景
教育知识图谱与机器学习算法结合实现智适应教育
当前人工智能技术更多应用在如拍照搜题、口语评测、课堂监控等外围需求的工具上,并未能有效深入到教学场景中,而真正产生生产价值建立在充分且必要的数据基础上,搭建贯穿教材知识体系、教学资源管理和受教育者学习轨迹的知识图谱,将教与学的全过程进行可视化展现,使静态知识点数据与动态教学活动的数据产生关联,为算法利用提供支撑环境。
知识图谱在教育领域主要有以下几种应用场景:一是将学科教材知识进行本体建模,形成可关联性查询的知识网络;二是以图结构将教学资源以及关系进行语义化组织,以便合理调用;三是在知识图谱的基础上,应用大数据、AI等技术形成面向学习目标的个性化学习路径,实现千人千面的教学方案;四是面对受教育者搭建个人知识图谱,通过对其知识点学习进度和考试反馈数据的实时关联,形成知识掌握状态的可视化个人画像,以至于习题推送和老师一对一教学有的放矢;五是将教育领域碎片化多源异构数据进行处理,形成标准化的关联数据集,为机器学习算法训练提供充要条件。
通过以上五点应用,勾勒出基于知识图谱的数字中台形式,最大限度地对教育领域数据进行资源整合,为上层智能化应用提供支撑,改变了“传统教育披上人工智能外衣”的状况,用技术起底教育逻辑,形成数据指导下自适应学习的价值闭环。
兴业:通用制造业知识图谱应用场景
对基础数据进行建模,在制造全流程实现多方面协调管控
制造业体系庞大、场景丰富、产品类型多、定制化程度高,具有数据庞大且知识结构复杂的特性,存在着如工序流程和工艺制造知识等事理知识,同时也存在大量的定量知识。事件之间存在着大量的事理逻辑关系,而不同角色本体构造提出的需求也不尽相同。引入知识图谱技术,将工厂车间、人工资源、物料组件、设备制具、工艺流程、故障等制造业的基础数据进行知识分类和建模,通过对知识的抽取,对定量知识与事理知识的融合以及对实体之间复杂关系的挖掘,构建制造业知识服务平台,建立产品规划、设计、生产、试制、量产、使用、服务、营销和企业管理等全生命周期的互联,还能融合环境、焚烧、水务、模具、能源管理等多个相关行业的知识内容,通过快速搜索和推理关系中的趋势、异常和共性更好地组织、管理和理解制造业体系的内部联系,将知识转化为决策依据,破除产品封闭式的重复研发实现创新,进行全流程多方面的协调管控,提高制造流程中问题的预见和解决能力,提升资源管理能力、生产效率和产品质量。
兴业:智慧建筑知识图谱应用场景
集合构建以BIM数据与规范为主的建筑工程行业知识图谱
当前建筑行业仍是劳动力密集型行业,拥有动态且复杂的行业结构。根据不同项目类型、项目阶段和项目目标,将项目过程中不断重复的知识、使用知识本体的方式进行组织化的设计和管理,以实现从图纸设计、审图、施工、验收到楼宇运维全流程内知识的重复使用和组织化管理,是建筑行业实现智能化的目标。当前建筑信息模型(BIM, BuildingInformation Modelling)从工程实践到管理理念上都在给建筑业与施工业带来不同程度的变革。作为含有丰富语义信息的三维模型载体,BIM的属性与信息体系包含了建筑的空间几何信息、属性信息等,是实体建筑的数字化表达,具有真实性和全面性的特点都可以有效分类和聚集成为若干知识本体,结合知识图谱的知识抽取、知识融合及知识加工等构建技术,集合成以BIM数据与规范为主的建筑工程行业知识图谱,从而提升设计阶段BIM审图规范与效率、辅助施工阶段质量管理与决策、改善运维阶段数据流转与分析能力。
智融:智能风控与信用评估
知识图谱与机器学习相结合,重塑金融领域智能风控过程
无论是传统金融或是互联网金融领域,信用评估、反欺诈和风险控制都是最为关键的环节,随着近些年金融数据的爆发式增长,传统风控系统逐渐力有不逮,而应用机器学习算法和知识图谱的智能风控系统在风险识别能力和大规模运算方面具有突出优势,逐渐成为金融领域风控反欺诈的主要手段。机器学习和知识图谱相结合是目前主流的解决方案。
机器学习算法通过概率计算的方式,以数学运算特征反应风险情况,形成易于机器计算的风控模型;而知识图谱通过权威经验和规则创建本体模型和抽取实体的范围,根据实体间关系形成关联数据网的图谱形式,打通相关数据,动态、实时地描画囊括个人基础信息、金融行为、社交网络行为等用户综合画像,并结合业务场景,根据画像的情况与模型对应,形成具有金融业务特性的风控体系,在解决方案的决策环节结合规则和概率的综合评价,给出最终的风险评估,整个过程能够实现秒级响应。知识图谱的应用不仅能够为缺乏可解释性的机器学习算法带来必要的参考系,还可以串联金融业务中产生的大量多源异构数据形成知识库或知识中台,挖掘数据深层价值,为实现标签体系构建、投资关系梳理、产业链风险预警、智能催收等上层应用打下基础。
智融:智能投资研究顾问
通过自动抓取和产业链关系推理解决投研领域痛点
对一级或二级市场的投资研究,一直是泛金融领域重要的课题,上市公司或一些重要的标的公司在公开网络中披露了众多如财务数据、定期公告、公司研报等有价值的信息,为投资者行为提供了充分的参考依据。传统投研工作需要分析师通过各种渠道搜集和判别信息,凭借个人经验对零散的数据进行组织建模,以报告的形式产出趋势观点和数据分析,大部分的物料和时间成本都花费在信息和数据的搜集上,加之金融资讯信息时效性极强,成果可控性不高,纵使头部金融数据机构提供了相应的软件产品,但数据的颗粒度和产业链关联性仍难以满足多元需求。此外,金融行业人才流动快,专精于某一领域的分析师一旦离职,将直接影响这个行业分析的延续。
利用NLP技术自动抓取关键信息,搭建投研领域知识图谱,能减少基础数据处理的工作,将各个行业的发展变化抽象导入数字层面,为知识查询和应用开发提供实现基础。由于券商研报中80%的数据指标在传统软件产品中无法被查询,分析师在进入一个新领域时要耗费大量时间搜集类似数据,知识图谱投研产品可以大大缩短这一必要劳动时间,大幅提高投研效率。除静态领域图谱外,基于时间序列还能搭建对网络报道、新闻事件进行抓取的事理图谱,两相结合,从行业固有逻辑和实时信息双管齐下,推导事情的发展脉络和趋势走向,梳理关联脉络,为后续判断投资机会等研判类应用提供数据支撑。
知识图谱应用展望
创新的知识图谱形态
构建多模态知识图谱,拓展知识图谱的应用场景和领域
单模态交互技术是弱人工智能时代典型的代表特征,集中在单一模态的感知技术给智能机器产品带来了很多的局限性,个体从感知到认知外界进而形成知识的过程,通常需要多种感官同时对信息进行处理和融合。当前知识图谱技术已经被广泛用于处理结构化数据和文本数据,但对于视觉、听觉数据等的关注度相对较低,且目前仍缺乏有效的技术手段来从这些数据中抽取知识。如果在更大范围内进行链接预测和实体对齐,进而进行实体关系抽取,能使现有的模型在综合考虑文本和视觉特征时获得更好的性能。传统的知识图谱构建将不同模态的数据分别完成抽取再通过图谱融合来形成最后的多模态图谱,但从源头上没有考虑不同模态特征之间的依赖和对应关系,使知识融合的最终结果无法很好地刻画多模态数据本身蕴含的各种关联。多模态知识图谱为每种模态(如图像、文本)构建一个特征表示,将不同模态的嵌入映射到同一个嵌入空间,以实现最大化链接节点的嵌入之间的相似性,以及最小化未链接节点的嵌入,使边在相同模态内的两个节点之间以及来自不同模态的节点之间。即多模态知识图谱在传统知识图谱的基础上,把多模态化的认知体验与相应的符号关联,构建多种模态下的实体,以及多模态实体间多种模态的语义关系,即使得图谱本身一开始就具备多模态的特性。
知识图谱与区块链技术结合发展
优化知识来源管理、知识储存和更新、知识产权保护
区块链技术的最关键特征为去中心化,即不依靠中心管理节点,让每个个体都有机会成为中心,能实现数据的分布式记录、存储和更新。在知识图谱中运用区块链技术能实现多节点知识输入、储存和更新,使开放链接知识库在更多分布节点获取知识,鼓励更多人群、特别是那些具有专业领域知识的人共同来参与知识图谱的搭建,实现知识量的进一步充实。实现去中心化还能解决容错性问题,提升系统的抗攻击性,使知识图谱或知识管理平台不太可能因为某一个局部的意外故障而停止工作,任何一个节点受到攻击也不会使整个系统造成瘫痪。区块链技术还具有开放性的特性,将知识图谱与区块链技术相结合,使知识图谱记录的数据不可逆,也不可篡改,在系统层面上实现信息的公开,每次记录或标注的数据和知识都能追溯到源头,对伪造所有权的行为也能提供完整的证据链,实现知识确权,即知识在被多层转让后仍可追溯到相应原始知识贡献者,知识贡献者的知识产权受到更有力保护。区块链技术的另一特性是透明性,数据对所有人公开,任何人都可以通过公开的接口查询区块链上的数据和基于数据开发相关应用,整个平台信息高度透明,为搭建完成后的知识图谱加强了可查询性和应用性。另外,知识的贡献不仅仅应该被记录,而应该被更多的激励,区块链的激励机制使得知识贡献者的数字化资产可以被交易,实现知识变现的效果,提升知识贡献的积极性。
人工智能新基建下城市创新场景
人工智能“新基建”下城市创新场景
智慧交通:苏州交警5A计划
城市是基础设施建设的核心载体,城市智慧化建设是新基建价值实现的重要需求领域。数据是城市治理最重要的资源之一,新基建的各个领域中,5G使数据传输实现跳跃式发展,满足更多应用场景;物联网采集海量数据,并根据反馈提供命令执行支持;云计算提供计算存储等基础服务,为大规模软硬件、数据的操作和管理提供平台;而人工智能技术尤其是通过对知识图谱的应用,能对城市生活中的衣、食、住、行数据,城市管理中的行政管理、公共事业管理、劳动与社会保障、土地资源管理等数据进行分析和挖掘,建成易于组织、管理和利用的动态知识库,提升城市治理效率。
“苏州交警5A计划”依托人工智能、大数据、物联网、视频识别、移动互联网等现代信息技术,使交警自有数据、互联网数据及其他部门数据实现汇聚共享,解决了城市外场设备多、应用效率低、数据独立分散、信控手段单一落后等问题。“苏州交警5A计划”在全市信号控制路口达5887个,联网率达81.1%,实现交通状态精准感知、交通拥堵成因深度挖掘、交通事件研判预测、交通信号实时优化等功能,2019年全市交通死亡事故起数和死亡人数同比下降13.67%、13.21%。
专
题