TISC|利用领域知识图谱促进企业专利知识高效重用

  

  在传统制造企业中,企业所拥有的知识包括各类标准、设计规范、相关专利、国际国内的法规,设计方法和技巧,工艺性的评估,设计案例,图纸说明等,妥善、合理、高效地利用好企业所拥有的相关知识是至关重要的。研究表明,在机电产品制造和研发过程中,约80%的产品设计工作能够通过重新利用以往的设计知识满足当前设计任务的创新设计需求,且有数据表明,在一次完整的设计流程中,设计人员平均花费70%的时间来整理、查找已有的设计数据和知识,而完全投入地用于设计产品上的时间约占30%。由此可见,知识的合理利用在整个产品开发过程中起着重要的作用。

  制造企业知识如专利,技术规范,设计经验等多以文本的形式存在,行业特点决定了这些文本语言高度精炼,概括程度较高,每篇文档的描述重点也相对专一。在生产实践中,对这些重要的开发工程知识的管理过于碎片化,一般都是存储在数据库中,对知识之间的联系缺乏深入挖掘。对设计人员来讲,知识获取方式较为单一,因为在企业中,大多数情况下,文本检索采用字符串匹配的方法来返回检索结果,导致检索结果的质量参差不齐,需要设计人员自己再去遴选,这在一定程度上降低了其设计效率。

  知识图谱由一些相互连接的实体和实体之间的关系构成,这些连接关系组成一个结构化形式的语义网络,是一种含有语义信息的特定数据结构,用来描述事物与事物之间的关系,将各个事物关联起来。知识图谱可以将实体间丰富的语义用特定的形式呈现出来,充分地挖掘出实体间的关联。

  

  图1知识图谱

  知识图谱的构建流程包含了以下五个步骤:

  01定义具体的问题

  这是首屈一指的环节,因为知识图谱是一个用来解决问题的工具,重要的是根据问题利用知识图谱得到该问题的答案。根据需要解决的问题来判断需要构建的是通用知识图谱还是领域知识图谱,确定是针对细分领域的知识图谱研究,还是覆盖面广的知识图谱。如本文需要解决的是成果专利推荐问题,需要构建的是专利领域的知识图谱,知识图谱富含丰富的语义关系可以帮忙提高推荐的精度。总之,需要先把待解决的问题给确定,才能分析构建哪个领域的知识图谱,这样构建的知识图谱才有意义。

  02数据的收集与处理

  定义好了具体的问题,就明确了需要构建知识图谱的领域。明确了领域之后就需要考虑数据来源的问题,因为构建知识图谱需要大量的数据,大量的数据才能构建出能准确表达语义关系的知识图谱。同时还需要考虑的是数据的处理问题,无论是结构化数据还是非结构化数据,都需要经过处理,数据的预处理阶段需要对数据进行筛选。数据的收集与处理是必不可少且十分重要的一个步骤,会影响后续的知识图谱的表达。

  03知识图谱的设计

  这一环节需要确定知识图谱的实体、关系以及属性。如专业领域知识图谱一般包含了以下实体:专利、用户、单位、行业领域、技术领域、行业大领域、新技术领域、产业链等。这些实体都需要人为去定义,落实到具体的实体,代表着具体的事物。关系的设计,是根据所确定的实体来设计的,通常选取的关系是指各个实体之间的关系,如所属机构关系、应用行业关系。属性的确定也是根据具体的实体而言,不同的实体具有不同的属性。确定实体、关系以及属性需要遵循实际的业务逻辑关系,还需要考虑避免冗余的现象出现,轻量化知识图谱,这样才能提高知识图谱的使用效率。

  04数据存入知识图谱

  知识图谱设计工作完成后,便是从数据抽取出所需要的知识,将知识给存入到知识图谱中,常用的存储知识图谱的方式有两种,一种是以RDF的形式存储,另一种是存储在图数据库。图数据库存储是近些年愈发热门的知识图谱存储方式,图数据库中使用最为广泛的是Neo4J图数据库。Neo4J图数据库使用的Cypher语句来操作数据库,Cypher语句是专门为了操作Neo4J数据库的一门语言。其开发借鉴了SQL语句的语法规则,使得Cypher语句具有SQL语句的简易操作和灵活。

  05上层应用开发

  构建好了知识图谱,有很多业务可以用到知识图谱来提高效率,比如可以用于智能问答、语义搜索、社交网络以及垂直行业应用。知识图谱在很多企业都有应用,如Facebook的核心技术就是利用知识图谱将各个用户相关联起来;Google的搜索引擎功能也是借助构建好的知识图谱,为用户提供智能化的搜索服务;百度的“小度”语音助手也是依据知识图谱来提供智能问答功能。

  领域知识图谱可以挖掘出某专业领域知识之间潜在的关联,并且针对不同的检索语句将经过深入挖掘的、多样化的、有关联的,相关程度较高的知识返回给设计人员,实现企业专利知识的高效重用。

  往期推荐:

  TISC|什么?专利审查也有高速路!

  海外专利申请布局策略:一文读懂海牙体系

  举报/反馈