四大工业级知识图谱详细介绍
众所周知,谷歌、脸书、易趣、IBM这四大工业级知识图谱,下面就让大家和小编一起来看看这几家知识图谱的特点吧。1. 谷歌谷歌知识图谱涵盖了广泛的主题,有700亿条语句,描述了10亿个实体,并且是来自不同个体的十多年数据贡献活动的结果,其中大多数人从未拥有过知识管理系统的经验。也许更重要的是.知识图谱是许多谷歌产品和功能在后台使用的长期、稳定的类和实体标识来源外部用户和开发人员在使用YouTube和谷歌云API等服务时,可以观察到这些功能特征。这种对本体的关注使谷歌可以过渡到“是实体而不是字符串”。知识图谱不是简单地返回传统的“10个蓝色链接”,而是帮助谷歌产品将用户请求解释为用户对于所处世界的认知概念的指代,并做出适当的响应。谷歌的知识图谱对于用户最为直观的感受是当用户发出与实体有关的查询。搜索结果能够包括系列从知识图谱提供的有关实体的事实。例如,查询“I.M.Pei”(贝聿铭)会在搜索结果中出现一个面板,显示这位建筑师的学历、奖项和他设计的重要结构的信息。知识图谱还认识到,某些类型的交互作用会随不同的实体而异。查询“俄罗斯茶室”时,会提供一个按钮进行预订,而查询“ Rita Ora"(一位歌手的名字)则会提供在各种音乐服务中该歌手音乐作品的链接指向。由于谷歌知识图谱规模庞大,单个人无法记住更不用说管理整个图使用的详细结构了。为了确保系统随着时间的推移保持一致性,谷歌从一组基本的底层结构中构建了知识图谱。它在不同的抽象级别上沿用了相似的结构和推理机制,在概念上许多基本断言也引申了该结构。为了体现构造的不变性,谷歌利用类型本身也是类型的实例来引人元类型的概念。然后,可以对元类型进行推理,以验证更细粒度的类型是否违反了构造不变性。例如,它可以验证某时间独立类型不是时间相关类型的子类。这种可扩展的抽象级别更加容易添加,因为图谱系统其余部分也是基于相同底层结构而构建的。这种元级架构还允许大规模验证数据。例如,可以通过将画家标识为其画作的原作者,并对这些元类之间的所有关系进行一般性检查,来验证画家在其艺术品创作之前就已经存在。从概念上讲,知识图谱能够“理解”作者与创作作品的不同之处,即使这些实体经常合并至口语表达中。同样,创作作品也可能因为表现形式不同有多个不同的实例。随着图谱规模的增长,这种本体知识有助于维护实体的实例。通过这些自我描述的层次结构来构建知识图谱.不仅简化了系统的一致性检查,而且还使内部用户更易于理解知识图谱。一旦对新开发人员进行了知识图谱组织方面的基础培训,他们就可以了解其架构的整个范围。类似地,通过将图谱的结构与一些核心原则联系在一起,并在框架中明确地公开元关系,内部开发人员可以简化查找和理解新的模式结构。2. 脸书脸书以拥有全球最大的社交图谱而闻名。脸书工程师在过去十年中,通过一系列技术以实现人与人之间的丰富联系。现在,他们正在使用相同的技术来加深对人们以及人们关心的事物的了解。通过以结构化的方式对世界进行大规模建模,脸书工程师能够“解锁”社交图谱本身无法实现的用例。即使是看似简单的东西,比如音乐和歌词,检测到用户在偶然时刻通过软件使用它们,可增进图谱对结构化知识的理解。如今,脸书产品的许多体验都由知识图谱提供支持。覆盖范围、正确性、结构性和变动性都驱动着脸书知识图谱的设计。覆盖范围是指在要建模的领域中尽可能地详尽。默认设定是多来源产品,这意味着整个图谱生产系统是建立在这样的假设之上:数据将从多个来源接收,所有数据来源都提供有关重叠实体集(有时会相互冲突)的信息。脸书知识图谱以两种方式处理冲突的信息:如果该信息的置信度足够低,则可丢弃;或通过保留来源和关于断言的置信度推断值,将冲突的观点合并到实体中。正确性并不意味着知识图谱总是知道属性的正确”值,而是它总是能够解释为什么做出某个断言。因此,它保留了流经系统的所有数据(从数据获取到服务层)来源。结构性意味着知识图谱必须是自描述的。如果某条数据未进行强类型化或属于不适合描述实体的架构,则图谱系统将尝试执行以下操作之一:将数据转换为期望的类型;提取与类型相匹配的结构化数据:或完全忽略它。变动性是指脸书知识图谱在不断变化。该图谱不是数据库中收到新信息时会更新的单一的表示形式,而是每天从源头持续不断地构建知识图谱,并且构建幂等的系统,最终生成完整的图谱。脸书知识图谱的起点显然是脸书页面生态系统。企业和个人在脸书上创建页面,以代表各种各样的想法和兴趣。此外,让页面的所有者对其进行断言可作为有价值的数据源。但是与任何众包数据羊,它也遇到了困难。脸书的页面是面向公众的,每天都有数百万人在上面互动。因此,页面所有者的关注点并不总是与知识图谱的构建要求保持一致。最常见的情况是,页面和实体没有严格的1对1映射,因为页面可以表示实体的集合(例如电影特许经营权),数据也可以是不完整的或非结构化的(例如文本片段),这使得它在知识图谱的上下文中更加难以使用。脸书的最大挑战是利用其页面上找到的数据并将其与其他更结构化的数据源结合起来,以实现干净、结构化的知识图谱的目标。对于脸书来说种有效的手段是将图谱视为模型,将脸书页面视为视图(保存在图谱中的实体或实体集合的投影)。
3. 易趣易趣正在构建其产品知识图谱,它将对产品、实体,二者之间的相互关系以及同外部世界的关系等进行语义知识编码。这些知识将成为理解卖家供应与买家需求并将两者有机融合的关键,同时也是易趣市场技术的重要部分。例如,易趣的知识图谱能够将产品关联到现实世界中的实体,从而给出产品的定位以及吸引买家的因素。比如芝加哥公牛队的队服只是一个普通商品,但如果它是迈克尔·乔丹(Michael Jordan)的签名款,那么它就是个完全不同的商品。
知识图谱中的实体也可以将不同的产品联系起来。如果一个用户搜索了关于莱昂纳尔·梅西(Lionel Messi)的纪念品,而知识图谱中显示梅西效力于巴塞罗那富特博尔足球俱乐部,那么这名用户可能也会对该俱乐部的其他相关商品感兴趣。这个想法也可以从体育扩展到音乐、电影、文学、历史事件以及更多其他领域。
理解商品自身以及商品之间的关系也和理解实体之间的关系一样重要。能够区分一个商品是iPhone,而另一个是iPhone手机壳显然是很重要的。但是,不同的手机壳仅能够适用于某些型号的手机与其他型号的手机并不适配,所以易趣需要能够对零件以及配件的尺寸进行建模。理解商品及其相关产品之间的关系也是很重要的。比如,哪些商品是同一商品的不同款式?它们在尺寸、容量或颜色上有没有区别?还是说它们有着大部分相同的特性,但可能是不同的品牌或颜色?系统还需要理解有些商品往往是捆绑销售的比如捆绑包、套件,抑或是成套的时装。和其他知识图谱一样,易趣构建的知识图谱也必须要解决数据大规模增长所带来的问题。在任意时间点都可能有超过数十亿的、遍布数千个种类的在售商品列表,这些列表可能包含数以亿计的商品以及数百亿种属性。
易趣的知识图谱包含很多不同的用户,这些用户位于不同的服务层次上,他们的需求存在着巨大的差异。当在搜索服务中解析一个用户的意图时知识图谱必须在几毫秒内返回结果。随着数据规模的增大,大规模的图请求可能会花费数小时来产生结果。为了应对这些挑战,易趣的工程师设计了一个能够同时保证灵活性和数据一致性的架构。该知图谱使用了一个可供复制的日志来记录所有对图结构的写入和修改。日志能够提供数据一致性的保证这种方式提供多后端数据存储以应对不同的使用需求。具体来说,有一个扁平化的文档存储库,用于提供低延迟的搜索查询;还有一个图结构存储库用于进行长时间运行的图分析。其中每一个存储库都只需简单地将其操作写入日志中,并按顺序获取对图谱的添加和修改。因此,这些存储库能够保持一致性。4. IBMIBM开发了Watson Discovery服务及其相关产品所使用的知识图谱框架,并在IBM以外的许多行业环境中进行了部署。IBM Watson以两种不同的方式使用该知识图谱框架:首先,该框架直接用于驱动Watson Discovery,主要专注于使用结构化以及非结构化的知识,来发现新的信息为Discovery的下游产品提供服务;其次,该框架允许其他人以预先构建的知识图谱为核心来构建自己的知识图谱。Discovery的用例创建不直接出现在域文档或数据源中的新知识。这些新的知识甚至可能是人类以没有意识到的。虽然现有的搜索工具能够访问系统可用资源中已有的知识,这些知识对于Discovery来说是必要的,但并不足够。新的发现包括实体之间的新链接(例如,药物的新副作用、作为收购目标的新公司等),该领域中潜在的新的重要实体(例如,用于显示技术的新材料、特定投资领域的新投资者等),或现有实体发生的重要变化(组织中投资者在组织中增持股权,或在情报收集场景中增加利益相关者与犯罪分子之间的互动等)。鉴于IBM具有广泛的企业客户基础,在各个领域应用了认知技术,IBM专注于为客户和客户团队创建框架来构建自己的知识图谱。IBM的行业团队利用此框架来构建特殊领域的实例。它的客户存在于多个领域,从银行、金融、保险、IT服务、媒体和娱乐、零售和客户服务等面向消费者的研究,到几乎完全专注于深度发现的行业,尤其是生命科学石油和天然气、化工和石油、国防和太空探索等科学领域。这种应用广度要求框架具有客户自己构建和管理知识图谱所需的所有功能。框架中内置的些关键技术包括文档转换、文档提取、段落存储和实体规范化。下面是IBM工程师从为Watson Discovery构建知识图谱并在其他行业中部署该系统所学到的一些关键经验和教训。(1)应用多态存储:IBM Watson知识图谱使用多态存储,支持多种索引、数据库结构、内存数据库和图存储。这种架构会将实际数据(通常是冗余的)分布到一个或多个存储库中,从而使每个存储库都能满足特定的需求和工作负载。IBM工程师和研究人员解决了许多挑战,例如如何保持这些多存储库同步,如何通过微服务在存储库之间进行通信以及如何以不重新加载或重建整个图的方式吸收新知识或重新处理原始数据。(2)保留原始“证据”:知识的“证据”是指将现实世界(开发人员通常尝试对现实世界进行建模)与包含着知识的数据结构联系起来的内容。这些证据通常是作为人类知识来源的一些原始文档、数据库、字典或图像、文本和视频文件等。在知识发现过程中进行有针对性的上下文查询时,元数据和其他相关信息通常在知识推断中发挥着重要的作用。因此,保证存储在图中关系的来源不丢失是至关重要的。(3)推迟实体消歧解决由于使用部分名称、字面表达或者具有相同名称的多个实体导致的指代消歧问题是理解自然语言的经典问题。然而,在知识发现领域,开发人员通常会寻找一种潜在的模式,比如某个实体的活动方式并不为人熟知,或者出现在了一个新的语境中,那么可能发现了新的实体。因此,在知识图谱的创建过程中过早地进行实体消歧是和知识发现的目标相冲突的。所以,最好保留这些未解析的语句或将其消除歧义留给多个实体,然后在运行时查询上下文来解析实体名称。