知识图谱:让计算机获得基于知识和记忆的高级判断、推理能力的核心技术

发表时间:2021-03-31 10:20

上一次我们对实现智能的核心技术之一的机器学习有了一个简单的了解,让一直以来听上去高大上的机器学习走到了我们身边,这一次我们聊一聊另一项 推动人工智能发展的核心技术——知识图谱。


如果说机器学习模拟的是人的决策判断机制,那么知识图谱模拟的是人的知识记忆。计算机本身是没有因果判断和逻辑推理能力的,就像一个刚出生不久的婴儿无法做出有意识的理性判断和推断一样。高级的决策判断和推理,必须建立在知识和记忆的基础之上,这就是知识图谱在人工智能领域的重大意义——让计算机可以获得基于知识和记忆的高级判断、推理能力。


什么是知识图谱


知识图谱(Knowledge Graph)是人工智能的重要分支技术,它在2012年由谷歌提出,成为建立大规模知识的杀手锏应用,在搜索、自然语言处理、智能助手、电子商务等领域发挥着重要作用。



知识图谱技术属于知识工程的一部分。1994年,图灵奖获得者、知识工程的建立者费根鲍姆给出了知识工程定义——将知识集成到计算机系统,从而完成只有特定领域专家才能完成的复杂任务。

4aa1fe29575819d3bc8deb132be86309.jpeg

从知识工程建立至今,回顾这四十多年来的发展历程,我们可以将知识工程分成五个标志性的阶段:前知识工程时期、专家系统时期、万维网1.0时期、群体智能时期、以及知识图谱时期。

01

1950-1970时期:图灵测试——知识工程诞生前期




这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。

这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。

02

1970-1990时期:专家系统——知识工程蓬勃发展期




由于通用问题求解强调利用人的求解问题的能力建立智能系统,但是忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。从70年开始,人工智能开始转向建立基于知识的系统,通过“知识库+推理机”实现机器智能。

这一时期知识表示方法有新的演进,包括框架和脚本等,80年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。

03

1990-2000时期:万维网1.0




在1990年到2000年期间,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的HowNet。

Web 1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。

04

2000-2006时期:群体智能




万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。

这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。

05

2006年至今:知识图谱——知识工程新发展时期




“知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。

当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购Freebase后在2012年推出的知识图谱(Knowledge Graph),Facebook的图谱搜索,Microsoft Satori以及商业、金融、生命科学等领域特定的知识库。

dc5b7f20be3ac332bc36e683b7133dac.jpeg


举个我们日常能见到的例子:


假设我们想知道 “王健林的儿子” 是谁,百度一下,搜索引擎会准确返回王思聪的信息,说明搜索引擎理解了用户的意图,知道我们要找 “王思聪”,而不是仅仅返回关键词为 “王健林的儿子” 的网页:

王思聪.png

知识图谱本质上是一种大规模语义网络

如果你看过网络综艺《奇葩说》第五季第17期:你是否支持全人类一秒知识共享,你也许会被辩手陈铭的辩论印象深刻。他在节目中区分了信息和知识两个概念:

  • 信息是指外部的客观事实。举例:这里有一瓶水,它现在是7°。

  • 知识是对外部客观规律的归纳和总结。举例:水在零度的时候会结冰。


“客观规律的归纳和总结” 似乎有些难以实现。有另一种经典的解读,区分 “信息” 和 “知识” 。

信息,知识.jpg

有了这样的参考,我们就很容易理解,在信息的基础上,建立实体之间的联系,就能行成 “知识”。


所以这里有两个关键点,其一为“信息”,其二为“联系”,其中的信息可以是对实体事物或是事件的描述,也可以是对抽象概念的解释。但是这些信息必须表意清晰,确保人类和计算机能够对其进行高效的处理且不会产生歧义。同时,这些信息点必须相互关联,一个信息点能为另一个信息点提供语境,或是起到解释作用。但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。


知识图谱的分类


从知识图谱发展至今,我们大致上可以将其分为两大类,即通用知识图谱与特定领域知识图谱。

01

通用知识图谱




通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。由于现实世界的知识丰富多样且极其庞杂,通用知识图谱主要强调知识的广度。

我们日常见到的大部分都是通用知识图谱,主要应用于面向互联网的搜索、推荐、问答等业务场景,像我们上面看到的百度搜索王健林儿子的案例,就是典型的通用知识图谱的运用。


上图中搜索姚明,列出的其家庭关系也是对于通用知识图谱的运用。


由此可见,知识图谱为信息和数据的融合、统一、链接和复用提供了良好的框架,有助于提高信息数据的管理和分析效率。一方面知识图谱借助资源描述框架(RDF)清晰有效地呈现出数据结构、分类、词汇表、元数据、参考信息和基本数据等各类数据和内容。另一方面知识图谱里的数据和信息已经按照一定的标准进行过整理,所以分析管理起来更加高效。


02

行业(领域)知识图谱应用




行业知识图谱指面向特定领域的知识图谱,用户目标对象需要考虑行业中各级别的人员,不同人员对应的操作和业务场景不同,因而需要一定的深度与完备性,行业知识图谱对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持,有严格且丰富的数据模式,行业知识图谱中的实体通常属性比较多且具有行业意义。

例如电商知识图谱就是一种行业知识图谱,电商知识图谱以商品为核心,以人、货、场为主要框架。

一级本体分别为:人、货、场、百科知识、行业竞对、品质、类目、资质和舆情。人、货、场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述。

电商图谱.jpg


上图描述了商品知识图谱的数据模型,数据来源包含国内-国外数据,商业-国家数据,线上-线下等多源数据。目前有百亿级的节点和百亿级的关系边。


电商知识图谱,这个商品“大脑”的一个应用场景就是导购。而所谓导购,就是让消费者更容易找到他想要的东西,比如说买家输入“我需要一件漂亮的真丝丝巾”,“商品大脑”会通过语法词法分析来提取语义要点“一”、“漂亮”、“真丝”、“丝巾”这些关键词,从而帮买家搜索到合适的商品。

在导购中为让发现更简单,“商品大脑”还学习了大量的行业规范与国家标准,比如说全棉、低糖、低嘌呤等。



此外,它还有与时俱进的优点。“商品大脑”可以从公共媒体、专业社区的信息中识别出近期热词,跟踪热点词的变化,由运营确认是否成为热点词,这也是为什么买家在输入斩男色、禁忌之吻、流苏风等热词后,出现了自己想要的商品。

最后,智能的“商品大脑”还能通过实时学习构建出场景。比如输入“海边玩买什么”,结果就会出现泳衣、游泳圈、防晒霜、沙滩裙等商品。

同样,我们所做的知识图谱也是一种行业知识图谱,但因为是面向上市公司做的知识图谱,所以我们的行业跨度极大,图谱知识业绩为丰富:


以贵州茅台(600519.SH)为例,我们将其知识图谱分为四大部分,分别为:产业链、股权关系、行业 、概念板块。



产业链中我们看到其简单的原材料有上游的高粱、小麦、水,而单独对每一种原材料进行研究又能看到其关联的许多上市公司。


同样,我们也能看到茅台旗下的产品以及产品分类。



我们想要了解贵州茅台的股权关系,通过关系图谱就能看到其控股股控股公司以及股东构成。




通过行业我们能看到其所属的一级、二级、三级行业,并且能够看到他所属的概念板块。


而这之中每一项都是有联系的的,我们都能看到与其相连的所有信息。










总结


从技术来说,知识图谱的难点在于 NLP(这也是我们下一次计划和大家讨论的话题),因为我们需要机器能够理解海量的文字信息。但在工程上,我们面临更多的问题,来源于知识的获取,知识的融合。搜索领域能做的越来越好,是因为有成千上万(成百万上亿)的用户,用户在查询的过程中,实际也在优化搜索结果,这也是为什么百度的英文搜索不可能超过 Google,因为没有那么多英文用户。知识图谱也是同样的道理,如果将用户的行为应用在知识图谱的更新上,才能走的更远。


知识图谱肯定不是人工智能的最终答案,但知识图谱这种综合各项计算机技术的应用方向,一定是人工智能未来的形式之一。


分享到:
联系方式

企业微信:Xraybot 联系邮箱:service@xraybot.com 联系电话:010-88973588 联系地址:北京市朝阳区和平路1号11栋爱科思中心
交互数据可视化 高度集成化的算法框架 高性能计算 机器智能的信息感知
企业级知识图谱
扫码关注公众号