实现智能的核心技术之一-机器学习

发表时间:2021-03-05 22:55

说到技术领域,现如今风头正盛的就是人工智能技术,它几乎成为了新一代技术的代名词。


一、什么是人工智能


人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。


不知道大家是从何时开始注意到人工智能技术的?或许大多数人对人工智能快速发展的认知,始于2016年初Alpha Go的惊世对局。

棋类游戏一直被视为顶级人类智力及人工智能的试金石。2016年之前,在棋类人机大战的历史上,最著名的人机大战要数国际象棋世界冠军加里·卡斯帕罗夫对国际象棋人工智能程序“深蓝”的比赛,在1996年的国际象棋人机大战中,国际象棋人工智能首次对国际象棋顶尖棋手获得胜局,此后在国际象棋领域人工智能屡败国际顶级棋手,使得国际象棋顶尖棋手对战国际象棋顶级人工智能在总比分上再也不能取胜。


 7a754e9fe88cb9497d2206b4debd4a99.jpeg



围棋人工智能长期以来举步维艰,围棋顶级人工智能甚至不能打败稍强的业余棋手。这是因为围棋的变化数量实在太大。Alpha Go横空出世之前,围棋界的观点也大致认为计算机要战胜围棋的世界棋手要20年的时间,当时深蓝在国际象棋棋盘上战胜人类棋手的故事并不足以让围棋高手信服。

Alpha Go问世一年内,以4:1击败李世石,60:0快棋挑落中日韩高手,以3:0击败当时排名世界第一的中国棋手柯洁。而这三次重要对局之间,Alpha Go每一次都比上一次更加强大,至此,Alpha Go被全世界范围内熟知,而谷歌人工智能程序Alpha Go正是基于机器学习中的深度学习技术研究开发的。

现如今,人工智能领域的研究者,几乎无人不谈深度学习。甚至有人高喊出“深度学习=人工智能”的口号。

不得不说,虽然深度学习在人工智能实现过程中的重要性毋庸讳言,但深度学习绝不是人工智能唯一的解决方案,二者之间也不能画上等号。

人工智能大师、深度学习泰斗约书亚·本吉奥(Yoshua Bengio)说:


没有可与深度学习竞争的人工智能技术。人工智能是循序渐进的耐心工作的成果,而且它总是站在巨人的肩膀上,并且这些进步在某种程度上促成了转折点——我们可以在新服务中利用这些成果来生产新东西,进行经济转型以及改变社会。正如人们所写的那样,我们正在经历另一场工业革命,它并不是简单地增加人类的机械力;计算机将增加人类的 认知能力和智力。我谈到了深度学习,因为这些变化和突破在很大程度上正是由于深度学习的进步。




二、深度学习是何方神圣


和许多人的想象相反,深度学习可不是一下子从石头缝里蹦出来的,它的历史几乎和人工智能一样长久。

我们可以由今天的深度学习追溯到它的核心计算模型——人工神经网络的诞生之日。早在通用计算机问世前的1943年,神经科学家沃伦·麦卡洛克和沃尔特·彼茨就提出了一种大胆假说,描述了人类神经节沿着网状结构传递和处理信息的模型。这一假说一方面被神经科学家用于研究人类的感知原理;另一方面则被计算机科学家们借鉴,用于人工智能的相关研究。后者也被学术界称为人工神经网络。

1965年,A.G.伊瓦赫年科提出建立多层人工神经网络的设想,这种基于多层神经网络的机器学习模型后来被人们成为“深度学习”,伊瓦赫年科有时也被称为“深度学习之父”。

8267a2afc8af26e3b40a148921e7184a.jpeg


与人工智能不同的是,数十年里,深度学习及相关的人工神经网络技术由于种种原因,蛰伏于人工智能兵器库的一角,默默无闻。当时的深度学习理论还无法解决网络层次加深后带来的诸多问题,计算机的计算能力也远远达不到深度神经网路的需要。更重要的是,深度学习赖以施展威力的大规模海量数据还没有完全准备好。

但也正是因为这漫长的等待,深度学习技术不断磨砺自己,弥补缺陷,等待着合适的时机出现。

真是万事俱备,只欠东风。2010年前后,深度学习能够施展身手的两个前提条件——强大的计算能力和高质量的大数据逐渐步入成熟。深度学习、大规模计算、大数据三位一体,神兵出世,一下子就可以摧城拔寨、无线坚不催。


三、什么是深度学习


那么,到底什么是深度学习?为什么深度学习能让机器一下子变得聪明起来?又是为什么深度学习相较于其他机器学习技术,能够在机器视觉、语音识别、自然语言处理、机器翻译、数据挖掘、自动驾驶等方面取得好得多的效果?


从根本上来看,深度学习和所有机器学习方法一样,是一种用数学模型对真实世界中的特定问题进行建模,以解决该领域内相似问题的过程。

这句话看上去有些繁琐,让我们来举个例子加以说明:

深度学习是一种机器学习,既然是叫“学习”,自然和我们人类学习过程有一定的相似情况,在我们小的时候,很多时候都是通过识字卡片来认字的,就像今天在手机或者平板电脑上教小朋友识字的app一样。虽然载体变了,但识字的方式依旧没变,基本原理就是从简单到复杂,看每个汉字的写法,看得多了就记住了,下次再看到就认出来了。

而教计算机认字,差不多也是一样,计算机要先把每个字的图案反复看很多遍,然后总结出一个规律,以后计算机只要看到类似的图案,符合之前总结的规律,计算机就知道了图案到底是什么字。


计算机用来反复看的图片数据,就是“训练数据集”,在训练数据集中提前做好记号(希望计算机能识别出来的)的图片就是“标注数据”,这个过程就是“标注”,在“训练数据集”标注图片和未标注图片之间的区别是“特征”,计算机总结出“特征”并提高判断准确率的过程就是“训练”,当准确率达到一个相对稳定水平后,训练好的这套代码构成的算法逻辑就成了可以解决问题的“模型”,以上这个过程就是“机器学习”。



那机器学习是怎么学习的?总结出的规律又是什么样的?这就要说到机器学习算法


有一种算法非常简单,叫做决策树,例如我们要让计算机认识“一、二、三”三个字,计算机只要数一下识别的汉字的笔画数就可以甄别出来,但如果在训练集中加入“口”和“田”时,之前的哪种方法就行不通了,于是计算机就需要引入其他条件:



但是以上的决策树太过于基础,很难扩展,也不适用于现在的真实场景中。而深度学习,就是一种在表达能力上灵活多变,同时又允许计算机不断尝试,直到最终逼近目标的机器学习方法。


简单地说,深度学习就是把计算机要学习的东西看作一大堆数据,把这些数据放进一个多层级复杂的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是否符合要求,如果符合就保留这个网络作为目标模型,不符合就一次次的调整网络的参数设置,直到结果满足要求为止。


就好比我们要处理的数据是水流,而这个处理网络就是一个由管道和阀门组成的水管系统,这个系统的入口是若干的管道开口,出口也是若干的管道开口,系统由很多层, 每层都有许多的阀门,这些阀门可以用来调节水流的流向与流量,这样根据不同的任务,这个水管系统的层数和阀门数各有不同。

367a9414819c444c846123f81736a833.jpeg

那这个系统是怎么来认字的呢?

比如计算机看到一张写有“田”字的图片,将其用0,1表示的所有颜色点变成水流,从入口流入水管系统,在出口出我们做了许多不同的汉字标识,其中一个出口就是“田”字,等水流过整个系统,计算机就会看出口,是不是有“田”字标记的出口流出的谁最多,如果是,那这个系统就符合要求,如果不是,就返回去调节每个阀门,知道“田”字出口流出的水流最多为止。同样,计算机认识“申”、“由”、“甲”都是一个道理。


如此反反复复,直到所有汉字对应的水流都可以按照期望流出,这时候我们就认为这是一个训练好的深度学习模型了。


四、应用实例


在来说说我们目前对于机器学习的应用,其实在我们的各个系统中均能看到机器学习的身影。

01

例如在对于上市公司财务健康度的评判我们就用到了机器学习,我们将历年来上市公司的财务数据最为训练集,将已披露的财务造假案例中造假特点进行标注,通过系统不断训练,将已经披露过的财务造假企业与不存在财务造假的企业区分开来,这样系统就识别出了什么样的企业有财务风险,什么样的企业较为安全,对于每次新发的财报,系统都会有进行检测、识别,从而对上市公司的财务健康度进行打分,区别出财务健康企业以及有财务风险的企业,从而对用户起到了预警的作用。

图片

02

另外,在做公司业绩预测的时候我们同样用到了机器学习,在做业绩预测时,我们通过一系列技术手段先找到其业绩的影响因子(这个过程其实是特征筛选,既用到了NLP及知识图谱技术,也用到数学计量模型),然后将这些因子的时间序列数据放入深度学习模型,通过历史数据训练模型,让模型的网络自动拟合因子数据和目标企业业绩数据,当误差控制在满意范围时,这个模型就训练完成了。企业业绩与影响因子之间的关系,传统的线性回归方法的基础逻辑是认为因子与目标企业业绩之间是线性影响关系,但真实的世界中,因子与企业业绩之间仍有大量未知的因素在起作用,靠人来分析,只能是盲人摸象,还不如把这种事情让模型自己去摸索和学习,模型往往能够从高维视角发现不少人无法发现的特征,但也要注意,深度学习模型有极强的拟合能力,同时就像货币的正反面,负面的情况是,这种极强的拟合能力也会造成模型的过拟合(历史数据拟合完美,但泛化能力很差,预测结果与后来真实情况偏差很大),这些细节内容我们后续可以详细探讨。

图片

当然,这样的例子会有很多,我们会在后续对其进行介绍。
分享到:
联系方式

企业微信:Xraybot 联系邮箱:service@xraybot.com 联系电话:010-88973588 联系地址:北京市朝阳区和平路1号11栋爱科思中心
交互数据可视化 高度集成化的算法框架 高性能计算 机器智能的信息感知
企业级知识图谱
扫码关注公众号