实现智能的核心技术之一-机器学习发表时间:2021-03-05 22:55 说到技术领域,现如今风头正盛的就是人工智能技术,它几乎成为了新一代技术的代名词。 一、什么是人工智能 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。 棋类游戏一直被视为顶级人类智力及人工智能的试金石。2016年之前,在棋类人机大战的历史上,最著名的人机大战要数国际象棋世界冠军加里·卡斯帕罗夫对国际象棋人工智能程序“深蓝”的比赛,在1996年的国际象棋人机大战中,国际象棋人工智能首次对国际象棋顶尖棋手获得胜局,此后在国际象棋领域人工智能屡败国际顶级棋手,使得国际象棋顶尖棋手对战国际象棋顶级人工智能在总比分上再也不能取胜。 没有可与深度学习竞争的人工智能技术。人工智能是循序渐进的耐心工作的成果,而且它总是站在巨人的肩膀上,并且这些进步在某种程度上促成了转折点——我们可以在新服务中利用这些成果来生产新东西,进行经济转型以及改变社会。正如人们所写的那样,我们正在经历另一场工业革命,它并不是简单地增加人类的机械力;计算机将增加人类的 认知能力和智力。我谈到了深度学习,因为这些变化和突破在很大程度上正是由于深度学习的进步。 二、深度学习是何方神圣 三、什么是深度学习 那么,到底什么是深度学习?为什么深度学习能让机器一下子变得聪明起来?又是为什么深度学习相较于其他机器学习技术,能够在机器视觉、语音识别、自然语言处理、机器翻译、数据挖掘、自动驾驶等方面取得好得多的效果? 计算机用来反复看的图片数据,就是“训练数据集”,在训练数据集中提前做好记号(希望计算机能识别出来的)的图片就是“标注数据”,这个过程就是“标注”,在“训练数据集”标注图片和未标注图片之间的区别是“特征”,计算机总结出“特征”并提高判断准确率的过程就是“训练”,当准确率达到一个相对稳定水平后,训练好的这套代码构成的算法逻辑就成了可以解决问题的“模型”,以上这个过程就是“机器学习”。 那机器学习是怎么学习的?总结出的规律又是什么样的?这就要说到机器学习算法 有一种算法非常简单,叫做决策树,例如我们要让计算机认识“一、二、三”三个字,计算机只要数一下识别的汉字的笔画数就可以甄别出来,但如果在训练集中加入“口”和“田”时,之前的哪种方法就行不通了,于是计算机就需要引入其他条件: 但是以上的决策树太过于基础,很难扩展,也不适用于现在的真实场景中。而深度学习,就是一种在表达能力上灵活多变,同时又允许计算机不断尝试,直到最终逼近目标的机器学习方法。 简单地说,深度学习就是把计算机要学习的东西看作一大堆数据,把这些数据放进一个多层级复杂的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是否符合要求,如果符合就保留这个网络作为目标模型,不符合就一次次的调整网络的参数设置,直到结果满足要求为止。 ![]() ![]() 如此反反复复,直到所有汉字对应的水流都可以按照期望流出,这时候我们就认为这是一个训练好的深度学习模型了。 四、应用实例 01 例如在对于上市公司财务健康度的评判我们就用到了机器学习,我们将历年来上市公司的财务数据最为训练集,将已披露的财务造假案例中造假特点进行标注,通过系统不断训练,将已经披露过的财务造假企业与不存在财务造假的企业区分开来,这样系统就识别出了什么样的企业有财务风险,什么样的企业较为安全,对于每次新发的财报,系统都会有进行检测、识别,从而对上市公司的财务健康度进行打分,区别出财务健康企业以及有财务风险的企业,从而对用户起到了预警的作用。 02 另外,在做公司业绩预测的时候我们同样用到了机器学习,在做业绩预测时,我们通过一系列技术手段先找到其业绩的影响因子(这个过程其实是特征筛选,既用到了NLP及知识图谱技术,也用到数学计量模型),然后将这些因子的时间序列数据放入深度学习模型,通过历史数据训练模型,让模型的网络自动拟合因子数据和目标企业业绩数据,当误差控制在满意范围时,这个模型就训练完成了。企业业绩与影响因子之间的关系,传统的线性回归方法的基础逻辑是认为因子与目标企业业绩之间是线性影响关系,但真实的世界中,因子与企业业绩之间仍有大量未知的因素在起作用,靠人来分析,只能是盲人摸象,还不如把这种事情让模型自己去摸索和学习,模型往往能够从高维视角发现不少人无法发现的特征,但也要注意,深度学习模型有极强的拟合能力,同时就像货币的正反面,负面的情况是,这种极强的拟合能力也会造成模型的过拟合(历史数据拟合完美,但泛化能力很差,预测结果与后来真实情况偏差很大),这些细节内容我们后续可以详细探讨。 |