加入收藏 | 设为首页 | 会员中心 | 我要投稿 宿州站长网 (https://www.0557zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

AI、机器学习和深度学习:人们需要知道的一切

发布时间:2021-07-26 17:09:59 所属栏目:大数据 来源:互联网
导读:在人工智能应用方面,企业需要获取商业利益、构建技术框架和模型,以获得更好的商业成果。 在人工智能、机器学习和深度学习方面,目前有很多市场热议和技术探讨。大多数问题有的过于松散,有的过于数学化,有的过于笼统,有的过于专注于特定的应用程序,与业
 
•转移学习:演奏者已经掌握了一些可转移的技能(例如阅读笔记的能力,甚至掌握了手指的敏捷性),因此可以利用自己的弹奏钢琴知识来学习另一种乐器,以此来学习如何吹小号。之所以使用转移学习,是因为它减少了学习时间,对于使用深度学习架构的模型而言,这可能很重要(数小时甚至数天)。
 
通用机器学习算法
 
常见的算法类型包括:
 
•回归只是通过数据点绘制曲线或直线。
 
•分类是确定某物属于哪个组。二进制分类(两组)正在确定某物是否属于一类,例如图片中的动物是否是狗。以动物为例,多种分类(两个以上类别)是动物是狗、猫、鸟等。
 
•聚类类似于分类,但是并不会提前知道分类。再次以识别动物图片为示例,可以确定存在三种类型的动物,但是不知道这些动物是什么,因此只需将它们分为几类即可。一般而言,当没有足够的受监管数据时,或者当想在数据中找到自然分组而不受限于特定组(例如狗、猫或鸟)时,可以使用聚类。
 
•时间序列假定数据顺序很重要(随着时间的推移获取的数据点具有应考虑的内部结构)。例如,可以将销售数据视为时间序列,因为可能希望随时间变化收入趋势,以检测季节性并将其与促销活动相关联。
 
深度学习模型
 
深度学习基于人工神经网络(ANN)的概念。这样可以就像人类的大脑一样工作,在这种情况下,根据某种反馈,突触变得更强或更弱,而神经元则根据特定条件激发。通过深度学习模型解决了难题,其中包括自动驾驶汽车、图像检测、视频分析和语言处理。
 
为了避免认为深度学习模型是唯一应该使用的东西,这里有一些注意事项:
 
•首先,它们需要大量数据,通常比机器学习模型要多得多。如果没有大量数据,深度学习通常会表现不佳。
 
•其次,由于深度学习模型需要大量数据,因此训练过程需要很长时间,并且需要大量的计算处理能力。这一点正被越来越强大和更快的CPU和存储器以及更新的GPU和FPGAs(现场可编程逻辑阵列)所解决。
 
•第三,深度学习模型通常比机器学习模型更难解释。可解释性是深度学习研究的主要领域,因此也许会有所改善。
 
如何衡量机器学习模型的性能
 
模型就像人类一样,可以对其性能进行评估。这里有几种方法可以衡量相对简单的回归模型的性能。
 
所有这些都可以被认为是一种成本函数,它可以帮助模型知道它是否离“正确”答案越来越近,或者距该答案“足够近”。成本函数告诉模型需要多长时间才能获取之前从未见过的新数据,并以足够高的概率输出正确的预测。训练模型时,目标是最小化成本函数。
 
分类模型中的精度与召回率
 
一旦成本函数完成了根据训练数据(正在显示的数据)帮助模型朝着“正确答案”方向发展的工作,就需要评估模型在尚未处理的数据上的表现如何看过。在分类模型的场景中进行解释(分类模型可以确定某物是否属于一组或另一组,例如图片是狗、猫、老鼠等)。
 
要评估分类模型的性能,请使用方程式以提高准确性。但是,通常认为,当训练数据显示等级不平衡时,准确性指标可能会误导,因此可以使用称为精度和召回率的指标。这些术语的含义如下:
 
•等级不平衡:数据在一个方向相对于其他方向偏斜。考虑预测信用卡交易是否为欺诈的示例。绝大多数交易不是欺诈性的,数据集将朝这个方向倾斜。因此,如果预测给定的交易不是欺诈,那么即使对交易本身一无所知,也可能是对的。在此示例中应用准确性指标会使人们误以为在预测非欺诈性交易方面做得很好。
 
•精确性是相关性的衡量标准。假设使用搜索引擎来了解人们喜欢网球运动的程度。精确测量返回的项目中有多少与此有关,而链接则表示人们喜欢网球的程度,人们喜欢网球活动的方式等等。
 
•召回是衡量完整性的标准。以喜欢网球运动为例,召回率可以衡量搜索引擎捕获所有可用参考的程度。缺少零引用是令人惊讶的,缺少一两个参考值还可以,缺少数千个参考值将是可怕的。
 
不幸的是,在现实世界中,精确性和召回率是相互抵消的;也就是说,当一个指标提高时,另一个指标就会降低。所以,必须确定哪个指标更重要。
 
以一个约会应用程序为例,该应用程序将某人与异性匹配。如果相貌端正、富有并且个性十足,那么可能会倾向于更高的精度,因为知道会有很多潜在的匹配,但只想要真正合适的匹配,并且筛选潜在对手的可能性很高。为了评估模型在精度和召回率之间的平衡程度,使用了F1评分。
 
这些指标可以绘制在图表上;一个称为ROC曲线(接收者工作特性曲线),另一个称为PR曲线(精度召回曲线)。一条完美的曲线(除非作弊,否则永远得不到它)是Y轴到1,然后越过顶点的曲线。在ROC曲线的情况下,对角线上的一条直线是不好的,这意味着模型以50%的比率平均预测正值和负值(不比随机猜测好)。这些指标经常转换为曲线下的面积(AUC),因此将看到AUC ROC和AUC PR等术语。
 
为什么建立机器学习模型会很困难
 
既然了解了什么是模型以及如何判断模型的性能,那么探讨一下为什么构建一个性能良好的模型会很困难。这有几个原因,其中包括:问题表述、数据问题、选择合适的模型算法和结构、选择合适的特征、调整超参数、训练模型、代价(误差)函数、欠拟合(偏差)和过拟合(方差)。
 
要知道,数据科学和其他任何科学一样,既是一门艺术,也是一门科学。当然,做事情总是有一些简单的方法,但是这些方法可能会很费时,可能会减少洞察力,而且很可能适得其反。当前的数据科学方法是汇集行业专家(如业务线、运营、转型和改进专家)和数据科学家的知识,以创建满足业务需求的模型。
 
过拟合与欠拟合
 
过拟合与欠拟合是最受欢迎的问题结果,因此对其进行深入研究。它们涉及偏差和方差。
 
过拟合(高方差)意味着该模型对数据的变化反应过多,因此它并未真正了解其真正含义,而是“记忆”了数据。就像学习一本数学书一样,当接受测试时,只知道书中给出的三个例子的答案。当老师问你这些数学问题时(例如2+1=3,7+2=9,和4+2=6),会发现它们是正确的。但是当她问一些不同的东西(例如7×9 =?)时,就可能不知道答案。这是因为即使了解例子的答案,但并没有掌握算法。
 
欠拟合(高偏差)是相反的问题,因为拒绝学习新知识。也许你学会简单的算法。但是现在情况已经改变了,要求实施更难的算法。如果表现出很高的偏见,则将继续学习简单的算法而不学习更难的算法的话,那么就会得到错误的答案。
 
这两者都是问题,数据科学具有帮助缓解这些问题的机制。
 
机器学习模型示例
 
可以了解一下使用两种算法的机器学习示例:急切算法和懒惰算法。
 
急切算法不使用显式训练,而懒惰算法是显式训练。由于急切算法未经过明确训练,因此它们的训练阶段很快(实际上不存在),但是其执行(或推断阶段)比经过训练的懒惰算法慢。急切算法也使用更多的内存,因为需要存储整个数据集,而一旦训练完成,用于训练懒惰算法的数据可以被丢弃,而占用的总内存更少。
 
示例:使用TF-IDF进行文档搜索
 
在应用于文本分析的急切算法的第一个示例中,使用的是称为TF-IDF的算法。将在短期内解释TF和IDF的含义,但首先明确一下这个示例的目标。有五个简单的简短文档(文档1至5)。这些文档还有一个关键字词典;该词典用于关键字搜索。还有一个用户查询,目的是检索最适合用户查询的文档。在这个例子中,要按优先级相关性顺序返回五个文档​​。
 
首先解释一下TF和IDF的缩写。TF代表术语频率或术语出现的频率(即该术语在文档中的密度)。人们关心的原因是,假设当“重要”术语出现得更频繁时,它所在的文档更相关;TF帮助将用户查询中的术语映射到最相关的文档。
 
IDF代表反文档频率。这几乎是相反的想法,在所有文档中频繁出现的术语的重要性较低,因此希望减少这些术语的重要性。显而易见的词是“a”、“an”和“the”,但对于特定的主题或领域,还有许多其他词。可以把这些常见的术语看作是干扰搜索过程的噪音。
 
为文档和查询计算出TF和IDF值后,只需计算用户查询与每个文档之间的相似度即可。相似性评分越高,文档越相关。然后,按照相关性顺序将这些文档呈现给用户。
 
现在已经了解了如何完成操作,只需要进行计算即可。
 
可以看看计算结果。将会看到几个矩阵。机器学习和深度学习模型使用矩阵数学进行大量计算。与数据科学家合作时,需要意识到这一点,需要帮助他们以对业务问题有意义的方式将数据转换为这些类型的格式。这并不难,但这是数据科学预处理阶段的一部分。

(编辑:宿州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读