AI、机器学习和深度学习:人们需要知道的一切
发布时间:2021-07-26 17:09:59 所属栏目:大数据 来源:互联网
导读:在人工智能应用方面,企业需要获取商业利益、构建技术框架和模型,以获得更好的商业成果。 在人工智能、机器学习和深度学习方面,目前有很多市场热议和技术探讨。大多数问题有的过于松散,有的过于数学化,有的过于笼统,有的过于专注于特定的应用程序,与业
在第一个TF矩阵中,计算每个文档的每个关键字(在字典中指定)的规范化(“相对”)频率。分子表示该文档中的单词计数频率,分母表示单词在任何给定文档中出现的最大次数;换句话说,它是所有分子之间的最大值。
在第二个矩阵中,为字典中的每个术语在最后一行添加一个IDF向量。只需应用已经给出的方程:IDF(t)=log(N/N(t)),其中
•N =推荐文件数
•n(t)=出现关键字t的文档数
下一步是通过将文档的每一行乘以IDF的最后一行来为文档创建TF-IDF矩阵。现在,已经完成了文档矩阵。重复相同的过程以创建用户查询矩阵。
最后,将两个矩阵组合起来,并计算每个文档和用户查询之间的相似度。在这种情况下,可以使用方程式来计算相似度,称为余弦相似度(也可以使用其他相似度计算)。注意,用户查询和自身之间的相似度值是1,因为它应该是1,因为它正在与自身进行比较。
从这里,可以将相似度值(在矩阵的最后一列)从高到低排序,从而向用户呈现从高到低的相关文档。现在完成了。但要注意的是,该模型没有“训练”,只应用了一些方程式。
示例:使用基于内容的协作方法推荐宠物
再了解一下推荐引擎中使用的急切机器学习算法的另一个例子,类似于人们在许多网站上看到的内容。在这种情况下,假设你有四名宠物爱好者的数据,并且可以了解他们喜欢的宠物的类型以及他们对特定宠物的喜欢程度。假设有第五个宠物爱好者(Amy),你对他的偏爱知之甚少。
你的目标有两个:预测Amy对特定宠物的评价,并预测Amy喜欢宠物的偏好。应该看到,这与相似性问题非常相似,这是在你认识的人与不太了解的的人之间使用属性相似性来实现的。
有两种方法可以确定推荐系统中的相似性:协作和基于内容,协作可以进一步定义为基于用户或基于项目。
在协作方法中,需要对社区中的用户进行评级。通过基于用户的方法来应用此功能,可以根据社区中相似用户的喜欢来预测用户喜欢什么。相比之下,使用基于项目的方法,可以根据社区喜欢的项目之间的相似性来预测用户喜欢什么。
基于内容的方法不使用社区中用户的评分。取而代之的是,它基于商品本身的特征,而分配给这些特征的值(或标签)则由领域专家提供。
每种方法都有其优点和缺点。
考虑这个例子:在协作方法中,使用其他用户的宠物等级来预测个人对宠物的未知等级。
首先,尝试基于用户的方法。因为正在比较可能因人为偏见而歪曲的总体个人评级(他们的基准可能会有所不同),所以使用了一个称为Pearson相似性的相似性函数,该函数试图通过规范化评分(即通过从每个用户评分中减去评分的平均值)。在该示例中,就会发现Alice的评分与Bill的评分最为相似,因此可以假设Amy的缺失评分与Bill的评分相同。
现在尝试基于项目的方法。通过这种方法,不必关注个人的评分,而是关注项目的评分。而且,由于项目的评分是由几个人提供的评分的综合,因此不必担心偏差,因此可以使用余弦相似度函数。在这里,你会看到猫和刺猬最相似,因此可以推断出Amy对猫的评分与她对刺猬的评分相同。
最后,尝试基于内容的方法。这种方法不需要对社区成员进行评分。取而代之的是,专家标记了数据,在这种情况下,数据是每种宠物类型的属性(可爱、整洁、忠诚)。如果知道某人对每种属性的偏好,则可以使用余弦相似度函数来预测该人最可能喜欢的宠物。在此示例中,Amy最有可能按照偏好降序依次选择刺猬、兔子、狗、猪、猫。
以下学习一些数学。举例来说,要确定Amy对刺猬的评分,会发现刺猬的宠物属性与Amy对宠物属性的重要性等级之间存在相似之处:
•刺猬的向量是(4,3,1,1)
•Amy的向量是(3,3,2,1)
•需要找到这两个向量之间的相似性
•余弦相似度= [4(3)+(3)(3)+(1)(2)+(1)(1)]/[SQRT(4^2 + 3^2 + 1^2 + 1^2)* SQRT(3^2 + 3^2 + 2^2 + 1^2] = 0.96
对于协作方法,可以使用Pearson方程,因为它可以标准化各个用户的评分(他们的评分可能不一致)。如果具有客观等级((比如不是基于不同等级的人的评分),可以使用余弦相似度。以下是方程式中的变量:
•u:用户
•i:需要评级的项目
•N:#个最近的邻居
•j:邻居
•rj,I:j对i的评分
•rj bar:j的平均值
•ru bar:用户评分的平均值
•alpha:等级的缩放比例; 1表示按原样使用(没有正确的alpha值;这是那些超参数之一),有经验的数据科学家可以根据问题的目标和背景进行调整,以得出更好的结果。
示例:使用支持向量机(SVM)的懒惰算法
最后,这里是一个称为支持向量机(SVM)的懒惰机器学习算法的例子。在这种方法中,需要确定一个项目属于哪个组,例如一个新客户最终是一个利润高还是低的客户。要使用支持向量机完成此操作,需要计算两个参数:
•每个属性的权重(重要性)(属性的示例可能是客户的收入、家庭成员的数量、职业和教育成就)
•支持向量,它是最接近将各组分开的曲线(称为超平面)的数据集。
然后使用这两个参数并将它们插入方程式。
计算这些参数的方法是使用可用的数据集,这就是所谓的训练数据。
在训练阶段计算出的值是:
•用于最小化成本函数的权重(alpha和theta)。
•支持向量xi,它是训练数据的子集。
一旦模型得到训练,就可以插入x的新值(例如新客户的属性),然后预测x的这些新值所属的类h(x)(例如它们是否预期是高利润客户)。
人工智能项目失败的原因
人工智能项目在业务环境中失败的常见方式很多。任何人工智能框架都应解决这些问题。
失败的第一个驱动因素或者是选择了错误的用例,或者是在没有足够能力和基础设施的情况下使用了太多的用例。可以使用前面描述的条件来确定更好地适合于人工智能解决方案的问题。此外,明智的做法是建立一系列用例,以使功能和知识以渐进的方式构建,并随着技术的成熟程度的提高而提高。
选择正确的用例最好与以下人员协作:
•企业员工,他们知道业务问题、环境和约束,以及他们想要测试的假设。
•分析师,他们可以提出问题以阐明业务意图和要求,并且可以识别数据源和转换。
•可以制定机器学习和深度学习问题的数据科学家,以便模型可以为企业的假设提供答案。
•可以提供对数据访问权限的数据工程师和IT资源。
正确地预先组织和安排这些类型的活动需要经验丰富的跨职能领导者,他们需要了解并可以平衡业务影响,运营驱动因素、工作流障碍和机遇、数据需求和约束以及技术支持因素。
失败的第二个驱动程序错误地自己构建了人工智能模型。这包括两个元素:
•尽管数据科学和其他科学一样,在本质上是实验性的(在使用数据之前,并不真正知道数据会告诉你什么),但数据科学的方法应该定义明确,应该具有纪律性,并且应该加快价值时间。
•优秀的数据科学家可以快速进行实验和迭代,从他们的实验中学习,区分有前途和无效的方法,并在必要时研究和调整前沿方法。优秀的数据科学家以快速、并行的方式构建最小可行产品(MVP)。
失败的第三个驱动因素是缺乏同时快速构建和改进多个人工智能模型的规模。通常,这归结于数据科学家能够协同工作,重用数据管道、工作流和模型/算法,并重现模型结果。此外,他们还需要能够捕获并快速合并操作反馈(在测试、登台或生产环境中),以进一步构建规模。实现这一点既需要正确的基础设施环境,也需要正确的模型治理方法。
失败的第四个驱动因素是无法实现人工智能模型的运营和货币化。一般来说,开发人工智能模型是出于以下两个目的之一:
•发现以前未经确认的见解
•自动化决策(以降低成本和提高效率/生产率)。
很明显,从来没有出过实验室的模型不能完成这些任务。 (编辑:宿州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |