赋能业务转型，人工智能需要这三大核心能力

发布时间：2021-09-26 18:38:19 所属栏目：大数据来源：互联网

导读：人类的智慧宽广而复杂。有些人类成就远远超出现今机器可达的领域，要想让机器触及这些领域，还需要一段漫长的时间。对于解决抽象问题、概念生成、情绪知识、创造力甚至是自我认知，即便是最强有力的深度学习算法，也无法在这些领域与人类智慧相提并论。把所

人类的智慧宽广而复杂。有些人类成就远远超出现今机器可达的领域，要想让机器触及这些领域，还需要一段漫长的时间。对于解决抽象问题、概念生成、情绪知识、创造力甚至是自我认知，即便是最强有力的深度学习算法，也无法在这些领域与人类智慧相提并论。

把所有这些认知能力融合到一台机器中，从而能够应对所有通用场景的人工智能称为通用人工智能。目前，通用人工智能还停留在理论阶段。

不过，当前的技术在执行特定类型任务方面取得了较大成功，这些任务过去都依赖于人类智力。我们称这类人工智能为狭义人工智能或弱人工智能。弱人工智能主要指三种能力：学习、感知和认知。

谈到AI的时候，客户们不停地在问：“这事儿成了吗？”在一个AI被过度炒作的世界，确实很难分清AI是幻想还是现实，是实际能力还是营销表演。

所有这些能力在今天都是真实存在的。今天的AI是真实的，成千上万的公司正在使用AI进行业务转型。关注AI未来的可能性固然重要，但是你更需要了解现在的AI能做些什么。

学习

▲学习无显式编程的学习

机器学习的首要特征就是随时间学习的能力，并且不需要明确编程。和人类一样，机器学习算法通过探索与实践学习，而不是遵循一步步的指令（当然我知道有些读者是小孩子的父母，有时候你们可不希望孩子们这样）。

机器学习算法是按照学习方式分类的。当下最流行的、你的企业90%的时间可能都会采用的技术就是有监督学习。

有监督学习使用包含输入和期望输出的数据集。通过迭代优化，学习算法可以找到一个函数，对输入如何转化为输出进行建模。这个模型会被应用于训练集外的新的输入，并预测对应的输出。

找到正确的算法和参数，部分靠科学，部分靠创造力和直觉。如何将机器学习应用于这一过程本身就是个研究课题这种技术称为自动化机器学习（AutoML）。

有监督学习算法都有相同的缺陷：它们需要大量数据。而且不是任何数据都行，它们需要同时包含输入和对应输出的训练数据，也称之为标记数据。

有时我们会有在记录系统或交互系统中存储的已经标记过的历史数据。例如，对于客户流失模型我们可以查看流失客户的历史数据，加上客户的历史交互一起作为训练数据的输出部分。通过使用正确的算法，我们仅仅通过查看一系列的交互，就能够预测未来的客户流失情况。

然而有时我们不会如此幸运，数据并不会被标记。无监督学习算法会处理一组没有标记的数据并找出其中的结构。聚类算法是无监督学习算法中最流行的一种，它通过不同的技术，在数据中找到共性并对其分组。你可能使用这种算法对你的客户群或网页访问者进行客户细分。

其他常用的无监督学习算法有关联规则（定义数据间的关联，如购买某种特定产品的用户会对其他特定产品感兴趣）和异常检测（找出与主体数据不同的罕见或可疑部分数据）。

在其他情况下，我们完全不使用训练数据。想想人们如何学会玩一款视频游戏。解决这个问题的有监督方法就是观看成千上万的游戏视频并从中学习。这是许多Youtube播主的商业模式，我的孩子们就看这种视频，但我发现这种方式极度枯燥。

一个更有趣的学习方法是实际上手玩这个游戏。在玩的过程中，如果我们做对了（比如得分）就会得到正向强化，如果我们做错了（比如被杀死）就会得到负向强化。强化学习算法就是这么做的：它们通过探索环境并强化正确的行为来学习机器学习的功能。

强化学习由于其不需要数据的特性，成为商业上一种极其有前途的机器学习方式。它特别适合自动化系统无论是移动的（如车辆、遥控飞机）还是静止的（如空调系统、电力系统）同时也可以应用于复杂的业务流程。强化学习通常被认为是AI中最困难的学科。

感知

▲感知解释周边世界

如果说有某个领域为人类所独有，那就是感知了。数十年来，我们尝试模仿人类的能力去感知周围的世界，却鲜有成功。理解一幅图画或将语音转文字的复杂度使其几乎无法用编程的方式实现想象一下如何用一步步的指令来定义图片里的一匹马。

机器学习算法更适合解决这类问题。然而，传统机器学习算法在处理感知任务时的准确性与人类能做到的程度相去甚远（我仍然记得在Windows Vista上给开发们演示语音识别功能的情景……这件事教我学会要做个更坚强的人！）。

以图像分类为例。ImageNet是图像分类中最著名的挑战。自2010年起，全球的参与者提交他们的算法来创建最精准的模型。在竞赛初期（即2010年），能达到的较好的误差率约在25%左右。作为比较，同一数据集下人类对应的误差率约为5.1%。

到了2012年，Alex Krizhevsky（一位来自多伦多大学的学生）提交了他的方案：一个包含8层名为AlexNet的神经网络。AlexNet击败了其他竞争对手，达到了15.3%的误差率比仅次于他的竞争者低了10个点。

在接下来的数年内，他引入的技术被持续改进并增加了更多层数，直到2014年，一个名为GoogLeNet的22层神经网络达到了6.7%的误差率。

次年，一个来自微软研究院的团队提交了使用全新神经网络技术的作品，其神经网络的深度达到了超大的152层，误差率仅为3.57%，首次超过了人类的表现。

深度学习永远地改变了计算机视觉。如今，这项技术实际上已经被用于计算机视觉的所有高精度场景，这使其成为企业中最常见的用例。以下是一些计算机视觉在当今的应用：

为图像的内容分类（影像分类）

识别一幅图像中的多个物体，并识别每个物体的边界（物体检测）

识别图像中的场景或行为（如：工作场所的不安全情形，或零售商店的补货）

检测人脸，识别身份，甚至辨识每张脸的情绪

识别书写文本，包含手写体文本（光学字符识别）

鉴别图像或视频里的攻击性行为

研究员Harold Stolovitch和Erica Keeps在他们的书Telling Ain’t Training（ASTD出版社）中断言，我们获取的信息中，有83%来自视觉，次之是听觉，提供了11%的感觉输入。两者合起来占据了我们从外界获取信息的94%。毫无疑问，音频处理是人工智能关注的另一个较大领域，仅次于计算机视觉。

相似的深度学习技术可以应用到音频信号上，帮助计算机识别声音。你可以利用这项能力区分鸟儿们的歌声，或通过风力涡轮机发出的声音来预测故障。

不过人工智能在音频处理方面最激动人心的还是语音识别。用于语音识别的参照数据集被称为总机，它包含了约260小时的电话交谈录音。测量后人类的转录误差率为5.9%。该误差率在2016年被微软研究院设计的神经网络追平，并于1年后被其以5.1%的误差率击败。有史以来第一次，一台机器可以比人类自身更好地理解人类。

这些突破不但让机器更懂我们，而且使得机器可以用自然的方式与我们沟通。2018年，Azure上线了基于深度学习开发的文字转语音服务，该服务能够合成出与真人无异的人声。

这些能力的结合将实现计算机科学的法宝：全自然用户接口（NUI）。机器既可以看见和理解人类，又可以用自然语言与人类交流，这看起来就像是我们已经实现了科幻电影的幻想一样。不过，我们真的做到了吗？要与计算机进行真正有意义的交流，计算机不但要能转录我们说的话，还要能理解话里的意思。

自然语言处理（NLP）是人工智能中从人类语言中分析、理解并提取含义的领域。NLP最常见的场景之一就是语言理解，语言理解是现代会话型人工智能体验（比如数字助理）的基矗

当你向Siri、Alexa或Cortana询问天气时，系统首先将你的会话音频转换成文字，然后通过自然语言理解模型抽取出你的意图，然后将意图（如“获取天气”）映射到对应输出（在这个例子中，就是提供当地的天气信息）。

NLP技术在过去几年中飞速发展。有些只能处理简单任务，比如情绪分析、关键字抽取或个体识别，有些则可以处理更复杂的任务，如文本归纳或翻译。2018年，微软的机器翻译团队首次在自动翻译方面达到人类水平这是个极度复杂的任务，曾一度被认为是不可能实现的。

自然语言理解最激动人心的应用之一便是机器阅读理解。2018年1月，来自微软亚洲研究院的团队使用斯坦福问答数据集（SQuAD）达到了人类的水平，该数据集由针对一组维基百科文章的问题所组成。实际上，有关这些文章的开放性问题，系统能够给出比人类更好的答案。许多公司为之做出了贡献，帮助它走得更远。

尽管如此，这些系统仍然无法达到人类的抽象层次。在其核心，问答算法会搜索文本来寻找可以指向正确答案的线索。对于每个问题，系统都要搜索整个文本来匹配。人类也这么做（特别是当我们很匆忙时），但是当我们真正想理解一段文字时，我们会从中抽取知识，进行概括，并使其更易于理解。

想象一段描述加利福尼亚的文字。人类会从这段文字中归纳出“加利福尼亚”这个实体并给它赋予属性（如人口、面积），甚至与其他实体的关系（如邻州、地方长官）。归纳后，我们不再需要那段文字来回答关于加利福尼亚的问题。我们已经概括了有关的知识。

人工智能中与此过程对应的是知识抽取，其对企业有着深远的意义。通过使用这些技术，我们可以从混沌、无序，甚至令人困惑的信息中抽取高阶概念。结果知识图不但能用于回答关于整个数据产业的宽泛问题，还能浏览和理解这些信息。

这种水平的抽象远远超出了传统NLP的能力范围，使其更接近我们所说的认知。

认知

（编辑：宿州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页