60年技术简史，带你读懂AI的前世今生

发布时间：2019-07-09 10:28:17 所属栏目：建站来源：佚名

导读：副标题#e# 人类的进化发展史就是一部人类制造和使用工具的历史，不同的工具代表了人类的进化水平。从石器时代、铁器时代、蒸汽时代、电气时代再到现在的信息时代，我们使用更加先进便捷的工具来改变生产和生活。工具的目的是延伸和拓展人类的能力，我们跑

那个时候要训练较深的神经网络是非常tricky的事情，因此也有类似Glorot等人的《Understanding the difficulty of training deep feedforward neural networks》，大家在使用深度学习工具时可能会遇到Xavier初始化方法，这个方法的作者正是Xavier Glorot。那个时候能把超参数选好从而能够训练好的模型是一种”黑科技”，我记得还有一本厚厚的书《Neural Networks: Tricks of the Trade》，专门介绍各种tricks。

深度卷积神经网络

深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet在LSVRC-2012 ImageNet这个比赛中取得了非常好的成绩。此后，卷积神经网络及其变种被广泛应用于各种图像相关任务。从2012年开始一直到2016年，每年的LSVRC比赛都会产生更深的模型和更好的效果。

Alex Krizhevsky在2012年的论文《ImageNet classification with deep convolutional neural networks》开启了这段”深度”竞争之旅。

2014年的冠军是GoogleNet，来自论文《Going deeper with convolutions》，它提出了Inception的结构，通过这种结构可以训练22层的深度神经网络。它同年的亚军是VGGNet，它在模型结构上并没有太多变换，只是通过一些技巧让卷积网络变得更深(18层)。

2015年的冠军是ResNet，来自何恺明等人的论文《Deep residual learning for image recognition》，通过引入残差结构，他们可以训练152层的网络，2016年的文章《Identity Mappings in Deep Residual Networks》对残差网络做了一些理论分析和进一步的改进。

2016年Google的Szegedy等人在论文《Inception-v4, inception-resnet and the impact of residual connections on learning》里提出了融合残差连接和Incpetion结构的网络结构，进一步提升了识别效果。

下图是这些模型在LSVRC比赛上的效果，我们可以看到随着网络的加深，分类的top-5错误率在逐渐下降。

60年技术简史，带你读懂AI的前世今生

图：LSVRC比赛

目标检测和实例分割

前面的模型主要考虑的是图片分类任务，目标检测和实例分割也是计算机视觉非常常见的任务。把深度卷积神经网络用到这两个任务上是非常自然的事情，但是这个任务除了需要知道图片里有什么物体，还需要准确的定位这些物体。为了把卷积神经网络用于这类任务，需要做很多改进工作。

当然把CNN用于目标检测非常自然，最简单的就是先对目标使用传统的方法进行定位，但是定位效果不好。Girshick等人在2014年在论文《Rich feature hierarchies for accurate object detection and semantic segmentation》提出了R-CNN模型，使用Region Proposal来产生大量的候选区域，最后用CNN来判断是否是目标，但因为需要对所有的候选进行分类判断，因此它的速度非常慢。

60年技术简史，带你读懂AI的前世今生

图：R-CNN

（编辑：宿州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/15

首页

尾页