60年技术简史,带你读懂AI的前世今生
那个时候要训练较深的神经网络是非常tricky的事情,因此也有类似Glorot等人的《Understanding the difficulty of training deep feedforward neural networks》,大家在使用深度学习工具时可能会遇到Xavier初始化方法,这个方法的作者正是Xavier Glorot。那个时候能把超参数选好从而能够训练好的模型是一种”黑科技”,我记得还有一本厚厚的书《Neural Networks: Tricks of the Trade》,专门介绍各种tricks。 深度卷积神经网络 深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet在LSVRC-2012 ImageNet这个比赛中取得了非常好的成绩。此后,卷积神经网络及其变种被广泛应用于各种图像相关任务。从2012年开始一直到2016年,每年的LSVRC比赛都会产生更深的模型和更好的效果。 Alex Krizhevsky在2012年的论文《ImageNet classification with deep convolutional neural networks》开启了这段”深度”竞争之旅。 2014年的冠军是GoogleNet,来自论文《Going deeper with convolutions》,它提出了Inception的结构,通过这种结构可以训练22层的深度神经网络。它同年的亚军是VGGNet,它在模型结构上并没有太多变换,只是通过一些技巧让卷积网络变得更深(18层)。 2015年的冠军是ResNet,来自何恺明等人的论文《Deep residual learning for image recognition》,通过引入残差结构,他们可以训练152层的网络,2016年的文章《Identity Mappings in Deep Residual Networks》对残差网络做了一些理论分析和进一步的改进。 2016年Google的Szegedy等人在论文《Inception-v4, inception-resnet and the impact of residual connections on learning》里提出了融合残差连接和Incpetion结构的网络结构,进一步提升了识别效果。 下图是这些模型在LSVRC比赛上的效果,我们可以看到随着网络的加深,分类的top-5错误率在逐渐下降。 图:LSVRC比赛 目标检测和实例分割 前面的模型主要考虑的是图片分类任务,目标检测和实例分割也是计算机视觉非常常见的任务。把深度卷积神经网络用到这两个任务上是非常自然的事情,但是这个任务除了需要知道图片里有什么物体,还需要准确的定位这些物体。为了把卷积神经网络用于这类任务,需要做很多改进工作。 当然把CNN用于目标检测非常自然,最简单的就是先对目标使用传统的方法进行定位,但是定位效果不好。Girshick等人在2014年在论文《Rich feature hierarchies for accurate object detection and semantic segmentation》提出了R-CNN模型,使用Region Proposal来产生大量的候选区域,最后用CNN来判断是否是目标,但因为需要对所有的候选进行分类判断,因此它的速度非常慢。 图:R-CNN (编辑:宿州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |