乐橙lc8官方网站-乐橙lc8官网-乐橙lc8官网下载
当前位置:主页 > 互联网 养老 >

告别2019:属于深度学习的十年,那些我们必须知

发表日期:2020-10-30 12:28文章编辑:admin浏览次数: 标签:    

当今日的太阳升起时,咱们正式离别了上一个十年。

在这十年中,伴跟着核算才能和大数据方面的开展,深度学习现已霸占了许多从前让咱们感到扎手的问题,尤其是核算机视觉和自然言语处理方面。此外,深度学习技能也越来越多地走进咱们的日子,变得无处不在。

这篇文章总结了曩昔十年中在深度学习范畴具有影响力的论文,从 ReLU、AlexNet、GAN 到 Transformer、BERT 等。每一年还有许多荣誉提名,包括了许多名声在外的研讨效果。

论文链接:http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

前期的神经网络大多运用 sigmoid 激活函数。虽然它具有很好的作用,可是,跟着层数的添加,这种激活函数使得梯度很简略呈现衰减。在 2011 年的这篇论文中,ReLU 被正式提出。它可以协助处理梯度消失的问题,为神经网络添加深度铺路。

Sigmoid 及其导数。

当然,ReLU 也有一些缺陷。在函数为 0 的时分不行微,而神经元可能会「逝世」。在 2011 年之后,许多针对 ReLU 的改善也被提了出来。

年度荣誉提名:

依据对 ReLU 进行了改善的激活函数,在 x 为负时不取 0。

论文链接:https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf

论文链接:https://arxiv.org/abs/1511.07289

论文链接:https://arxiv.org/abs/1706.02515

这一激活函数已证明比 ReLU 作用更好,BERT 等模型已运用。

论文链接:https://arxiv.org/abs/1606.08415

论文链接:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

AlexNet 架构。

AlexNet 经常被认为是这一波人工智能浪潮的起点,该网络在 ImageNet 应战赛中的错误率与前一届冠军比较减小了 10% 以上,比亚军高出 10.8 个百分点。AlexNet 是由多伦多大学 SuperVision 组规划的,由 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 组成。

AlexNet 是一个 8 层的卷积神经网络,运用 ReLU 激活函数,总共有 6 千万参数量。AlexNet 的最大奉献在于证明了深度学习的才能。它也是第一个运用并行核算和 GPU 进行加快的网络。

在 ImageNet 上,AlexNet 获得了很好的体现。它将辨认错误率从 26.2% 降到了 15.3%。明显的功能进步招引了业界重视深度学习,使得 AlexNet 成为了现在这一范畴引证最多的论文。

ImageNet 是斯坦福大学李飞飞等人完结的一个用于图画辨认的数据集,是核算机视觉范畴查验模型功能的基准数据集。

论文链接:http://www.image-net.org/papers/imagenet_cvpr09.pdf

ImageNet

论文链接:http://people.idsia.ch/~juergen/ijcai2011.pdf

论文链接:http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf

论文链接:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

Word2vec 是由谷歌研讨团队里 Thomas Mikolov 等人提出的模型,该模型能从非常大的数据会集核算出用以标明词的接连型向量。word2vec 成为了 NLP 范畴的深度学习首要的文本编码办法。它依据在相同语境中一起呈现词具有类似含义的思路,使文本可以被嵌入为向量,并用于其他下流使命。

论文链接:https://nlp.stanford.edu/pubs/glove.pdf

论文链接:https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

DeepMind 的 DQN 模型玩雅达利游戏

DeepMind 在这一年提出的用 DQN 玩雅达利游戏敞开了深度强化学习研讨的大门。强化学习曩昔大多数情况下用在低维环境中,很难在更杂乱的环境中运用。雅达利游戏是第一个强化学习在高维环境中的运用。这一研讨提出了 Deep Q-learning 算法,运用了一个依据价值的奖赏函数。

论文链接:http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

论文链接:https://papers.nips.cc/paper/5423-generative-adversarial-nets

生成对立网络是 Ian Goodefellow 等人提出的非监督式学习办法,通过让两个神经网络彼此博弈的办法进行学习。自 2014 年 GAN 网络提出以来,其在 Computer Vision等范畴获得了广泛的重视。

生成对立网络的成功在于它可以生成传神图片。这一网络通过运用生成器和判别器之间的最小最大博弈,GAN 可以建模高纬度、杂乱的数据散布。在 GAN 中,生成器用于生成假的样本,而判别器进行判别。

WGAN 是 GAN 的改善版别,获得了更好的作用。

论文链接:https://arxiv.org/abs/1701.07875

StyleGAN 生成的图画

论文链接:https://arxiv.org/abs/1812.04948

论文链接:https://arxiv.org/abs/1409.0473

注意力的可视化效果

这篇论文介绍了注意力机制的思路。与其将一切信息压缩到一个 RNN 的隐层中,不如将整个语境保存在内存中。这使得一切的输出都能和输入对应。除了在机器翻译中运用外,attention 机制还被用于 GAN 等模型中。

论文链接:https://arxiv.org/abs/1412.6980

Adam 由于其易微调的特性而被广泛运用。它依据对每个参数的不同学习率进行习惯这种思维。虽然近来有对 Adam 功能提出质疑的论文呈现,但它依然是深度学习中最受欢迎的方针函数。

论文地址:https://arxiv.org/abs/1711.05101

和 Adam 相同知名的方针函数。

论文地址 https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf*

论文链接:https://arxiv.org/abs/1512.03385

Residual Block 结构。

大名鼎鼎的 ResNet,从 ResNet 开端,神经网络在视觉分类使命上的功能第一次逾越了人类。这一办法赢得了 ImageNet 2015、以及 COCO 竞赛的冠军,也获得了 CVPR2016 的最佳论文奖:该研讨的作者是何恺明、张祥雨、任少卿和孙剑。

开始 ResNet 的规划是用来处理深层 CNN 结构中梯度消失和梯度爆破的问题,现在 Residual Block 现已成为了简直一切 CNN 结构中的根本结构。

这个主意很简略:将输入从卷积层的每个块添加到输出。残差网络之后的启示是,神经网络不该分解为更多的层数,在最不抱负的情况下,其他层可以简略设置为恒等映射。但在实践情况中,更深层的网络常常在操练上遇到困难。残差网络让每一层更简略学习恒等映射,并且还削减了梯度消失的问题。

虽然并不杂乱,但残差网络很大程度上优于惯例的 CNN 架构,尤其在运用于更深层的网络上时。

几种 CNN 之间的比照。

许多 CNN 架构都在抢夺「头把交椅」,以下是一部分具有代表含义的样本:

Inceptionv1 结构。

论文链接: https://arxiv.org/abs/1409.4842

论文链接: https://arxiv.org/abs/1409.1556

论文链接: https://arxiv.org/abs/1806.07366

论文链接:https://arxiv.org/abs/1502.03167

批归一化是现在简直一切神经网络的干流趋势。批归一依据别的一个简略可是很棒的主意:在操练进程中坚持均值和方差核算,借此将 activation 的规模变换为零均值和单位方差。

关于批归一化作用的切当原因还未有结论,但从实践上说的确有用的。

不同归一化技能的可视化呈现。

论文链接:https://arxiv.org/abs/1607.06450

论文链接:https://arxiv.org/abs/1607.08022

论文链接:https://arxiv.org/abs/1803.08494

2016 年: 攻陷最杂乱的游戏——AlphaGo

登上 Nature 的 AlphaGo 论文 《Mastering the game of Go with deep neural networks and tree search》

论文链接:https://www.nature.com/articles/nature16961

许多人关于现代 AI 的了解始于 DeepMind 的围棋程序 AlphaGo。AlphaGo 研讨项目始于 2014 年,意图是为了测验一个运用深度学习的神经网络如安在 Go 上竞赛。

AlphaGo 比曾经的 Go 程序有了明显的改善,在与其他可用围棋程序的 500 场竞赛中,在单台核算机上运转的 AlphaGo 赢得了除一个之外的一切成功,而运转在多台核算机上的 AlphaGo 赢得了与其他 Go 程序对战的一切 500 场竞赛,在与单台核算机上运转的 AlphaGo 竞赛中赢下了 77%的对阵。2015 年 10 月的散布式版别运用了 1,202 个 CPU 和 176 个 GPU,其时它以 5: 0 的比分打败了欧洲围棋冠军樊麾,轰动一时。

这是核算机围棋程序第一次在大局棋盘且无让子的情况下打败了人类工作棋手。2016 年 3 月,通过自我对弈进行操练的加强版 AlphaGo 在竞赛中以 4: 1 打败了世界围棋冠军李世石,成为第一个在无让子情况下打败围棋工作九段棋手的核算机程序,载入史册。赛后,AlphaGo 被韩国棋院颁发声誉工作九段的称谓。

年度荣誉提名:

论文链接:https://www.nature.com/articles/nature24270

作为 AlphaGo 的后继版别,2017 年 10 月,DeepMind 发布最新强化版的 AlphaGo Zero,这是一个无需用到人类专业棋谱的版别,比之前的版别都强壮。通过自我对弈,AlphaGo Zero 通过三天的学习就逾越了 AlphaGo Lee 版别的水平,21 天后到达 AlphaGo Maseter 的实力,40 天内逾越之前一切版别。

2017 年: 简直人人都用的 Transformer

论文链接:https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf

闻名的 Transformer 架构呈现了。2017 年 6 月,谷歌宣告又在机器翻译上更进了一步,完成了完全依据 attention 的 Transformer 机器翻译网络架构,并且还在 WMT 2014 的多种言语对的翻译使命上逾越了之前 Facebook 的效果,完成了新的最佳水平。

在编码器-解码器装备中,显性序列显性转导模型依据杂乱的 RNN 或 CNN。体现最佳的模型也需通过注意力机制衔接编码器和解码器。

谷歌提出了一种新式的简略网络架构——Transformer,它完全依据注意力机制,完全抛弃了循环和卷积。两项机器翻译使命的试验标明,这些模型的翻译质量更优,一起更并行,所需操练时刻也大大削减。新的模型在 WMT 2014 英语转德语的翻译使命中获得了 BLEU 得分 28.4 的效果,抢先当时现有的最佳效果逾越 2 个 BLEU 分值。在 WMT 2014 英语转法语翻译使命上,在 8 块 GPU 上操练了 3.5 天之后,新模型获得了新的单模型尖端 BLEU 得分 41.0,仅仅现在文献中最佳模型操练本钱的一小部分。

Transformer 在其他使命上也泛化很好,把它成功运用到了有很多操练数据和有限操练数据的英语组别剖析上。

论文链接:https://openreview.net/forum?id=r1Ue8Hcxg

神经结构查找标明主动规划人工神经网络的进程,人工神经网络是机器学习范畴中广泛运用的模型。NAS 的各种办法规划出的神经网络,其功能与手艺规划的架构适当乃至更优越。可以依据查找空间,查找战略和功能评价战略三个方面临 NAS 的办法进行分类。其他办法,如《Regularized Evolution for Image Classifier Architecture Search》运用了进化算法。

2018 年: 预操练模型大热

当然是谷歌的 NLP 预操练模型 BERT: 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 ,这篇论文现在现已有 3025 次引证量了。

论文链接:https://arxiv.org/abs/1810.04805

本文介绍了一种新的言语表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的言语表征模型不同,BERT 旨在依据一切层的左、右语境来预操练深度双向表征。BERT 是首个在大批语句层面和 token 层面使命中获得当时最优功能的依据微调的表征模型,其功能逾越许多运用使命特定架构的体系,改写了 11 项 NLP 使命的当时最优功能记载。

BERT 与GPT-2和 ELMo 的模型结构比照。

自 BERT 被提出以来,依据 Transformer 的言语模型呈井喷之势。这些论文需求时刻检测,还很难说哪一个最具影响力。

论文链接:https://arxiv.org/abs/1802.05365

论文链接:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

3、《Language Models are Unsupervised Multitask Learners》——即OpenAI在 2 月份推出的,参数量高达 15 亿的预操练模型GPT-2。

论文链接:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

以往的 Transformer 网络由于遭到上下文长度固定的约束,学习长期以来联系的潜力有限。本文提出的新神经架构 Transformer-XL 可以在不引起时刻紊乱的前提下,可以逾越固定长度去学习依赖性,一起还能处理上下文碎片化问题。

论文链接:https://arxiv.org/abs/1901.02860

BERT 带来的影响还未平复,CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个使命上逾越了 BERT 的体现,并在 18 个使命上获得了 SOTA。

论文链接:https://arxiv.org/abs/1906.08237


论文链接:https://arxiv.org/abs/1508.07909

2019 年: 深度学习的原理改善

论文 《Deep Double Descent: Where Bigger Models and More Data Hurt》 ,本文评论的 Double Descent 现象与经典机器学习和现代深度学习中的盛行观念各走各路。

论文链接:https://arxiv.org/abs/1912.02292

在本文中研讨者证明,各种现代深度学习使命都体现出「两层下降」现象,并且跟着模型尺度的添加,功能首要变差,然后变好。此外,他们标明两层下降不只作为模型巨细的函数呈现,并且还可以作为操练时刻点数量的函数。研讨者通过界说一个新的杂乱性衡量来一致上述现象,并针对该衡量估测一个广义的两层下降。此外,他们对模型杂乱性的概念使其可以确认某些计划,在这些计划中,添加操练样本的数量实践上会危害测验功能。

来自 MIT CSAIL 研讨者的论文 《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》 ,它也获得了 ICLR 2019 的最佳论文奖。

论文链接:https://arxiv.org/abs/1803.03635

研讨者们发现,规范的神经网络剪枝技能会自然地发现子网络,这些子网络通过初始化后可以有用进行操练。依据这些效果,研讨者提出了「彩票假定」:密布、随机初始化的前馈网络包括子网络,当独立操练时,这些子网络可以在类似的迭代次数内到达与原始网络适当的测验准确率。

由于深度学习和依据梯度的神经网络呈现技能打破,曩昔十年是人工智能高速开展的一段时期。这很大程度上是由于芯片算力的明显进步,神经网络正在变得越来越大,功能也越来越强。从核算机视觉到自然言语处理,新的办法现已大面积替代了传统的 AI 技能。

可是神经网络也有其缺陷:它们需求很多已标示数据进行续联,无法解释本身的揣度机制,难以推行到单个使命之外。不过由于深度学习的推进,AI 范畴快速开展,越来越多的研讨者正在致力于应对这些应战。

在未来的几年里,人们关于神经网络的了解还会不断添加。人工智能的远景仍是一片光亮:深度学习是 AI 范畴里最有力的东西,它会使咱们进一步挨近真实的智能。

让咱们等待 2020 年的新效果吧。

参阅链接:https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/

相关新闻