内容提要:近日,多家机构发布了关于人工智能的年终回顾总结,从种种表现来看,疫情之下,AI 依然蓬勃发展,全球 AI 产业规模达到 1500 多亿美元。这背后,又有哪些突破性的研究值得关注?
关键词:AI 经典论文,NLP,CV
2020 年可谓魔幻的一年,我们见证了各种历史。不过令人欣慰的是,2020 年,人工智能领域的研究并没有停滞不前,反而是取得了十分耀眼的成绩。
今年的各大计算机顶会,取得了创纪录的论文提交量,以下几个数字更加直观:
6 月,CVPR 2020:共收到 6656 篇提交论文,比去年的 5165 篇增加了 28%;
7 月,ACL 2020:共收到 3088 篇提交论文,打破了该会议的 2906 篇的纪录;
7 月,ICML 2020:共收到 4990 篇提交论文,比去年的 3424 篇增加了 45.7%;
12 月,NeurIPS 2020:共收到 9467 篇论文,比去年的 6809 篇增加了 40%。
在这成千上万篇论文中,业内顶尖科技公司、专家学者一同精心挑选出 10 篇「必读论文」。
用于地震预警的分布式多传感器机器学习方法 A Distributed Multi-Sensor Machine Learning Approach to Earthquake Early Warning
通过高斯过程后验进行快速采样方法 Efficiently Sampling Functions from Gaussian Process Posteriors
迈向拟人化的开放域聊天机器人 Towards a Human-like Open-Domain Chatbot
语言模型是小样本学习者 Language Models are Few-Shot Learners
超越准确度标准:使用 CheckList 对 NLP 模型进行行为测试Beyond Accuracy: Behavioral Testing of NLP models with CheckList
EfficientDet:可扩展和高效的目标检测EfficientDet: Scalable and Efficient Object Detection
对可能对称的、可变形的 3D 物体类别,进行无监督学习 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild
用于大规模图像识别的转换器 An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale
AdaBelief 优化器:根据观察梯度的 Blief 调整步长 AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients
ALBERT:语言表示自监督学习的轻量 BERT ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
在昨天《专家票选!2020 年度 10 篇人工智能经典论文(上)》中,我们已经介绍了前五篇,其余五篇请见下文。
6
论文地址:https://arxiv.org/abs/1911.09070v4
《EfficientDet:可扩展和高效的目标检测》
为 CVPR 2020 所接收
模型效率在计算机视觉中越来越重要。在本文中,我们系统地研究了用于目标检测的各种神经网络体系结构的设计选择,并提出了提高效率的几个关键优化方案。
首先,我们提出了一种加权双向特征金字塔网络(BiFPN),它可以方便、快速地融合多尺度特征;其次,我们提出了一种混合缩放方法,可以同时对所有主干、特征网络和 box/class 预测网络的分辨率、深度和宽度进行均匀缩放。
基于这些优化,我们开发了一个新的对象检测器系列,称为 EfficientDet,在广泛的资源约束范围内,它始终能够达到比现有技术更好的数量级效率。特别是,在没有任何附加功能的情况下,我们的 EfficientDet-D7 在 COCO 数据集上实现了最先进的 51.0 mAP,参数为 52M, FLOPS1 为 326B,比之前最好的检测器小 4 倍,少用 9.3 倍的 FLOPS,但仍然比之前的检测器更精确(+0.3% mAP)。
为了提高目标检测模型的效率,作者提出了:
加权双向特征金字塔网络(BiFPN),用于轻松快速地进行多尺度特征融合。它了解了不同输入特征的重要性,并反复应用了自上而下和自下而上的多尺度特征融合。
一种新的混合缩放方法,用于同时缩放所有主干,特征网络和框/类(box/class)预测网络的分辨率,深度和宽度。
这些优化与 EfficientNet 主干一起,可以开发一个新的目标检测器系列,即 EfficientDet。
评估表明,EfficientDet 目标检测器,比以前最先进的检测器具有更高的精度,而参数却少得多,特别是:
参数为 52M 的 EfficientDet 模型,在 COCO 测试-开发数据集上获得了最新的 52.2 AP,超过了之前的最佳检测器(1.5 AP),但尺寸缩小了 4 倍,使用的 FLOP 减少了 13 倍;
通过简单的修改,EfficientDet 模型达到了 81.74% 的 mIOU 精度,在 Pascal VOC 2012 语义分割上,比 DeepLabV3 + 高出 1.7%,FLOP 减少了 9.8 倍;
与之前的检测器相比,EfficientDet 模型在 GPU / CPU 上的速度快 3 到 8 倍。
7
论文地址:https://arxiv.org/abs/1911.11130
《对可能对称的、可变形的 3D 物体类别,进行无监督学习》
获得 CVPR 2020 最佳论文奖
我们提出了一种基于原始单目图像中学习 3D 可变形物体类别的方法,且无需外部监督。该方法基于一个自动编码器,将每个输入图像分解为深度、反照度、视点和光照四个组件(将这四个组件结合起来即可重建输入图像)。
为了在没有监督的情况下解开这些成分,我们利用了至少在原则上,许多对象类别具有对称结构这一事实。当然,某些特定目标实例并不是完全对称的,无论在形状或者是外观上,我们也利用直接对光照进行建模,和对模型进行扩充的方法解决了该问题。
实验结果表明,该方法可以很准确地从单目图像中恢复人脸、猫脸和汽车的三维形状,无需任何监督和形状模型。在基准上,我们证明了,与另一种同类使用监督的方法相比,该方法在基准数据集上具有更优的性能。
基于单目图像对猫脸进行 3D 重建效果
对合成的 2D 小汽车单目图像进行 3D 重建效果
本文所介绍的方法,目标是在两个挑战性条件下,从单个 RGB 图像重建可变形对象的 3D 姿态、形状、反照率和照明,这两个条件分别是:
无法获取 2D 或 3D ground truth 信息(真值),例如关键点,分割,深度图或 3D 模型的先验知识;
该算法必须使用无约束的单目图像集合,而没有同一实例的多个视图。
为了实现这一目标,研究人员提出:
利用对称性作为几何线索来约束分解;
明确建模光照,并使用它作为恢复形状的额外线索;
扩充模型,以推理物体中潜在的不对称。
对该方法的定性评估表明,其可以高保真地重建人和猫的 3D 面孔,其中包含鼻子、眼睛和嘴巴的精细细节。
与其他最新的无监督方法相比,该方法可重构更高质量的形状,甚至优于 DepthNet 模型,后者使用 2D 关键点注释进行深度预测。
8
论文地址:https://arxiv.org/abs/2010.11929
《用于大规模图像识别的转换器》
投稿 ICLR 2021
虽然 Transformer 架构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉上的应用仍然有限。在视觉上,注意力不是与卷积网络结合使用,就是在保持卷积网络整体结构不变的同时,代替卷积网络的某些部分。
我们证明了,对卷积神经网络(CNN)的这种依赖是不必要的,当直接应用于图像小块序列时,纯 Transformer 可以很好地执行图像分类任务。当在大量数据上进行预训练并转移到多个识别基准(ImageNet、CIFAR-100、VTAB 等)时,视觉转换器获得了与最先进的卷积网络相比的优秀结果,而训练所需的计算资源则大大减少。
在将 Transformer 体系结构应用于图像时,作者尽可能地遵循为 NLP 设计的 Transformer 的原始设计。
引入的基于 Transformer 的图像分类方法包括以下步骤:
将输入图片拆分成 16x16 个 patches;
每个 patch 做一次线性变换降维同时嵌入位置信息;
将 patches 提供给标准的 Transformer 编码器;
在序列中添加一个额外的可学习的「class」标记位,并且以该位置的 Transformer Encoder 输出作为图像特征。
在 JFT300M 数据集上进行预训练的 Vision Transformer,与基于 ResNet 的基线相匹配或优于后者,同时所需的计算资源也大大减少。它的精度为:
在 ImageNet 上:88.36%;
在 ImageNet-ReaL 上:90.77%;
CIFAR-100:94.55%;
牛津 IIIT 宠物数据集:97.56%;
牛津 102 花卉数据集:99.74%;
在 VTAB 套件(包含 19 个任务):77.16%。
9
论文地址:https://arxiv.org/pdf/2010.07468v1
《AdaBelief 优化器:根据观察梯度的 Blief 调整步长》
被 NeurIPS 2020 所接收
当下最流行的深度学习优化器(optimizer)可以广泛地分为自适应方法(如 Adam)和加速方案(如带动量的随机梯度下降(SGD))。对于许多模型,如卷积神经网络(CNNs),自适应方法通常比 SGD 收敛更快,但泛化较差;对于复杂的设置,如生成对抗网络(GANs),自适应方法通常是默认的,因为它们的稳定性。
我们提出了同时实现三个目标的 AdamBlief:能与自适应方法一样快速收敛,与 SGD 一样良好泛化,以及具有训练稳定性。
AdamBlief 的直觉是根据当前梯度方向上的「belief」来调整步长。将噪声梯度的指数移动平均(EMA)视为下一时刻梯度的预测,如果观测到的梯度与预测有很大偏差,我们就不相信当前的观测结果,并采取一小步;如果观测到的梯度接近于预测,我们就相信它,并采取一大步。
通过大量的实验验证了 AdamBlief 算法的有效性,表明该算法在图像分类和语言建模方面具有较快的收敛速度和较高的精度。
具体来说,在 ImageNet 上,AdaBelief 达到了与 SGD 相当的精度。此外,在 CIFAR10 上训练 GAN 时,与调试良好的 Adam 优化器相比,AdaBelief 表现出了高稳定性,并提高了生成样本的质量。
AdaBelief 优化器的想法是将自适应优化方法(例如 Adam)和加速 SGD 优化器的优点结合起来。自适应方法通常收敛速度更快,而 SGD 优化器则具有更好的泛化性能。
AdaBelief 的 Blief 是根据我们在当前渐变方向上,可以信任的幅度来调整步长:
如果观测到的梯度与预测值有很大偏差,则我们对此观测值的信念不强,可以采取一些措施;
如果观测到的梯度接近于预测值,则我们对这一观测有强烈的信心,并会迈出一大步。
AdaBelief Optimizer 具有三个关键属性:
快速收敛,如自适应优化方法;
良好的概括性,例如 SGD 系列;
在 GAN 等复杂环境中训练稳定性。
这些属性已通过广泛的实验验证,而且它在语言建模方面优于其他方法。
在 WGAN 的训练中,与 Adam 相比,AdaBelief 显着提高了生成图像的质量。
10
论文地址:https://arxiv.org/abs/1909.11942
《ALBERT:语言表示自监督学习的轻量 BERT》
拿下 13 项 NLP 任务,ALBERT 三大改造登顶 GLUE 基准。
预训练自然语言表征时,增加模型大小一般是可以提升模型在下游任务中的性能。但是这种纯粹依赖模型尺寸进而期望大力出奇迹的想法,在未来会越发困难。进一步增加模型大小将带来以下困难:
GPU/TPU 内存不足;
训练时间会更长;
模型退化。
所以,为了解决上述问题,本文提出通过两种参数精简技术来降低内存消耗,并加快 BERT 的训练速度。此外,本文还引入一个自监督损失(self-supervised loss),用于对句子连贯性(inter-sentence coherence)建模,并证明该损失函数能够提升多句子作为输入的下游任务的性能。
本文所提出的模型 ALBERT 在 GLUE、RACE 和 SQuAD 这 3 个基准上都取得了新的 SOTA 结果,且参数量还少于 BERT-large。
核心思想
ALBERT 引入两种参数精简技术,克服了扩展预训练模型面临的主要障碍。
第一种是对嵌入参数进行因式分解;
第二种技术是跨层参数共享。
这两种技术都显著降低了 BERT 的参数量,同时不显著损害其性能, 从而提升了参数效率。
ALBERT 在 GLUE、SQuAD 2.0、RACE 榜单上达到了 SOTA,并在多个方面推进了 NLP 研究。
以上就是所有今年值得一读的 AI 经典论文,字字精华,请细细研读。