-
【荐读】
VAE
和
Ad
am
发明人博士论文:
变分推理和深度学
习(下载)
2017
年
11
月
8
日,在北京国家会议中心举办的
AI
WORLD 2017
世界人工智能大会开放售票!早鸟票
5
折
抢票倒计时
6
天开抢。还记得去年一票难求的
AI WORLD
2016
盛况吗?今年,
我们邀请了冷扑大师”之
父
Tuomas
亲
临现场,且谷歌、微软、亚马逊、
BAT
、讯飞、京东
和华为
等企业重量级嘉宾均已确认出席。
AI WORLD 2017
世界人工智能大会“AI
奥斯卡”AI Top 10
年度人物、
AI Top10
巨星企业、
AI Top10
新星企业、
AI
Top 10
创投机构、
AI
创新产品五个奖项全
部开放投票。谁
能问鼎?你来决定。
关于大会,请关注新智元微信公众号或访问活动行页面:
/event/24?td=4
231978320026
了解更多
1
新智元编译
作者:
Diederik P. K
ingma
编译:佩琦,
Neko
,熊
笑
【新智元导读】
VAE
(变分自编码器)
和
ADAM
优化算法
是深度学习使用率
极高的方法。
二者的发明者之一、
OpenAI
的研究科学家
Durk
Kingma
日前公布了自己的博士论文
《变分推理和深度学
习:一种新的综合方法》
,新智元第一
时间为您介绍。
论文下载:
/s/1eSPDGv4
变分推理和
深度学习:一种新的综合方法
p>
近年,随着有监督学习的低枝果实被采摘的所剩无几,无监
督学习成
为了研究热点。
VAE
(
Variat
ional Auto-Encoder
,
变分自编码器)
p>
和
GAN
(
Generative
Adversarial Networks
)
等模型,受到越来越多的关注。
大多
数生成模型有一个基础的设置,只是在细节上有所不同。
GAN
和
VAE
都是生成模型的常用方法:
Generative Adversarial Network
(
GAN
)
将训练过程作为两
p>
个不同网络的对抗:一个生成器网络和一个判别器网络,判
别器网络
试图区分样来自于真实分布
p(x)
和模型分布
p^(x)
的样本。每当判别器发现两个分布之间有差异时,生
成器网络便微整参数,
使判别器不能从中找到差异。
Variational Au
toencoders
(
VAE
)让我
们可以在概率图模型
框架下形式化这个问题,
我们会最大化数据
的对数似然
(
log
likelihood
)的下界。
OpenAI
的研究科学家
Durk Kingma
正是
VAE
的发明者
之一,他同时也是业
界使用率极高的优化算法
ADAM
的发
明者之一。另外,他颜值也很高。就在上月底,他公开了他
的博士论文《变分推理和深度学习:一种新的综合方法》
。
让我
们为您介绍其博士论文的内容。
用
VAE
解决半监督学习问题,引入
IAF
、局部再参数化和
ADAM
算法在论文
《变分推理与深
度学习:
一种新的综合方
法》
,我们针
对变分(贝叶斯)推理、生成建模、表示学习、
半监督学习和随机优化等问题,提出了新
的解决方法。
我们提出一种高效的变分推理算法
[Kingma and Welling,
2013]
(chapter 2)
,适用于大模型求解高维推理问题。该方
法使用模型关于潜在变量和
/
或参数的一阶梯度;
使用反向传
播算法可以有效计算这种梯度。这使得该方法特别适合于使
p>
用深度神经网络进行推理和学习。
p>
VAE
在可观测的
x
空间
(其实证分布
qD
(
x
)
通常较复杂)
和潜在
的
z
空间(其分布相对简单,如图中所示球形)之间
学习到的随机映射。
我们提出变分自编码器(<
/p>
VAE
)
[Kingma and
Welling, 2013]
(chapter 2)
。<
/p>
VAE
框架将一个基于神经网络的推理模型和一
< br>个基于神经网络的生成模型结合起来,并提供一种简单的方
法来联合优化两个网络
,以限制给定数据的参数的对数相似
度。双重随机梯度下降过程允许多占到非常大的数据
集。我
们展示了使用变分自编码器进行生成建模(
genera
tive
modeling
)和表示学习(
< br>representation learning
)
。
一副关于变分自编码计算流程的简单示意图
< br>我们展示了如何使用
VAE
框架来解决半监督学习问题<
/p>
[Kingma et al.,
2014]
(
chapter 3
)<
/p>
,截至本论文发表时,我
们在标准半监督图像分类基准上得到了<
/p>
state-of-the-
art
的结
果。
我们提出逆自回归流(
inverse
autoregressive flows
)
[Kingma
et al., 2016] (chapter
5)
,这是基于
normalizing
flows
的一类灵活的后验分布,允许在高维隐藏空间上推断
高度非高斯后验分布。我们演示了如何使用该方法来学习
VAE
,其对数似然性能与自回归模型相当,同时允许更快速
的合成。再参数化说明
我们提出局部再参数化(
local re
parameterization
)方法
(
< br>chapter 6
)
,以进一步提高高斯后验模型参数
的变分推理
效率
[Kingma et al., 2015]
。这种方法提供了一种额外的(贝
叶斯)
dropout
视图,即一种流行的正则化方法
;
使用这种
联系,我们提出
variational dropout
,这使我们能够学习
dropout
率。
我们提出
Adam [Kingma
and Ba, 2015) (chapter 7)
,这是
一种基于自适应时刻的随机梯度优化方法。
五大研究问题的展开
Kingma
在
论文的开头,
提出了一些研
究问题,并围绕这些问题组织了全文
的结构:
研究问题
1:
在有大数据集的情况下,我们如何在深度潜在变量模型
(deep
latent-variable)
中执行有效的近似后验和最大似然估
计?
在第
2
章和
[Kingma and
Welling, 2013]
中,
我们提出
< br>了一种基于重构参数的变分推理的有效算法,适用于解决大
型模型的高维推理问题
。
该方法使用模型
w.r.t.
p>
的一阶梯度。
潜在变量和
/
或参数
;
这种梯度使用反
向传播算法进行计算
是有效的。这使得该方法非常适用于深度潜在变量模型中的
推理和学习。
变分自动编码器(
VAE
)框架将基于神经网
络的推理模型与基于神经
网络的生成模型相结合,提供了一
种简单的两种网络联合优化方法,即对参数对数似然度
的约
束给出数据。
这种双随机梯度下
降过程允许扩展到非常大
的数据集。
我们展示了使用变分自动编码器进行生成建模
和表征学习。
<
/p>
研究问题
2:
我们能使用
VAE
模型来改进最先
进的半监督分类结果吗?
在第
3
章和
[Kingma et al., 2014]
中,我们展示了如何使用
VAE
来解决半监督学习
的问题,
出版时,
获得了标准半监督
图
像分类基准的最先进成果。
规范化流动框架
[Rezende
和
Mohamed
< br>,
2015]
提供了一个有吸引力的方法来参数化
VAE
框架中的灵活近似分布,但不能很好地扩展到高维潜在空间。<
/p>
这导致我们遇到以下问题:
研究问题
3:
是否存在一个实用
的规范化流动框架,能够很好地拓展到高维潜在空间?
在
第
5
章和
[Kingma etal.
,
2016]
中,我们提出了逆自回归流,
一种基于规范化流动的灵活后验分布,从而在高维潜在
空间
中提供高度非高斯后验分布的推论。我们演示了该方法如何
用于学习
VAE
,
其对数似然性能与自
动注册模型相当,
同时
允许高数量级的合成。
< br>
如第
2
章所述,基于参数化的
推理
方法可用于推断神经网络参数的近似后验分布。然而,其实