前言

粗略看了一些更复杂的Normalizing flows的论文，非常羞愧地表示能完全理解的真的少。这里先记录一些容易理解的方法。我一般只对构建Flows的部分感兴趣，具体用于什么场景不太在意。

要初步了解Normalizing flows可移步：Understanding Normalizing Flows

NADE

论文：Neural Autoregressive Distribution Estimation (JMLR 2016)

主要贡献：提出了一种自回归的密度估计方法，并用神经网络进行密度估计。

假设有\(D\)维数据\(\vec x = \{x_1, x_2, \cdots, x_d\}\)，它的联合概率密度为：

\[q(x) = q_1(x_1)*q_2(x_2|x_1)*\cdots*q_d(x_d|x_{<d}) \tag{1}\]

为每一个条件概率或边缘概率选择一个maps，组成triangular maps。

Planar flows

论文：Variational Inference with Normalizing Flows

主要贡献：提出使用NFs来帮助VI估计后验概率。文章中关于VI的部分不详细解释，主要介绍它提出来的Invertible Linear-time Transformations。

\[f(z) = z + uh(w^{T}z+b) \tag{2}\]

其中，\(w \in \mathbb{R}^D\)，\(u \in \mathbb{R}^D\)，\(b \in \mathbb{R}\)，\(h(\cdot)\)是一个平滑的element-wise的、非线性函数，其导数为\(h'(\cdot)\)。

由于函数\(h(\cdot)\)是element-wise的，所以雅可比矩阵是一个对角矩阵，行列式的计算直接是对角线上元素相乘。（我的理解）

雅可比行列式表示为：

\[\psi(z) = h'(w^Tz+b)w \\ |det \frac{\partial f}{\partial z}| = |det(I+u\psi(z)^T)| = |1+u^T\psi(z)|\]

RealNVP

论文：Density Estimation Using Real NVP (ICLR 2017)

主要贡献：提出Real-valued Non-Volumn Preserving (Real NVP)的映射方式，这是一系列的强大的、稳定可逆的和可学习的映射。本文应用场景是非监督学习，希望对未标记的数据使用生成概率模型进行建模。

假设数据为\(X = \{x_1, x_2, x_3, \cdots, x_D\}\)，映射到空间\(Y\)。显然，数据维度为\(D\)。

它建立的映射是这样的：

\[\begin{aligned} y_{1:d} &= x_{1:d} \\ y_{d+1:D} &= x_{d+1:D} \odot exp(s(x_{1:d})) + t(x_{1:d}) \end{aligned} \tag{3}\] \[\begin{aligned} x_{1:d} &= y_{1:d} \\ x_{d+1:D} &= (y_{d+1:D} - t(y_{1:d})) \odot exp(-s(y_{1:d})) \end{aligned} \tag{4}\]

其中，\(s\)和\(t\)代表\(scale\)和\(translation\)，是\(R^d \mapsto R^{D-d}\)的函数，\(\odot\)为element-wise product。直接分析公式：前\(d\)维的值不作任何变换；\(d+1\)到\(D\)维的值与\(x_{1:d}\)有关。

直观地看：

\[\begin{aligned} y_1 &= x_1 \\ y_2 &= x_2 \\ & \vdots \\ y_d &= x_d \\ y_{d+1} &= T_{d+1}(x_1, x_2, \cdots, x_d, x_{d+1}) \\ y_{d+2} &= T_{d+2}(x_1, x_2 \cdots, x_d, x_{d+2}) \\ & \vdots \\ y_D &= T_D(x_1, x_2, \cdots, x_d, x_D) \end{aligned} \tag{5}\]

此时可以直白地看出，它的雅可比矩阵为：

\[\frac{\partial y}{\partial x^T} = \left[ \begin{matrix} \mathbb{I}_d & 0 \\ \frac{\partial y_{d+1:D}}{\partial x_{1:d}^T} & diag(exp[s(x_{1:d})]) \end{matrix} \right] \tag{6}\]

其中，\(diag(exp[s(x_{1:d})])\)为对角矩阵，并且它与\(x_{d+1:D}\)无关，所以完全无需考虑\(s\)和\(t\)的偏导，可以增加复杂度，这里能用神经网络。

再直观地将雅可比矩阵表示出来：

\[\left[ \begin{matrix} \frac{\partial T_1}{\partial x_1} & 0 & \cdots & \cdots & \cdots & \cdots & 0 \\ 0 & \frac{\partial T_2}{\partial x_2} & \cdots & \cdots & \cdots & \cdots & 0 \\ \vdots & \vdots & \ddots & \ddots & \ddots & \cdots & \vdots \\ 0 & 0 & \cdots & \frac{\partial T_d}{\partial x_d} & \cdots & \cdots & 0 \\ \frac{\partial T_{d+1}}{\partial x_1} & \frac{\partial T_{d+1}}{\partial x_2} & \cdots & \frac{\partial T_{d+1}}{\partial x_d} & \frac{\partial T_{d+1}}{\partial x_{d+1}} & \cdots & 0 \\ \vdots & \vdots & \ddots & \ddots & \ddots & \ddots & 0 \\ \frac{\partial T_{D}}{\partial x_1} & \frac{\partial T_{D}}{\partial x_2} & \cdots & \frac{\partial T_{D}}{\partial x_d} & 0 & \cdots & \frac{\partial T_D}{\partial x_D} \\ \end{matrix} \right] \tag{7}\]

这就非常直观地看出这是一个三角矩阵。

由于\(1:d\)维的值维持不变，为了解决这个问题，在进行多层叠加的时候，让上一层没变的改变，上一层改变的不变。