傅立叶特征使网络能够在低维域中学习高频函数

1.基于坐标的MLP

       计算机视觉和图形学领域最近的一项研究用深度完全连接网络(MLP)参数化的连续函数取代了对象、场景几何体和外观(如网格和体素网格)的传统离散表示。即将低维坐标作为输入(通常是

R

3

R^3

R3中的点),并经过训练,以输出每个输入位置的形状、密度和或颜色表示(图1)。示例的MLP(a)是图像回归任务(b)的网络架构,其中网络的输入是像素坐标,输出是该像素的颜色。将坐标直接传递到网络会产生模糊的图像,而使用傅里叶特征映射对输入进行预处理可以使MLP表示更高频率的细节。

1

:傅里叶特征改善了各种高频低维回归任务的基于坐标的

M

L

P

结果,包括直接

(

b

,

c

)

和间接

(

d

,

e

)

监督。

\tiny 图1:傅里叶特征改善了各种高频低维回归任务的基于坐标的MLP结果,包括直接(b,c)和间接(d,e)监督。

图1:傅里叶特征改善了各种高频低维回归任务的基于坐标的MLP结果,包括直接(b,c)和间接(d,e)监督。

spectral bias

       一个标准的MLP在理论和实践中都不能学习高频,在实验中,它总是倾向于学习更光滑的结果,而对高频信号的刻画差强人意。称为“光谱偏差”:

Arthur Jacot, Franck Gabriel, and Clément Hongler. Neural Tangent Kernel: Convergence and generalization in neural networks. NeurIPS, 2018)Nasim Rahaman, Aristide Baratin, Devansh Arpit, Felix Draxler, Min Lin, Fred A. Hamprecht, Yoshua Bengio, and Aaron Courville. On the spectral bias of neural networks. ICML, 2019.Ronen Basri, Meirav Galun, Amnon Geifman, David Jacobs, Yoni Kasten, and Shira Kritchman. Frequency bias in neural networks for input of non-uniform density. arXiv preprint arXiv:2003.04560, 2020.

       NTK理论表明,这是因为基于标准坐标的MLP对应于具有快速频率衰减的核,这有效地阻止了它们能够表示自然图像和场景中存在的高频内容。为了克服这种光谱偏差,我们使用傅里叶特征映射将有效的NTK转换为具有可调带宽的stationary 核(stationary kernel with a tunable bandwidth)。我们提出了一种选择特定于问题的傅立叶特征的方法,该方法大大提高了MLP在与计算机视觉和图形社区相关的低维回归任务中的性能。

2.方法简述

       最近的一些工作[27,44]在实验中发现,输入坐标的“位置编码变换”允许MLP表示更高频率的内容。一个特例:在输入MLP之前,将输入坐标

v

v

v映射到

γ

γ

γ

γ

(

v

)

=

[

a

1

c

o

s

(

2

π

b

1

T

v

)

,

a

1

s

i

n

(

2

π

b

1

T

v

)

,

.

.

.

,

a

m

c

o

s

(

2

π

b

m

T

v

)

,

a

m

s

i

n

(

2

π

b

m

T

v

)

]

T

γ(v) = [a_1 cos(2πb^T_1 v), a_1 sin(2πb^T_1 v), . . . , a_m cos(2πb^T_mv), a_msin(2πb^T_mv)]^T

γ(v)=[a1​cos(2πb1T​v),a1​sin(2πb1T​v),...,am​cos(2πbmT​v),am​sin(2πbmT​v)]T

一个

s

t

a

t

i

o

n

a

r

y

(平移不变)内核

这种映射将

N

T

K

转换为

{

通过修改频率向量

b

j

来调整

N

T

K

的频谱,

M

L

P

学习的频率范围。

简单高性能策略

{

a

j

=

1

各向同性分布中随机采样

b

j

,并且该分布的尺度(

s

t

d

)比其形状更重要。

\xrightarrow[{\tiny一个 stationary(平移不变)内核}]{\tiny 这种映射将NTK转换为} \left\{\begin{array}{l} 通过修改频率向量b_j来调整NTK的频谱,MLP学习的频率范围。 \\ 简单高性能策略\left\{\begin{array}{l}a_j=1 \\各向同性分布中随机采样b_j,并且该分布的尺度(std)比其形状更重要。 \end{array}\right. \end{array}\right.

这种映射将NTK转换为

一个stationary(平移不变)内核​⎩

⎧​通过修改频率向量bj​来调整NTK的频谱,MLP学习的频率范围。简单高性能策略{aj​=1各向同性分布中随机采样bj​,并且该分布的尺度(std)比其形状更重要。​​

       贡献:

我们利用NTK理论和简单的实验表明,傅里叶特征映射可以通过允许基于坐标的MLP学习更高的频率来克服它们对低频的频谱偏差(Section 4)。我们证明,具有适当比例的随机傅里叶特征映射可以显著提高基于坐标的MLP在计算机视觉和图形学中的许多低维任务中的性能(Section 5)。

3.Background and Notation

       为了为我们的理论分析奠定基础,我们首先回顾经典核回归及其与最近的结果的关系,分析了深层全连通网络的训练动力学和泛化行为。在后面的部分中,我们将使用这些工具来分析基于坐标的MLP与傅立叶特征映射的训练效果。

核回归核回归是一种经典的非线性回归算法1。

训练数据

(

X

,

y

)

{

(

x

i

,

y

i

)

}

i

=

1

n

其中

x

i

是输入点,

y

i

=

f

(

x

i

)

是对应的标量输出标签,核回归在

任意点

x

构造基础函数的估计值

f

^

,如下所示:

\qquad 训练数据(X,y)\in \{ (x_i,y_i) \}_{i=1}^n其中x_i是输入点,y_i=f(x_i)是对应的标量输出标签,核回归在{\color{red}任意点x}构造基础函数的估计值\widehat{f},如下所示:

训练数据(X,y)∈{(xi​,yi​)}i=1n​其中xi​是输入点,yi​=f(xi​)是对应的标量输出标签,核回归在任意点x构造基础函数的估计值f

​,如下所示:

f

^

(

x

)

=

i

=

1

n

(

K

1

y

)

i

k

(

x

i

x

)

,

(1)

\widehat{f}(x)=\sum_{i=1}^{n}(K^{-1}y)_ik(x_ix), \tag{1}

f

​(x)=i=1∑n​(K−1y)i​k(xi​x),(1)        其中K是一个n×n的核(Gram矩阵),其条目

K

i

j

=

k

(

x

i

,

x

j

)

K_{ij}=k(x_i,x_j)

Kij​=k(xi​,xj​),K是一个对称半正定(PSD)核函数,用来表示两个输入向量之间的“相似性”。直观地说,在任意点x上的核回归估计可以被看作是训练标签

y

i

y_i

yi​的加权和,使用

x

i

x_i

xi​和

x

x

x之间的相似性作为权重。

用核回归逼近深度网络        令f是一个全连接深度网络,参数θ由高斯分布N初始化。Jacot等人2提出并由其他人扩展345的理论表明,当f中的层的宽度趋于无穷大且SGD的学习率趋于零时,模型

f

(

x

;

θ

)

f(x;θ)

f(x;θ)在训练过程中收敛到使用神经切线核(NTK)的核回归解,定义为:

k

N

T

K

(

x

i

,

x

j

)

=

E

θ

N

f

(

x

i

;

θ

)

θ

,

f

(

x

j

;

θ

)

θ

(2)

k_{NTK}(x_i,x_j)=E_{\theta \sim \mathcal{N} }\left\langle \frac{\partial f(x_i;\theta)}{\partial \theta}, \frac{\partial f(x_j;\theta)}{\partial \theta} \right\rangle \tag{2}

kNTK​(xi​,xj​)=Eθ∼N​⟨∂θ∂f(xi​;θ)​,∂θ∂f(xj​;θ)​⟩(2)

       当输入仅限于超球面时,MLP的NTK可以写成点积内核(

核的形式为

h

N

T

K

(

x

i

T

x

j

)

形式的内核)其中标量函数

h

N

T

K

:

R

R

核的形式为h_{NTK}(x_i^Tx_j)形式的内核)其中标量函数h_{NTK}:R→ R

核的形式为hNTK​(xiT​xj​)形式的内核)其中标量函数hNTK​:R→R) 。

       之前的工作表明,NTK线性系统模型可以用来近似训练期间深层网络的动力学。我们考虑一个具有L2损失和学习速率

η

\eta

η的网络,其中网络的权值被初始化,使得网络在初始化时的输出接近于零。在Lee等人[20]所述的渐近条件下,t次训练迭代后任何数据

X

t

e

s

t

X_{test}

Xtest​的网络输出可近似为:

y

^

(

t

)

K

t

e

s

t

K

1

(

I

e

η

K

t

)

y

(3)

\widehat{y}^{(t)} \approx K_{test}K^{-1}(I-e^{-\eta Kt})y \tag{3}

y

​(t)≈Ktest​K−1(I−e−ηKt)y(3)

       其中

y

^

(

t

)

=

f

(

X

t

e

s

t

;

θ

)

\widehat{y}^{(t)}=f(X_{test};θ)

y

​(t)=f(Xtest​;θ)是网络在训练迭代t时对输入点

X

t

e

s

t

X_{test}

Xtest​的预测,K是X中所有训练点对之间的NTK矩阵,

K

t

e

s

t

K_{test}

Ktest​是X中所有

X

t

e

s

t

X_{test}

Xtest​点和训练数据集X中的所有点之间的NTK矩阵。

训练神经网络时的光谱偏差 Spectral bias when training neural networks        让我们考虑训练误差的训练

y

^

t

r

a

i

n

(

t

)

y

\widehat{y}_{train}^{(t)}-y

y

​train(t)​−y 其中,

y

^

t

r

a

i

n

(

t

)

\widehat{y}_{train}^{(t)}

y

​train(t)​是网络对训练数据在迭代t次时的预测。        由于NTK矩阵K必须是PSD(对称半正定),我们可以取其特征分解

K

=

Q

Λ

Q

T

K=Q \Lambda Q^T

K=QΛQT,其中Q是正交的,

Λ

\Lambda

Λ是一个对角矩阵,其值为K大于0的特征值

λ

i

λ_i

λi​.那么

e

η

K

t

=

Q

e

η

Λ

t

Q

T

e^{-\eta Kt}=Q e^{-\eta \Lambda t} Q^T

e−ηKt=Qe−ηΛtQT,所以

Q

T

(

y

^

t

r

a

i

n

(

t

)

y

)

Q

T

(

(

I

e

η

K

t

)

y

y

)

=

e

η

Λ

t

Q

T

y

(4)

Q^T (\widehat{y}_{train}^{(t)}-y) \approx Q^T ((I-e^{-\eta Kt}) y-y) = -e^{-\eta \Lambda t} Q^Ty \tag{4}

QT(y

​train(t)​−y)≈QT((I−e−ηKt)y−y)=−e−ηΛtQTy(4)

这意味着,如果我们考虑在NTK的特征基上的训练收敛,绝对误差的第i分量

Q

T

(

y

^

t

r

a

i

n

(

t

)

y

)

i

|Q^T (\widehat{y}_{train}^{(t)}-y) |_i

∣QT(y

​train(t)​−y)∣i​将以

η

λ

i

ηλ_i

ηλi​的速率近似指数衰减。 换句话说,目标函数中对应于具有更大特征值的核特征向量的分量将被更快地学习。对于传统的MLP,NTK的特征值迅速衰减[4,5,14]。这会导致非常缓慢地收敛到目标函数的高频分量,以至于标准MLP实际上无法学习这些分量,如图1所示。接下来,我们将描述一种技术,通过在将输入坐标传递给MLP之前使用输入坐标的傅里叶特征映射来解决这种缓慢收敛问题.

4 Fourier Features for a Tunable Stationary Neural Tangent Kernel可调稳定神经正切核的傅里叶特征

        机器学习分析通常解决以下情况:输入是高维点(例如,图像的像素被重塑为向量),并且训练示例稀疏分布。        相反,在这项工作中,我们考虑低维回归任务,其中输入被假定为在

R

d

(

d

为较小值

)

R^d\tiny(d为较小值)

Rd(d为较小值)的子集中的密集坐标(例如像素坐标)。 当从内核回归的角度来看深层网络时,此设置有两个重要的含义:        1.我们希望合成的NTK在输入域上是平移不变的,因为训练点以均匀密度分布。在将输入标准化为超球面(机器学习中常见)的问题中,点积核(比如常规NTK)对应于球面卷积spherical convolution。然而,我们问题中的输入是在欧几里得空间中密集的。输入坐标的傅里叶特征映射使合成的NTK平稳(平移不变),在输入域上充当卷积核(关于平稳核的更多讨论,请参见附录C)。

       2.我们希望控制NTK的带宽,以提高训练速度和通用性。正如我们从Eqn4中看到的,具有较慢频谱衰减的“更宽”内核实现了对高频分量的更快训练收敛。 然而,我们从信号处理中知道,使用频谱过宽的内核重构信号会导致高频混叠伪影。我们在第5节中展示了傅里叶特征输入映射可以调整为介于这些“欠拟合”和“过拟合”极端之间,从而实现快速收敛和低测试误差。

Fourier features and the composed neural tangent kernel.傅里叶特征与复合神经正切核        自Rahimi和Recht的开创性工作中引入傅里叶特征映射(通过应用Bochner定理逼近任意平稳核函数)以来,傅里叶特征映射已在许多应用中得到应用。        为了扩展这一技术,我们使用傅里叶特征映射γ对输入坐标进行特征化,然后再通过基于坐标的MLP,并研究这对收敛速度和泛化的理论和实际影响。函数γ映射输入点

v

[

0

,

1

)

d

v∈ [0,1)^d

v∈[0,1)d到具有一组正弦曲线的高维超球面:        请注意,这个内核是静止的(一个只考虑点之间差异的函数)。我们可以将映射视为对核函数的傅里叶近似:

b

j

b_j

bj​是用于近似核的傅里叶基频,

a

j

2

a^2_j

aj2​是相应的傅里叶级数系数。

       在计算输入点的傅里叶特征后,我们将它们通过MLP得到

f

(

γ

(

v

)

;

θ

)

f(γ(v);θ)

f(γ(v);θ).如前所述,训练网络的结果可以通过使用核

h

N

T

K

(

x

i

T

x

j

)

h_{NTK}(x_i^Tx_j)

hNTK​(xiT​xj​)的核回归来近似.在我们的情况下,

x

i

=

γ

v

i

x_i=γ(vi)

xi​=γ(vi),因此合成核变为: 因此,在这些嵌入的输入点上训练一个网络 corresponds to使用平稳组合NTK函数 hNTK ◦ hγ 进行核回归 。MLP函数将合成的NTK与每个输入训练点vi处的加权狄拉克增量进行卷积: 其中

w

=

K

1

y

w=K^{−1}y

w=K−1y(来自等式1)。 这使我们能够将其与信号处理进行类比,其中合成的NTK的作用类似于重建滤波器。在下一节中,我们将展示合成NTK的频率衰减决定重建信号的行为。

5 Manipulating the Fourier Feature Mapping 操控傅里叶特征映射

       通过傅里叶特征映射对基于坐标的MLP的输入进行预处理,可以创建一个既稳定又可调的合成NTK。通过操纵Eqn5中

a

j

a_j

aj​和

b

j

b_j

bj​参数的设置,可以显著改变收敛速度和生成网络的泛化行为。在本节中,我们将研究傅里叶特征映射在一维函数回归设置中的效果。

       我们训练MLP学习区间[0, 1)上定义的信号f。我们在区间上采样cn个线性间隔的点,使用每个

c

t

h

c^{th}

cth点作为训练集,剩余的点作为测试集。由于我们合成的核函数是平稳的,在周期域上的线性间隔点对其进行求值会使得到的核矩阵循环:它表示卷积,并可通过傅里叶变换对角化。        因此,我们可以通过简单地对一行进行傅里叶变换来计算合成NTK矩阵的特征值。所有实验都是在JAX[8]中实现的,NTK函数是使用神经切线库自动计算的[30]。 Visualizing the composed NTK.

我们首先可视化修改傅里叶特征映射如何改变组合NTK。

j

=

1

,

.

.

.

,

n

/

2

{

b

j

=

j

1

维所有的傅立叶基)

a

j

=

1

/

j

p

j=1, . . . , n/2 \left\{\begin{array}{l} bj=j(1维所有的傅立叶基) \\ aj=1/j^p \end{array}\right.

j=1,...,n/2{bj=j(1维所有的傅立叶基)aj=1/jp​        

p

=

p=\infty

p=∞ 表示映射

γ

v

=

[

c

o

s

2

π

v

s

i

n

2

π

v

]

T

γ(v)=[cos 2πv,sin 2πv]^T

γ(v)=[cos2πv,sin2πv]T ,其简单地将[0,1]环绕单位圆的映射(在后面的实验中称为“基本”映射)。

图2展示了变化的p对组合NTK的影响。通过构造,较低的p值会导致频域中的衰减较慢,而在空域中的内核则相应地较窄。

Effects of Fourier features on network convergence.

        ground truth一维函数:我们通过从一个具有参数α的族中采样cn值,如下所示:我们采样长度为cn的标准i.i.d.高斯向量,将其第i个条目缩放1/iα,然后返回其傅里叶逆变换的实部分。我们将其称为“

1

/

f

α

1/f^α

1/fα噪声”信号。 在图3中,我们使用具有不同p值的傅里叶特征映射来训练MLP(4层,1024个通道,ReLU激活),以适应带限

1

/

f

1

1/f^1

1/f1噪声信号(c=8,n=32)。

图3b和3d的Loss显示,NTK线性动力学模型准确预测了修改傅里叶特征映射参数的效果。在图3c中分离训练误差的不同频率分量表明,具有较窄NTK谱的网络对于低频分量收敛更快,但对于高频分量基本上从不收敛,而具有较宽NTK谱的网络成功地在所有分量上收敛。傅里叶特征映射p=1在目标信号中存在的频率范围内具有足够的功率(因此网络在训练期间快速收敛),但在更高频率范围内功率有限(防止过拟合或混叠)。

Tuning Fourier features in practice 在实践中调整傅里叶特征

        Eqn3允许我们使用组合核在验证集上估计训练网络的理论损失。对于小的一维问题,我们可以通过基于梯度的优化来选择映射参数aj(给定bj的稠密采样)来最小化这种损失。 在这种精心控制的设置(1D信号、小训练数据集、小学习率的梯度下降、非常宽的网络)中,我们发现这种优化映射在训练网络时也达到了最佳性能。有关详细信息和实验,请参考附录A.1。

        在现实问题中,尤其是多维问题中,使用对傅里叶基函数进行密集采样的特征映射是不可行的;Fourier基函数的数量随训练数据点的数量而变化,训练数据点的数量随维数呈指数增长。相反,我们从参数分布中采样一组随机傅里叶特征[34]。 我们发现,精确的抽样分布族远不如分布的尺度(标准差)重要。

图4展示了对各种采样分布使用超参数扫描的这一点。 在每个子图中,我们从固定的

1

/

f

α

1/f^α

1/fα分布中提取一维目标信号(c=2,n=1024),并训练网络来学习它们。

我们使用从不同分布族(高斯分布、均匀分布、对数空间均匀分布和拉普拉斯分布)采样的随机傅立叶特征映射(长度为16),并扫描每个分布的尺度。也许令人惊讶的是,单是采样频率的标准偏差就足以预测测试集的性能,而不管潜在分布的形状如何。 我们在附录A.4中表明,这适用于更高维度的任务。我们还观察到,通过MLP传递这种傅立叶特征的稀疏采样与使用具有相同MLP的密集傅立叶特征集的性能相匹配,这表明了一种扩展到更高维度的策略。

6 Experiments

6.1 Compared mappings 在表1中,我们比较了基于坐标的MLP在没有输入映射的情况下的性能,以及与以下傅里叶特征映射(cos,sin are applied elementwise)的性能:

No mapping:

γ

(

v

)

=

v

\gamma(\mathbf {v})= \mathbf {v}

γ(v)=v. Basic mapping:

γ

(

v

)

=

[

cos

(

2

π

v

)

,

sin

(

2

π

v

)

]

T

\gamma(\mathbf {v})=\left[ \cos(2 \pi \mathbf {v}), \sin(2 \pi \mathbf {v}) \right] ^ \mathrm {T}

γ(v)=[cos(2πv),sin(2πv)]T. Positional encoding:

γ

(

v

)

=

[

,

cos

(

2

π

σ

j

/

m

v

)

,

sin

(

2

π

σ

j

/

m

v

)

,

]

T

\gamma(\mathbf {v})=\left[ \ldots, \cos(2 \pi \sigma ^ {j / m} \mathbf {v}), \sin(2 \pi \sigma ^ {j / m} \mathbf {v}), \ldots \right] ^ \mathrm {T}

γ(v)=[…,cos(2πσj/mv),sin(2πσj/mv),…]T for

j

=

0

,

,

m

1

j = 0, \ldots, m-1

j=0,…,m−1.

对每个维度使用对数线性间隔频率,其中通过超参数扫描为每个任务和数据集选择比例

σ

。这是之前工作中使用的“位置编码”的推广

[

27

,

39

,

44

]

。请注意,这种映射是确定性的,只包含轴上的频率,这使得它自然偏向于沿轴具有更多频率内容的数据。

\tiny 对每个维度使用对数线性间隔频率,其中通过超参数扫描为每个任务和数据集选择比例σ。这是之前工作中使用的“位置编码”的推广[27,39,44]。请注意,这种映射是确定性的,只包含轴上的频率,这使得它自然偏向于沿轴具有更多频率内容的数据。

对每个维度使用对数线性间隔频率,其中通过超参数扫描为每个任务和数据集选择比例σ。这是之前工作中使用的“位置编码”的推广[27,39,44]。请注意,这种映射是确定性的,只包含轴上的频率,这使得它自然偏向于沿轴具有更多频率内容的数据。 Gaussian Fourier feature mapping:

γ

(

v

)

=

[

cos

(

2

π

B

v

)

,

sin

(

2

π

B

v

)

]

T

\gamma(\mathbf {v})= \left[ \cos(2 \pi \mathbf B \mathbf {v}), \sin(2 \pi \mathbf B \mathbf {v}) \right] ^ \mathrm {T}

γ(v)=[cos(2πBv),sin(2πBv)]T, where each entry in

B

 

i

n

R

m

×

d

\mathbf B \ in \mathbb R ^ {m \times d}

B inRm×d is sampled from

N

(

0

,

σ

2

)

\mathcal N(0,\sigma ^ 2)

N(0,σ2)

我们通过与计算机视觉和图形社区相关的各种回归任务的实验,验证了在基于坐标的MLP中使用傅里叶特征映射的好处。我们的实验表明,与不使用映射相比,所有傅里叶特征映射都提高了基于坐标的MLP的性能,并且高斯RFF映射的性能最好。

添加链接描述

Martin J. Wainwright. Reproducing Kernel Hilbert Spaces, page 383–415. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2019. ↩︎ Arthur Jacot, Franck Gabriel, and Clément Hongler. Neural Tangent Kernel: Convergence and generalization in neural networks. NeurIPS, 2018. ↩︎ Sanjeev Arora, Simon Du, Wei Hu, Zhiyuan Li, and Ruosong Wang. Fine-grained analysis of optimization and generalization for overparameterized two-layer neural networks. ICML, 2019. ↩︎ Ronen Basri, Meirav Galun, Amnon Geifman, David Jacobs, Yoni Kasten, and Shira Kritchman. Frequency bias in neural networks for input of non-uniform density. arXiv preprint arXiv:2003.04560, 2020. ↩︎ Jaehoon Lee, Lechao Xiao, Samuel Schoenholz, Yasaman Bahri, Roman Novak, Jascha Sohl Dickstein, and Jeffrey Pennington. Wide neural networks of any depth evolve as linear models under gradient descent. NeurIPS, 2019. ↩︎

相关阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: