新视角图像合成方法与流程-开云(中国)Kaiyun·官方网站 -APP下载

文档序号:34131600发布日期:2023-11-28阅读:962来源:国知局

新视角图像合成方法、新视像合合成模型训练方法及存储介质
技术领域
1.本技术涉及图像处理技术领域,角图尤其涉及一种新视角图像合成方法
、成方程
合成模型训练方法及存储介质
。法流


背景技术:

2.新视角合成
(novel view synthesis
,新视像合
nvs)
是角图计算机图形学和计算机视觉中的重要研究领域,
nvs
可以根据给定输入图像集与相对应的成方程相机姿态,在目标视角下合成逼真的法流图像

近年来,新视像合
nvs
被广泛应用于各种应用领域,角图包括虚拟旅游
、成方程
电视和体育广播等
。法流
3.随着深度学习的新视像合发展,基于学习的角图
nvs
方法对提高合成图像质量产生了重大影响,其中,成方程神经辐射场
(neural radiance field

nerf)
作为一种新的隐式三维表示方法,在渲染高质量的新视角图像方面取得了巨大成功

然而,
nerf
在渲染过程中需要查询较多的采样点,导致新视角图像合成速度较慢



技术实现要素:

4.本技术实施例提供一种新视角图像合成方法

合成模型训练方法及存储介质,以解决相关技术中新视角图像合成速度较慢的问题

5.为了解决上述技术问题,本技术是这样实现的:
6.第一方面,本技术实施例提供了一种新视角图像合成方法,包括:
7.获取多个初始图像

各个初始图像对应的相机参数以及多个采样深度;
8.分别提取每一初始图像的图像特征,基于初始图像的图像特征

相机参数以及采样深度,构建第一深度概率体和几何特征体,第一深度概率体中的各个体像素对应有预测深度概率,几何特征体的各个体像素的体素特征为通过对多个初始图像的图像特征进行集成提取得到;
9.对第一深度概率体进行二维卷积,得到第一不确定性图;
10.根据第一深度概率体和第一不确定性图,确定粗采样点;
11.从初始图像的图像特征与几何特征体中,获取与粗采样点对应的粗采样点特征;
12.基于粗采样点特征确定细采样点

射线特征图以及深度图;
13.从初始图像的图像特征中获取与细采样点对应的细采样点特征;
14.根据射线特征图

深度图以及细采样点特征,合成新视角图像

15.第二方面,本技术实施例还提供了一种新视角图像合成模型训练方法,方法包括:
16.构建新视角图像合成网络架构,新视角图像合成网络架构配置有损失函数;
17.获取训练样本集,训练样本集包括多个样本图像集与作为各样本图像集的标注结果的真实图像;
18.将图像集输入至新视角图像合成网络架构,输出预测图像;
19.通过损失函数基于真实图像与预测图像计算的损失值更新新视角图像合成网络架构的网络参数,直至损失函数的损失值收敛,得到训练完成的新视角图像合成模型,训练
完成的新视角图像合成模型用于实现如第一方面所示的新视角图像合成方法

20.第三方面,本技术实施例还提供了一种新视角图像合成装置,包括:
21.第一获取模块,用于获取多个初始图像

各个初始图像对应的相机参数以及多个采样深度;
22.提取构建模块,用于分别提取每一初始图像的图像特征,基于初始图像的图像特征

相机参数以及采样深度,构建第一深度概率体和几何特征体,第一深度概率体中的各个体像素对应有预测深度概率,几何特征体的各个体像素的体素特征为通过对多个初始图像的图像特征进行集成提取得到;
23.卷积模块,用于对第一深度概率体进行二维卷积,得到第一不确定性图;
24.第一确定模块,用于根据第一深度概率体和第一不确定性图,确定粗采样点;
25.第二获取模块,用于从初始图像的图像特征与几何特征体中,获取与粗采样点对应的粗采样点特征;
26.第二确定模块,用于基于粗采样点特征确定细采样点

射线特征图以及深度图;
27.第三获取模块,用于从初始图像的图像特征中获取与细采样点对应的细采样点特征;
28.合成模块,用于根据射线特征图

深度图以及细采样点特征,合成新视角图像

29.第四方面,本技术实施例还提供了一种新视角图像合成模型训练装置,包括:
30.构建模块,用于构建新视角图像合成网络架构,新视角图像合成网络架构配置有损失函数;
31.第四获取模块,用于获取训练样本集,训练样本集包括多个样本图像集与作为各样本图像集的标注结果的真实图像;
32.输出模块,用于将图像集输入至新视角图像合成网络架构,输出预测图像;
33.训练模块,用于通过损失函数基于真实图像与预测图像计算的损失值更新新视角图像合成网络架构的网络参数,直至损失函数的损失值收敛,得到训练完成的新视角图像合成模型,训练完成的新视角图像合成模型用于实现上述的新视角图像合成方法

34.第五方面,本技术实施例还提供了一种电子设备,包括存储器

处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的方法

35.第六方面,本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的方法

36.本技术实施例中,基于初始图像的图像特征

相机参数以及采样深度所构建第一深度概率体和几何特征体,对第一深度概率体进行二维卷积,得到第一不确定性图,第一深度概率体和第一不确定性图的获取,可以实现基于深度预测和不确定性感知的不确定性引导采样策略,得到作为关键点的粗采样点,而几何特征体的获取可以实现几何预测,从初始图像的图像特征与几何特征体中,获取与粗采样点对应的粗采样点特征,利用粗采样点特征可以确定细采样点,根据射线特征图

深度图以及细采样点特征,合成新视角图像

本技术实施例利用了一种不确定性感知的采样策略和几何预测来预测场景深度概率并过滤出准确的关键点,避免了空采样点的干扰,这些策略有助于降低渲染时间,进而降低新视角图像合成时间;与此同时,基于不确定性图合理采样,也使得本技术实施例即使在稀疏视图下也能生成更高质量的新视角图像

附图说明
37.图1为本技术实施例提供的新视角图像合成方法的流程示意图;
38.图2为本技术实施例提供的新视角图像合成方法的原理图;
39.图3是本技术实施例中不确定性感知采样策略和全分辨率渲染的详细信息的应用示意图;
40.图4是本技术实施例提供的新视角图像合成模型训练方法的流程示意图;
41.图5是不同新视角合成模型在不同数据集上的新视角图像合成质量的定性比较示例图;
42.图6是基于定性消融分析的泛化结果的定性比较示例图

具体实施方式
43.为使本技术要解决的技术问题

技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述

在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本技术的实施例

因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本技术的范围和精神

另外,为了清楚和简洁,省略了对已知功能和构造的描述

44.除非另作定义,本技术中使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义

本技术中使用的“第一”、“第二”以及类似的词语并不表示任何顺序

数量或者重要性,而只是用来区分不同的组成部分

同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个

45.如图1所示,本技术实施例提供的新视角图像合成方法,包括:
46.步骤
101
,获取多个初始图像

各个初始图像对应的相机参数以及多个采样深度;
47.步骤
102
,分别提取每一初始图像的图像特征,基于初始图像的图像特征

相机参数以及采样深度,构建第一深度概率体和几何特征体,第一深度概率体中的各个体像素对应有预测深度概率,几何特征体的各个体像素的体素特征为通过对多个初始图像的图像特征进行集成提取得到;
48.步骤
103
,对第一深度概率体进行二维卷积,得到第一不确定性图;
49.步骤
104
,根据第一深度概率体和第一不确定性图,确定粗采样点;
50.步骤
105
,从初始图像的图像特征与几何特征体中,获取与粗采样点对应的粗采样点特征;
51.步骤
106
,基于粗采样点特征确定细采样点

射线特征图以及深度图;
52.步骤
107
,从初始图像的图像特征中获取与细采样点对应的细采样点特征;
53.步骤
108
,根据射线特征图

深度图以及细采样点特征,合成新视角图像

54.本技术实施例中,基于初始图像的图像特征

相机参数以及采样深度所构建第一深度概率体和几何特征体,对第一深度概率体进行二维卷积,得到第一不确定性图,第一深度概率体和第一不确定性图的获取,可以实现基于深度预测和不确定性感知的不确定性引导采样策略,得到作为关键点的粗采样点,而几何特征体的获取可以实现几何预测,从初始图像的图像特征与几何特征体中,获取与粗采样点对应的粗采样点特征,利用粗采样点特征可以确定细采样点,根据射线特征图

深度图以及细采样点特征,合成新视角图像

本申
请实施例利用了一种不确定性感知的采样策略和几何预测来预测场景深度概率并过滤出准确的关键点,避免了空采样点的干扰,这些策略有助于降低渲染时间,进而降低新视角图像合成时间;与此同时,基于不确定性图合理采样,也使得本技术实施例即使在稀疏视图下也能生成更高质量的新视角图像

55.以下结合一些实施例对本技术提供的新视角图像合成方法进行具体说明

56.在步骤
101
中,获取的每个初始图像均对应有相机参数,相机参数可以是指拍摄初始图像所处的视角,其具体可以包括相机的内参和外参等

一般来说,多张初始图像中可以具有一个参考视角图像,其余的初始图像可以作为源视角图像,为便于说明,源视角图像构成的集合可以记为其中,ii
表示初始图像的集合中的第i张源视角图像,
nv
为源视角图像的总数,相对应地,作为参考视角图像的初始图像可以记为
i0。
57.针对每一张初始图像可以进行特征提取,得到相应的图像特征,这种特征提取可以采用卷积神经网络来实现,或者,在一些具体应用例中,可以采用特征金字塔网络
(feature pyramid network

fpn)
中,提取得到预设尺寸的特征映射,初始图像的图像特征可以存在于特征映射中

58.为便于说明,特征映射可以认为是特征图像,其中会具有像素点,通过特征的匹配,可以确定不同初始图像的特征图像上的相匹配的像素点

比如,对于初始图像
i0和初始图像
i1,
i0的特征图像if0
上的像素点a和
i1的特征图像if1
上的像素点b相匹配

59.像素点a在
i0上的位置与像素点b在
i1上的位置可能不同,如果确定一单应性变换矩阵,对if1
进行变换得到且变换后像素点b在中的位置与像素点在特征图像if0
上的位置相同,说明该单应性变换矩阵为比较准确的变换矩阵

其中,单应性变换矩阵主要包括相机参数和上述像素点的深度,相机参数是已知的,而像素点的深度则是待求取的

60.基于以上分析,步骤
101
中获取了多个采样深度,一个采样深度和相机参数可以确定一个单应性变换矩阵,每个单应性变换矩阵均可以用于对特征图像if1
进行变换得到进行变换得到与if0
越相似
(
比如匹配的像素点在各种特征图像上的位置相同或接近
)
,说明单应性变换矩阵越准确,采用的采样深度越准确

而与if0
差异越大,采样深度越不合适

与if0
的差异可以表达为所采用的采样深度的代价值

61.以上是以单个像素点为例进行了说明,if1
中的像素点为多个,针对每个采样深度,可以在if1
中形成多个代价值,进而构成代价图

62.进一步地,if0
和if1
之间形成的是两张特征图像之间的代价图,而中初始图像为多个的情况下,还需要融合多个视角的信息,比如通过均值

直接级联或者方差的方式去对全部ii
的特征图对应的代价图进行融合,得到融合后的代价图

63.再进一步地,以上仅对一个采样深度进行了说明,一个采样深度可以构建一张代价图,多个采样深度所对应构建多张代价图可以形成三维代价聚合体

三维代价聚合体可以用于进一步构建第一深度概率体

64.以下针对第一深度概率体的构建过程进行详细说明

65.可选地,分别提取每一初始图像的图像特征,包括:
66.将初始图像输入至特征金字塔网络中提取不同尺寸的多个特征映射,多个特征映
射包括尺寸依次增大的第一特征映射

第二特征映射以及第三特征映射,初始图像的图像特征位于特征映射中

67.对于每个初始图像ii
,根据其高宽尺寸h×w和通道数,可以表示为ii
∈rh×w×3,其中,通道数3可以对应于
rgb
的三个颜色通道

68.如图2所示,将ii
输入至
fpn
,可以提取三个不同尺寸的特征映射fi
,1∈r
h/4
×
w/4
×
c1
、fi,2∈r
h/2
×
w/2
×
c2
和fi
,3∈rh×w×
c3

69.基于
fpn
可以得到多尺度特征,使得本技术实施例能够使用多尺度的几何预测器来估计场景深度概率,并采样靠近场景表面的关键点,避免了空采样点的干扰

70.可选地,基于初始图像的图像特征

相机参数以及采样深度,构建第一深度概率体和几何特征体,包括:
71.分别从各个初始图像对应的第一特征映射进行下采样,得到第四特征映射;
72.根据多个初始图像对应第四特征映射,确定在各个采样深度上的代价,以得到代价聚合体;
73.对代价聚合体进行正则化处理,得到第一深度概率体

74.如图2所示,本实施例中,可以采用多视点立体算法
(multi-view stereo

mvs)
或者类似
mvs
的方法进行第一深度概率体的获取

75.具体来说,对fi,1
进行下采样,得到第四特征映射,记为fwi
∈r
h/8
×
w/8
×
c1
,利用现有
mvs
方法可以预测粗糙的
3d
场景几何形状,通过单应性变换将
2d
图像特征映射到平面扫描体中用于构建成本体积,然后,利用基于方差的方式来从每个输入视图的映射特征fwi
中构建代价聚合体,即上文中提到的三维代价聚合体,其实质上可以是多视角图像融合后的成本体积

76.与现有的
mvs
方法类似,本实施例也可以通过
3d unet
规范化目标视图
(
对应参考视角图像
)
下的成本体积,以预测深度概率体积,该深度概率体积即上面提到的第一深度概率体,可以记为
p
mvs
∈r
h/a
×
w/a
×
nd
,其中,
nd
为采样深度的数量,或者称为深度平面的数量

77.几何特征体可以通过体素的方式来存储几何特征,例如光线

射线

颜色等,其具体可以通过现有技术来实现,例如
surfacenet
等,此处并不做详细说明

在下文中几何特征体可以用fvoxel
表示

78.与现有的
mvs
方法不同的是,本实施例中进一步对第一深度概率体进行二维卷积,得到第一不确定性图

79.如上文所示的,第一深度概率体可以记为
p
mvs
,在一个示例中,可以使用浅层
2dcnn
网络
sc推断出第一不确定性图umvs
,公式表达如下:
[0080][0081]
根据第一深度概率体
p
mvs
和第一不确定性图umvs
,可以来估计粗糙采样点,简称为粗采样点

估计粗采样点的过程,可以认为是基于不确定性感知的采样策略来推断关键点的过程,在一些实施方式中,这种不确定性感知采样策略同样可以适用于后续的细采样点的确定过程中

因此,以下可以先结合一些适用于各个采样点阶段的通用公式对不确定性感知采样策略进行说明,值得强调的是,在通用公式的表达式中所采用的图像的尺寸,并不
代表本技术实施例中特征图像和初始图像之间相对尺寸的限定

[0082]
现有的方法中通常通过单峰分布来估计深度,但它们倾向于忽略小物体和深度突变的边界区域

为解决这个问题,本技术中使用深度概率体积
p(
例如第一深度概率体
p
mvs
)
及其相应的深度平面
l
,根据逆变换采样策略来计算初始深度采样点
x∈rh×w×n,随后,可以利用不确定性计算每个初始采样点附近的两个额外点
x
un
,其定义如下:
[0083]
x
un

x
±
clamp(u
,0,
1)
×dinter
ꢀꢀꢀꢀ
(2)
[0084]
其中,u代表不确定图,例如上述的第一不确定性图umvs

clamp
为钳位函数,在公式
(2)
中,其用于将u的值限制在0到1之间,dinter
是深度间隔,而
x
un
∈rh×w×n×2是基于不确定性的采样点集,在下文中,
x
un
可以根据不同的图像处理阶段分别粗采样点和细采样点

[0085]
在获得
x
un
后,可以进一步进行特征融合的操作,通过继续融合每个初始图像的图像特征,以渲染目标视图图像

比如,可以沿用现有的
ibrnet
中描述的方法,将每个采样点投影到图像特征映射中,并提取相应的像素对齐特征然后使用池化网络
φ
fusion
(f
1,n
,f
2,n
....,f
nv,n
)
聚合这些特征,输出图像点特征其中,以上表达式中,n可以作为特征图的尺度的编号,比如,在对粗采样点进行处理的过程中,n可以为2,此时,fi,n
可以对应于上文中的fi,2
等等;u的取值可以是1和2,对应了每个初始采样点附近的两个额外点

[0086]
最后,根据不确定性点及其对应的点特征,可以采用基于均值和方差的网络将它们进行融合:
[0087][0088]
其中,是一个两层感知器,输出图像特征fimg
将用于渲染过程

[0089]
以上对一些通用的处理流程进行了简单说明,以下回到粗采样点的确定和处理过程的介绍

[0090]
比如,将公式
(2)
具体应用到根据第一深度概率体和第一不确定性图,确定粗采样点的步骤中,可以具体描述为:
[0091]
基于第一深度概率体
p
mvs
以及第一深度概率体
p
mvs
中各层的采样深度
(
对应于上述深度平面
l)
,进行逆变换采样,得到初始采样点
(
对应于初始深度采样点
x)

[0092]
结合第一不确定图与预设深度间隔
(
对应于dinter
)
,分别针对每个初始采样点确定两个邻近点
(
对应于
x
un
)
,邻近点作为粗采样点

为示区别,下文中可以将粗采样点记为
x
un
,c。
[0093]
可选地,从初始图像的图像特征与几何特征体中,获取与粗采样点对应的粗采样点特征,包括:
[0094]
将粗采样点投影至第二特征映射,得到与粗采样点对应的图像点特征;
[0095]
基于三线性插值,从几何特征体获取与粗采样点对应的体素特征;
[0096]
其中,粗采样点特征包括与粗采样点对应的图像点特征和与粗采样点对应的体素特征

[0097]
在一个示例中,本技术实施例采用不确定性感知采样策略,利用
p
mvs
和umvs
来计算
粗采样点
x
un
,c∈r
h/8
×
w/8
×
nc
×2。
然后将这些点
x
un
,c上采样两次,投影至第二特征映射fi,2
,得到与粗采样点对应的图像点特征

[0098]
此外,对于每个粗采样点,可以使用三线性插值从几何特征体fvoxel
获取粗采样点对应的体素特征fvoxel
,这些体素特征可以属于图像的几何信息

[0099]
为实现从粗到细的采样,可选地,基于粗采样点特征确定细采样点,包括:
[0100]
采用基于均值和方差的网络对与粗采样点对应的图像点特征进行特征感知,得到渲染用图像特征;
[0101]
对渲染用图像特征和体素特征进行特征感知,得到粗采样点对应的颜色特征和密度,颜色特征用于新视角图像渲染;
[0102]
根据密度确定细采样点

[0103]
结合上述公式
(3)
,具体应用到粗采样点的应用过程中,可以使用特征融合方法从特征映射fi,2
中聚合每个粗采样点的图像特征fimg,c
,fimg,c
对应于渲染用图像特征,属于基于粗采样点得到的图像特征fimg

[0104]
对渲染用图像特征和体素特征进行特征感知,得到粗采样点对应的颜色特征fr
和密度
σ

[0105]
比如,在一个示例中,基于fimg,c
和fvoxel
,可以使用
mlp
网络为每个粗采样点生成颜色特征fr
和密度
σ

[0106][0107]
颜色特征fr
用于新视角图像渲染,而密度
σ
可以用于进一步确定细采样点

[0108]
在一个具体实施方式中,根据密度确定细采样点,包括:
[0109]
追踪通过初始图像的各个像素的光线;
[0110]
基于各光线上的粗采样点的点数,粗采样点对应的密度

相邻两个粗采样点之间的距离以及累积透射率,确定各光线的深度概率分布;
[0111]
根据各光线的深度概率分布构建第二深度概率体;
[0112]
对第二深度概率体进行二维卷积,得到第二不确定性图;
[0113]
根据第二深度概率体和第二不确定性图,确定细采样点

[0114]
结合一个具体应用例,为了预测细节场景几何形状,利用密度估计来建立精细的采样先验

几何现有的光线追踪手段,可以追踪通过每个像素的光线,并计算其上各点深度概率
τk:
[0115][0116]
其中,k表示每条光线上的粗采样点的点数,
δk表示相邻两个粗采样点之间的距离,
tk表示到达第k个粗采样点时的累积透射率

与上文中的第一深度概率体
p
mvs
和的第一不确定性图umvs
构建原理类似,此处可以使用
τk构造深度概率体积,记为第二深度概率体
p
nerf
,并通过
2dcnn
网络
sf可推断第二不确定性图unerf

随后,使用
p
nerf
和unerf
计算细采样点
x
un
,f∈r
h/4
×
w/4
×
nf
×2(
其中
nf
可以等于
1)。
上文对不确定性感知采样策略的通用过程进行了介绍,该不确定性感知采样策略同样适用于细采样点的确定过程,此处不作重复说明

[0117]
相应地,如图2所示,从初始图像的图像特征中获取与细采样点对应的细采样点特
征,包括:
[0118]
将细采样点投影至第三特征映射fi,3
,得到与细采样点对应的细采样点特征

[0119]
此外,本技术实施例中,还对射线特征图以及深度图进行了确定,在一个示例中,为每条光线r计算射线特征图fr
(r)
和深度图
d(r)
,其定义如下:
[0120][0121]
其中,
δ
'k表示粗采样点k到相机中心的距离,fr,k
表示光线r在粗采样点k的点特征

[0122]
此外,如图2所示,为了让网络准确学习低分辨率信息,可以使用一个渲染网络进行体渲染,生成低分辨率图像
[0123]
如图2所示,在一个示例中,首先将光线特征图fr

深度图d和基于不确定性的细采样点
x
un
,f上采样四倍

根据特征融合方法,还从特征图fi,3
计算每个细采样点的图像特征fimg,f
(
对应细采样点特征
)。
为了提供
3d
结构的指导,可以将深度图d进行位置嵌入编码,并馈入
2dcnn
网络并推断出深度特征图
d'
,其设计如下:
[0124]
dv

φ
depth
(
γ
(d))
ꢀꢀ
(7)
[0125]
其中
γ
()
表示位置嵌入

可以是一个四层的
resnet。
[0126]
可选地,根据射线特征图

深度图以及细采样点特征,合成新视角图像,包括:
[0127]
将细采样点特征和射线特征图输入纹理特征生成网络,得到图像纹理;
[0128]
对深度图进行二维卷积,得到深度特征图;
[0129]
将图像纹理深度特征图输入至图像解码器,输出得到新视角图像,其中,图像解码器包括多个残差嵌套稠密块,其中,深度特征图分别注入到每一残差嵌套稠密块

[0130]
如图3所示,结合一个应用例,本技术提供的新视角图像合成方法主要包括了
(a)
不确定性感知采样策略和
(b)
全分辨率渲染的详细信息

[0131]
其中,
(a)
根据深度体积,使用逆变换采样计算关键点,并通过不确定性计算每个初始采样点附近的两个额外
3d

。(b)
在渲染中,将射线特征图和图像特征
(
对应细采样点特征
)
馈入图像解码器中

[0132]
图像解码器包括多个残差嵌套稠密块
(residual-in-residual dense block

rrdb)
,本技术的方法将深度特征图注入到每个
rrdb
块中

[0133]
在一个举例中,深度
(
对应
d)、
光线
(
对应fr
)
和图像特征
(
对应fimg,f
)
被输入至图像解码器用于生成目标视角图像
[0134][0135]
其中,是具有两个残差嵌套稠密块
(rrdb)
的网络,该实施例中并非将深度特征与光线和图像特征连接起来,而是将深度特征注入每个块中

[0136]
在计算出粗糙的场景几何和信息后,本技术利用图像解码网络渲染最终全分辨率的目标视角图像

从低分辨率特征中渲染高质量图像是一个具有挑战性的任务

而本技术通过集成像素附近的局部信息可以有效地恢复渲染中的高频细节

[0137]
如图4所示,本技术实施例还提供了一种新视角图像合成模型训练方法,方法包括:
[0138]
步骤
401
,构建新视角图像合成网络架构,新视角图像合成网络架构配置有损失函数;
[0139]
步骤
402
,获取训练样本集,训练样本集包括多个样本图像集与作为各样本图像集的标注结果的真实图像;
[0140]
步骤
403
,将图像集输入至新视角图像合成网络架构,输出预测图像;
[0141]
步骤
404
,通过损失函数基于真实图像与预测图像计算的损失值更新新视角图像合成网络架构的网络参数,直至损失函数的损失值收敛,得到训练完成的新视角图像合成模型,训练完成的新视角图像合成模型用于实现上述的新视角图像合成方法

[0142]
新视角图像合成网络架构可以认为是未进行训练的新视角图像合成模型,在一些实施方式中,新视角图像合成模型训练期间,模型可以从
rgb
图像进行训练

比如可以仿照
nerf
的训练方法,模型通过最小化预测图像和真实图像
c(r)
之间的均方误差
(mean-square error

mse)
来进行训练:
[0143][0144]
其中,表示均方误差损失函数,r表示图像的射线数量,即上述的预测图像或
[0145]
而在一些方式中,也可以是损失函数的组成部分,损失函数包括更多的内容

比如,损失函数包括第一损失函数

第二损失函数以及第三损失函数;
[0146]
第一损失函数用于计算真实图像与预测图像之间相似度带来的损失值,第二损失函数用于计算预测图像中射线的不确定性带来的损失值,第三函数用于计算真实图像与预测图像之间特征相似度带来的损失值;
[0147]
损失函数的损失值为通过对第一损失函数的损失值

第二损失函数的损失值以及第三损失函数的损失值进行加权计算得到

[0148]
其中,第一损失函数可以对应为上述的第二损失函数记为可以用于学习渲染颜色及其不确定性,通过最小化下列负对数似然函数实现:
[0149][0150]
其中,
u(r)
表示上采样操作后的射线不确定性

[0151]
为了解决模型在训练过程中往往会产生模糊或过度平滑的图像的现象,可以利用感知损失来规范渲染过程中的细节:
[0152][0153]
其中,对应上述的第三损失函数,可用于体现感知损失

φ
()
是经过训练的多层计算机视觉组
(visual geometry group

vgg)
网络,用于在特征空间中估计预测图像和真实图像
c(r)
之间的相似度

[0154]
第一损失函数

第二损失函数以及第三损失函数可以统称为子损失函数,通过加权方法集成子损失函数,可以得到损失函数:
[0155][0156]
其中,
λ
mse

λ
un

λ
prec
均为预设权重

[0157]
此外,对于每个尺度的渲染图像和模型分别计算它们的多重损失并将总损失函数定义为
[0158]
以下对新视角图像合成模型的结构和训练方式进行示例性说明

[0159]
实验步骤:
[0160]
模型细节如下:在训练过程中,使用
adam
优化器,其初始学习率为
0.0005。
在二维图像特征提取中,特征通道数分别为
c1

32、c2

16、c3

8。
在采样过程中,采样点数为
nd

64

nc

8。
多重损失参数
λ
mse

λ
un

λ
prec
以及总损失参数
λ
coarse

λ
fine
分别设置为
1、0.1、0.01

0.1、1。
在预训练中,可以在
gtx 3090gpu
上进行训练,大约经过
170k
次迭代后趋于收敛,需要约
14
小时

在单场景的优化中,基于预训练模型进行
15
分钟的训练

[0161]
数据集方面,可以使用
dtu
数据集来训练预训练模型,该数据集包含不同对象的
124
个场景

使用与
mvsnerf

pixelnerf
相同的数据集处理方法,将数据集分为
88
个训练场景
、15
个验证场景和
16
个测试场景

为了展示本技术模型的泛化能力,还在
nerf
合成数据集和
real forward face
数据集上进行了测试

根据
mvsnerf
的规则,选择三个邻近源视图作为输入来训练模型并生成目标视图

[0162]
基线方法:可以在不进行单场景优化的情况下将本技术方法与
pixelnerf、ibrnet

mvsnerf
进行比较,它们是稀疏输入下现有技术中最优的可泛化
nerf
变体

在微调过程中,将本技术方法与其他技术进行了比较分析

[0163]
评估指标方面:本技术采用
nerf
中常用的峰值信噪比
(peak signal to noise ratio

psnr)、
结构相似性
(structural similarity

ssim)
和学习感知图像块相似度
(learned perceptual image patch similarity,lpips)
衡量图像质量,同时使用每秒传输帧数
(frame per second

fps)
来衡量渲染速度,并将本技术模型与其他方法进行比较以展示其泛化性能和渲染速度

[0164]
其中,在
nerf
合成数据集
、dtu
数据集和
llff(real forward face)
数据集上的新视角图像合成质量的定性比较可参见图5,图中
ours
代表基于本技术提供的模型或者方法得到的新视角图像

[0165]
基线方法比较:
[0166]
将本技术的模型与
pixelnerf、mvsnerf

ibrnet
进行泛化能力和渲染速度方面的
比较

在预训练阶段,所有可泛化的方法都在
dtu
数据集上进行预训练,并使用与
mvsnerf
相同的标准对其他未知场景数据集进行测试

[0167][0168]
上表
(
记为表
1)
的定量结果显示,本技术的方法在泛化能力方面始终优于基线方法

另外,为了展示本技术方法的渲染效率,分别利用这些模型在单个
rtx 3090gpu
上渲染了一张
dtu
数据集中
512
×
640
分辨率的图像

表1显示,相比之前的泛化辐射场方法,本技术模型渲染速度至少快
50


之前方法的渲染缓慢可以归因于它们需要为每个像素推算多个采样点

相比之下,本技术模型利用了一种不确定性感知的采样策略和多尺度几何预测器来估计深度范围并过滤出准确的关键点

这些策略有助于降低渲染时间

具体而言,本技术模型首先使用
mvs
方法在低分辨率下评估场景几何形状,这需要耗费
14ms。
然后,它将需要耗费
17ms
用于由粗到细地获取几何信息,最后需要耗费
25ms
用于使用图像解码器渲染完整分辨率的图像

在比较过程中还将本技术的单场景微调的结果与其他方法进行了比较

经过
15
分钟的微调训练,在几个数据集上,本技术模型获得了高质量的结果,特别是在
lpips
这个指标上表现突出

[0169]
在图6中提供了泛化结果的定性比较

很明显,当在稀疏输入下的生成新视图时,其他模型往往会产生明显的模糊和伪影

这是因为反射区域和低纹理表面通常会导致为空采样点预测错误的密度,并在体渲染过程中产生伪影

相反,本技术提供的方法使用多尺度的几何预测器来估计场景深度概率,并采样靠近场景表面的关键点,避免了空采样点的干扰

这种方法在不确定区域合理采样,使本技术模型即使在稀疏视图下也能生成更高质量的图像

此外,本技术的渲染
2d
网络在全分辨率渲染过程中融入深度信息,使得图像更好地恢复场景细节并减少伪影

[0170]
消融学习与分析:
[0171]
消融学习与分析在
dtu
测试数据集上进行消融实验来检查各个模块的作用

分别记录了定量和定性结果,并在下表
(
记为表
2)
和图6中展示

[0172][0173]
其中,
algorithm
代表算法,
w/o
表示消融对象,比如,
w/o uncertainty
表示去除不确定性预测,
w/o depthrender
表示去除图像解码器中的深度注入,
w/o coarse loss
表示去除低分辨率图像损失

[0174]
首先,分析了不确定性在模型中的作用

不确定性预测了深度估计的置信度,这使得模型能够推断出更准确的深度信息

通过不确定性估计和采样,证明了模型可以提高渲染性能

接下来,去除了图像解码器中的深度注入

本技术方法利用低分辨率的光线特征来生成全分辨率的图像,其中详细的位置信息对于图像渲染非常关键

因此,缺失深度信息会
导致图像模糊

加入图像解码器中的深度注入可以明显改善复杂和微妙对象细节的清晰度

最后,展示了低分辨率图像损失的重要作用

在粗略深度估计过程中,在没有深度监督的情况下预测场景的低分辨率深度概率是具有挑战性的

因此,在没有使用低分辨率图像损失的情况下将造成粗略几何估计中的存在误差和降低图像生成质量

[0175]
此外,还调查了不同采样点和输入视图对速度和渲染质量的影响

如下表
(
记为表
3)
所示,尝试改变每个光线的采样点数量

[0176][0177]
基于以上分析可见,本技术实施例可以实现一种具有可泛化性和高效渲染的新视角图像合成方法

具体而言,给定一组多视角图像,利用由
mvs

nerf
组成的多尺度场景几何预测器由粗到细推断关键点

此外,为了获得更准确的关键点位置和特征,设计了一种基于深度预测和不确定性感知的不确定性引导采样策略

利用关键点和场景几何特征,可利用一个渲染网络来合成全分辨率的图像

这个过程是完全可微分的,可以仅使用
rgb
图像来训练网络

通过与最先进的基线比较,实验结果证明新视角图像合成模型在各种合成数据集和真实数据集上具有更高的渲染效率和更高的渲染质量

利用多尺度场景几何预测器和不确定度感知采样策略,使得本技术提供的方法能有效地推断几何信息并显著提高了渲染速度

[0178]
本技术实施例还提供了一种新视角图像合成装置,包括:
[0179]
第一获取模块,用于获取多个初始图像

各个初始图像对应的相机参数以及多个采样深度;
[0180]
提取构建模块,用于分别提取每一初始图像的图像特征,基于初始图像的图像特征

相机参数以及采样深度,构建第一深度概率体和几何特征体,第一深度概率体中的各个体像素对应有预测深度概率,几何特征体的各个体像素的体素特征为通过对多个初始图像的图像特征进行集成提取得到;
[0181]
卷积模块,用于对第一深度概率体进行二维卷积,得到第一不确定性图;
[0182]
第一确定模块,用于根据第一深度概率体和第一不确定性图,确定粗采样点;
[0183]
第二获取模块,用于从初始图像的图像特征与几何特征体中,获取与粗采样点对应的粗采样点特征;
[0184]
第二确定模块,用于基于粗采样点特征确定细采样点

射线特征图以及深度图;
[0185]
第三获取模块,用于从初始图像的图像特征中获取与细采样点对应的细采样点特征;
[0186]
合成模块,用于根据射线特征图

深度图以及细采样点特征,合成新视角图像

[0187]
可选地,提取构建模块可具体用于:
[0188]
将初始图像输入至特征金字塔网络中提取不同尺寸的多个特征映射,多个特征映射包括尺寸依次增大的第一特征映射

第二特征映射以及第三特征映射,初始图像的图像特征位于特征映射中

[0189]
可选地,提取构建模块还可用于:
[0190]
分别从各个初始图像对应的第一特征映射进行下采样,得到第四特征映射;
[0191]
根据多个初始图像对应第四特征映射,确定在各个采样深度上的代价,以得到代价聚合体;
[0192]
对代价聚合体进行正则化处理,得到第一深度概率体

[0193]
可选地,第一确定模块可具体用于:
[0194]
基于第一深度概率体以及第一深度概率体中各层的采样深度,进行逆变换采样,得到初始采样点;
[0195]
结合第一不确定图与预设深度间隔,分别针对每个初始采样点确定两个邻近点,邻近点作为粗采样点

[0196]
可选地,第二获取模块可具体用于:
[0197]
将粗采样点投影至第二特征映射,得到与粗采样点对应的图像点特征;
[0198]
基于三线性插值,从几何特征体获取与粗采样点对应的体素特征;
[0199]
其中,粗采样点特征包括与粗采样点对应的图像点特征和与粗采样点对应的体素特征

[0200]
可选地,第二确定模块可具体用于:
[0201]
采用基于均值和方差的网络对与粗采样点对应的图像点特征进行特征感知,得到渲染用图像特征;
[0202]
对渲染用图像特征和体素特征进行特征感知,得到粗采样点对应的颜色特征和密度,颜色特征用于新视角图像渲染;
[0203]
根据密度确定细采样点

[0204]
可选地,第二确定模块可具体用于:
[0205]
追踪通过初始图像的各个像素的光线;
[0206]
基于各光线上的粗采样点的点数,粗采样点对应的密度

相邻两个粗采样点之间的距离以及累积透射率,确定各光线的深度概率分布;
[0207]
根据各光线的深度概率分布构建第二深度概率体;
[0208]
对第二深度概率体进行二维卷积,得到第二不确定性图;
[0209]
根据第二深度概率体和第二不确定性图,确定细采样点;
[0210]
相应地,第三获取模块可用于:
[0211]
将细采样点投影至第三特征映射,得到与细采样点对应的细采样点特征

[0212]
可选地,合成模块可具体用于:
[0213]
将细采样点特征和射线特征图输入纹理特征生成网络,得到图像纹理;
[0214]
对深度图进行二维卷积,得到深度特征图;
[0215]
将图像纹理深度特征图输入至图像解码器,输出得到新视角图像,其中,图像解码器包括多个残差嵌套稠密块,其中,深度特征图分别注入到每一残差嵌套稠密块

[0216]
本技术实施例提供的新视角图像合成装置是与上文实施例的新视角图像合成方法对应的装置权限,方法实施例可以应用到装置实施例中,并取得相同的技术效果,此处不再赘述

[0217]
本技术实施例还提供了一种新视角图像合成模型训练装置,包括:
[0218]
构建模块,用于构建新视角图像合成网络架构,新视角图像合成网络架构配置有
损失函数;
[0219]
第四获取模块,用于获取训练样本集,训练样本集包括多个样本图像集与作为各样本图像集的标注结果的真实图像;
[0220]
输出模块,用于将图像集输入至新视角图像合成网络架构,输出预测图像;
[0221]
训练模块,用于通过损失函数基于真实图像与预测图像计算的损失值更新新视角图像合成网络架构的网络参数,直至损失函数的损失值收敛,得到训练完成的新视角图像合成模型,训练完成的新视角图像合成模型用于实现上述的新视角图像合成方法

[0222]
可选地,损失函数包括第一损失函数

第二损失函数以及第三损失函数;
[0223]
第一损失函数用于计算真实图像与预测图像之间相似度带来的损失值,第二损失函数用于计算预测图像中射线的不确定性带来的损失值,第三函数用于计算真实图像与预测图像之间特征相似度带来的损失值;
[0224]
损失函数的损失值为通过对第一损失函数的损失值

第二损失函数的损失值以及第三损失函数的损失值进行加权计算得到

[0225]
本技术实施例提供的新视角图像合成模型训练装置是与上文实施例的新视角图像合成模型训练方法对应的装置权限,方法实施例可以应用到装置实施例中,并取得相同的技术效果,此处不再赘述

[0226]
本技术实施例还提供了一种电子设备,包括存储器

处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的新视角图像合成方法或者新视角图像合成模型训练方法

[0227]
本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的新视角图像合成方法或者新视角图像合成模型训练方法

[0228]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元

模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元

模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能

实施例中的各功能单元

模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现

另外,各功能单元

模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围

上述系统中单元

模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述

[0229]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述

[0230]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件

或者计算机软件和电子硬件的结合来实现

这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件

专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围

[0231]
在本技术所提供的实施例中,应该理解到,所揭露的装置
/
终端设备和方法,可以通过其它的方式实现

例如,以上所描述的装置
/
终端设备实施例仅仅是示意性的,例如,模
块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行

另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式

[0232]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上

可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的

[0233]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中

上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现

[0234]
集成的模块
/
单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中

基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤

其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式

对象代码形式

可执行文件或某些中间形式等

计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置

记录介质
、u


移动硬盘

磁碟

光盘

计算机存储器

只读存储器
(rom

read-only memory)、
随机存取存储器
(ram

random access memory)、
电载波信号

电信信号以及软件分发介质等

[0235]
以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内

网友询问留言已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
技术分类