Argus-3D形状生成大模型,多模态生成3D形状
令人心潮澎湃的游戏装备、栩栩如生的VR与AR视界、充满惊奇想象的艺术与设计创作……
伴随虚拟与现实边界的日益融合,三维形状生成模型的研究备受关注。不同于当前主流大语言模型,三维形状生成比一维文本更加复杂,任务难度也更高。
论文地址:
https://arxiv.org/abs/2306.11510
项目地址:
https://argus-3d.github.io
Argus-3D 可以利用图片、文字等多模态条件做控制,生成多样化3D形状,并可添加纹理与上色,辅助提升游戏开发等领域的3D建模工作效率。

生成多样性更佳,结构与细节表现精准
Argus-3D模型可根据输入的类别信息生成3D形状,目前支持55种常见物体类别。对于样本多的物体类别,生成效果更好,如在游戏、设计等领域常见的飞机、椅子、汽车和桌子等。
通过增大模型参数,Argus-3D模型在多种类别上取得了更好的效果。

生成多样性方面,Argus-3D 可生成丰富的物体形状。


基于文本的3D形状生成能力方面,Argus-3D 模型具有更加优秀地生成质量表现,尤其是精准的结构与细节表达。
Shap-E 模型更关注纹理渲染,生成的 3D形状具有丰富色彩,但在结构完整性上,部分细节处碎片化严重。Argus-3D 模型更好地学习到了三维特征 ,能生成结构完整、轮廓流畅的3D形状,并可通过添加纹理,适配多样化的任务需求。
可通过算法添加纹理或由设计师自由着色。
对于三维物体的生成“无死角”,每个空间侧面的生成都与现实结构相符,如视频中的桌子,表面十分平滑,而底面则有着丰富的空间结构。
研究方法
支持多模态输入
36亿参数,Argus-3D是当前最大3D生成模型,可以根据类别标签、文本、图像等多模态信息进行形状生成。
输入图像生成3D形状网格。

自回归模型在训练过程中稳定性较好,然而,在三维形状生成领域,由于缺乏有效的表示方法,大多数自回归模型难以生成结构复杂、细节丰富的三维形状。为此,研究团队改编了自动回归模型,并扩大了可学习参数的规模。
如何应对 transformer 体系结构的计算需求也是一个难点。对此,研究团队探索了更高效的 transformer 架构以及新颖的3D形状数据表示。基于 transformer 的模型具备高度的可扩展性,使复杂形状更高效建模。
引入潜在表示学习方法,降低计算复杂度,提高分辨率和多样性
现有3D形状生成模型在实际应用中的一个主要限制是难生成高分辨率的3D形状,细节不足、缺乏纹理细粒会影响视觉保真度和真实感。此外,这些模型缺乏多样性,通常只能生成有限数量的相似形状,这限制了模型在实际任务中的可用性。
Argus-3D通过提高生成的 3D 形状的质量和多样性来克服现有方法的局限性。Argus-3D模型将三平面特征作为潜在表示,有效降低了计算复杂度。三维数据随分辨率增大,存储资源和计算资源呈立方增长。研究团队使用三个正交投影的平面表示物体的特征,将计算复杂度从立方降低到平方,提高了生成形状的分辨率。