天工一刻 | 一文看懂3D大模型

不过，高质量3D数据稀缺依旧困扰着“纯原生”3D大模型的发展。不过，当前，在3D生成技术路径上，仍然存在“2D升3D”“纯原生3D”“混合3D”的不同技术流派。按照生成路径划分，根据论文《A Comprehensive Survey on 3D Content Generation》的分类，可以将3D大模型生成分为：2D升3D（2D prior-based 3D generative）、纯原生3D

C学堂

486人浏览 · 2024-07-31 09:22:25

C学堂 · 2024-07-31 09:22:25 发布

3D大模型，正在成为下一个风口。自2023年年底以来，一大批AI 3D模型生成相关技术取得突破，Meta、Adobe、Stability AI，以及VAST（Tripo AI）、sudo AI、Meshy AI、Rodin等海内外玩家动作频频。

今年3月以来，arXiv上的3D生成（3D Generation）论文数量更是从200+篇/月飙升至400+篇/月，几乎飙升100%——这背后是3D模型多项核心技术取得突破，大量新兴研究涌现。

与此同时，此前百花齐放的技术路径也在逐渐形成产业共识，步入收敛。例如，在GAN、VAE、Diffusion等不同生成方案中，以Diffusion Transformer（DiT）为代表的大模型路径脱颖而出，逐渐成为当前的研究主流方案。不过，当前，在3D生成技术路径上，仍然存在“2D升3D”“纯原生3D”“混合3D”的不同技术流派。在过去半年甚至一年多的时间里，AI 3D生成技术发展堪称突飞猛进：3D模型生成的质量更好、速度更快——部分情况下甚至能把原来以小时为单位的3D模型生成时间压缩到秒级，带来惊人的效率提升。3D模型的GPT时刻，即将来临。

传统3D模型设计：流程长、环节复杂、价格贵

大多数人对3D模型并不陌生。最常见的是各类游戏、影视、动漫、CG中的3D人物与3D物品/环境。当前，最精致的3D模型已经足以高度媲美真人。

（游戏《黑神话·悟空》截图）

此外，在VR、元宇宙、数字人等科技前沿赛道，3D模型也有着广泛的应用。

（央视新闻数字手语主持人）

对于处在三维空间中的人类来说，3D内容毫无疑问能够提供比文字、图片、视频更沉浸、更逼真的内容体验。随着3D技术的发展，未来，人们甚至可以像《黑客帝国》《头号玩家》一样，创造出一个三维立体的、足以以假乱真的虚拟世界——元宇宙。但正如文字-图片-视频-3D所承载的信息量呈指数上升，3D内容生产的复杂度也在急剧增加。以传统3D模型的生成为例，其制作环节可分为：概念设计/原画、3D建模、UV拆分、烘焙贴图、绘制材质、动画制作、渲染等诸多环节。

根据模型的复杂度与精细度不同，一个3D模型的生产周期可能在数小时、乃至数天以上，成本范围在40美元~650美元之间。流程长、环节多、程序复杂、价格昂贵，同时普遍依赖专业人员手动操作，一道道关卡将3D模型的制作门槛不断推高。值得注意的是，当前的3D大模型远远做不到替代3D设计师，其生成的质量并未达到“开箱可用”的商业级别，而更像是Adobe、数位板这类帮助设计师减少重复劳动，提高生产力的工具。3D大模型想要解决的，是3D制作流程中最耗费时间精力、最重复劳动的环节——建模与贴图，通过AI技术将3D设计师们从重复劳动中解放出来，更专注地投入到艺术创作当中。

流派众多，百花齐放

评价一个3D模型生成效果，有以下几个核心指标：

1、几何模型的形状准确度；

2、纹理贴图质量效果与“几何-纹理”一致性；

3、3D模型生成速度；

3D建模相关研究最早可以追溯到20世纪60年代末的线框模型（Wire Frame Model），此后已经历数十年发展。

此前，3D生成技术流派众多，在各种细分方向百花齐放。

按照生成方式分类，主流3D生成的派别包括文生3D（text-to-3D）、图生3D（image-to-3D）；

按照生成路径划分，根据论文《A Comprehensive Survey on 3D Content Generation》的分类，可以将3D大模型生成分为：2D升3D（2D prior-based 3D generative）、纯原生3D（3D native generative）、混合3D（hybrid 3D generative）三大派别；

根据3D建模方案划分，可以分为：点云（Point Cloud）、网格（Mesh）、深度（Depth）、神经场（Neural Fields）、混合（Hybrid）等多种方案；

（3D生成模型技术发展路线，数据截止至2023年8月；来自论文《3D Generative Models: A Survey》）

根据3D生成模型划分，则包括GAN、VAE、Autoregressive、Diffusion等模型。

目前，3D大模型业内最新“新鲜”的研究成果来自Meta。2024年6月25日，Meta发布了其最新3D大模型研究——Meta 3D Gen。这是一款文生3D（text-to-3D）大模型，其能够在数十秒（<1分钟）内生成几何形状准确、纹理材质优秀的3D模型。准确来说，Meta 3DGen是一套组合模型，其几何形状与贴图纹理是两个步骤（2 Stages），分别由Meta 3D AssetGen、Meta 3D TextureGen两个模型生成。

（Meta 3D Gen生成流程，来自论文《Meta 3D Gen》）这一技术路径将3D几何生成与3D纹理贴图作为两个步骤分别处理，其优势在于几何形状质量更好，而缺点在于会影响模型生成速度与几何纹理一致性。目前，业内也有不少3D大模型方案选择1 Stage一步到位的端到端生成方案，几何与纹理同步输出生成，这一技术路径的优势在于速度与纹理效果，但缺点在于几何形状质量会受到纹理影响——如一张带有波点图案的水平桌面，可能会被3D模型识别为凹凸不平。这两条技术路径各有千秋，目前业内尚未达成共识。

3D大模型的三大主流路径

当前，3D大模型研究的最大挑战，不是算法、甚至也不是算力——而是数据。训练数据短缺问题在文本、图像、视频大模型领域都存在，但在3D大模型领域格外严重。昆仑万维董事长兼CEO方汉在接受媒体采访时曾表示，在3D模型生成赛道，全世界的数据只有1000多万，优质的数据只有200万。3D数据资源少、清洗难度高、高质量3D数据资源难以获取……种种困难为3D大模型的打造形成了诸多限制。

因此，早期3D生成模型的研究思路以“2D升3D”为主——先生成多视角的2D图像，然后根据该图像生成3D模型。

（1）2D升3D

这一思路的代表项目为2022年9月底谷歌推出的DreamFusion项目《DreamFusion: Text-to-3D using 2D Diffusion》。与3D模型资源相比，文生2D图（text-to-image）领域拥有数十亿计的海量资源，因而谷歌DreamFusion项目采用了“2D升3D”的思路，先使用一个预训练2D扩散模型基于文本生成一张二维图像，然后引入Score Distillation Sampling（SDS）基于概率密度蒸馏的损失函数，生成高质量和复杂的三维结果。这一方法的亮点在于无需任何3D数据预训练即可生成3D模型，开创了SDS路径的先河，也在随后催生出大量“2D升3D”的相关研究。

（2D升3D路径代表研究，来自论文《A Comprehensive Survey on 3D Content Generation》）

但与此同时，以SDS为代表2D升3D路线也存在生成速度慢、生成质量不可控等问题，其中最受关注的是由此带来的“多头”问题（Janus problem）——在生成的3D模型中，有时会出现两个甚至多个人物/动物头部，高度影响模型的合理性。因而，近年间，原生3D又逐渐成为研究主流。准确划分起来，原生3D又可以分为“纯原生”3D生成与“混合”3D生成两条路径。

（2）“纯原生”3D

“纯原生”3D生成方案与通用大模型思路类似，采用端到端方案，首先使用海量3D数据集训练大模型，然后以前馈（feed-forward）方案生成3D模型。

（“纯原生”3D大模型路径代表研究，来自论文《A Comprehensive Survey on 3D Content Generation》）

这一路径的代表玩家毫无疑问有OpenAI——Scaling Law与大模型领域的坚定支持者。2022年12月，OpenAI发布论文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》，并开源了文生3D项目Point-E；2023年5月，OpenAI则进一步发布论文《Shap-E: Generating Conditional 3D Implicit Functions》，开源了升级版模型Shap-E。

（OpenAI于2022年底发布的Point-E大模型3D生成效果demo）

与文本大模型不同，在3D大模型领域，OpenAI并没有显著的领先优势。3D原生路径的真正代表玩家为Adobe于2023年11月推出的LRM项目《LRM: Large Reconstruction Model for Single Image to 3D》。LRM是图生3D的代表模型，其拥有5亿参数，能够在5秒钟内实现图片-3D模型的生成。LRM采用高度可扩展的transformer-based架构，其突破性地将图生3D任务转换成了“将图片翻译为3D模型”的任务，并在100+万公开3D数据集上进行了训练。Adobe的LRM项目因3D模型的生成质量与生成速度都有着极大提高，其发布后在学术与产业界引起了大量关注，并也从此催生了一大批相关研究。不过，高质量3D数据稀缺依旧困扰着“纯原生”3D大模型的发展。因而，近年间，“混合”3D生成技术路径悄然兴起。

（3）“混合”3D

混合3D是当下3D大模型最前沿的技术方向，也是昆仑万维3D大模型团队专攻的技术方向。

由于纯原生3D路径训练数据不足，而2D升3D路径只能提取有限的3D几何知识。因此，在最新的混合3D路径中，大模型研发人员将3D信息注入预训练的2D模型，例如，通过多视角图像微调Stable Diffusion模型，使其能够生成稳定、一致的3D模型。

以困扰“2D升3D”路径的“多头”问题（Janus problem）为例，通过将多视角Stable Diffusion与大规模3D重建模型相结合，混合3D能够有效解决模型3D 几何生成质量问题，解决多头问题并提升模型生成速度。

（“混合”3D大模型路径代表研究，来自论文《A Comprehensive Survey on 3D Content Generation》）

除了昆仑万维外，这前沿一思路的代表项目包括哥伦比亚大学的Zero123、加州大学与Adobe等的One-2-3-45、香港大学与腾讯游戏等的SyncDreamer、香港大学与清华大学等的Wonder3D、Adobe的Instant3D等等。

这一技术路径既利用了目前丰富的2D图像资源，规避了3D数据不足问题，又一定程度上突破了2D升3D带来的几何等多项问题。

当前，昆仑万维3D大模型团队坚持自研混合3D技术路线，在3D大模型两大核心领域（3D几何生成与3D纹理生成）均达到产业最领先水平。相较于同类产品，昆仑万维3D大模型有着极强的模型优势与数据壁垒，在3D大模型领域拥有三大产品技术亮点：

（1）模型生成速度更快；

（2）模型布线更加规则，方便接入游戏引擎；

（3）模型纹理更加可控。

例如，在3D纹理生成领域，今年3月，昆仑万维联合北京大学、浙江大学、南洋理工大学共同发布论文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》，该论文是3D大模型纹理生成领域的最前沿技术成果之一，其创造性地将深度信息（Depth）融入模型纹理生成环节，使得3D模型的纹理生成效果更稳定、更自然；项目的另一大亮点在于模型的可交互性，普通用户只需要通过简单的文字指令，就能实时改变3D模型的局部颜色、纹理，大幅降低3D大模型纹理生成的工业应用门槛。

（昆仑万维2024年3月发布论文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》）

InTeX是一款可交互的、文生纹理（Text-to-Texture）大模型，用户可以通过简单的文字指令实时改变3D模型的局部纹理。

该模型通过将深度信息（Depth）与 inpainting纹理贴图相结合，解决了目前常见的预训练深度Diffusion + inpainting模型方案存在几何-纹理不一致、不可控问题，提高了模型生成速度，并能够允许用户实现特定区域的重新绘制和精确的纹理编辑。

值得一提的是，在最新的Meta 3D Gen纹理生成研究中，引用了昆仑万维团队《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》的研究内容。

结语

在过去半年甚至一年多的时间里，AI 3D生成技术发展堪称突飞猛进：3D模型生成的质量更好、速度更快——部分情况下甚至能把原来以小时单位的3D模型生成时间压缩到秒级，带来惊人的效率提升。

与此同时，3D大模型目前仍然面临着训练数据不足、模型几何准确性不够、精细度不足、模型几何-纹理一致性不足等多项挑战，暂时无法满足4A大作、科幻电影中高度精细化的3D模型生成需求。

不过在大量中小型场景中，已经能够满足需求。在影视、游戏行业中，3D大模型能够快速生成3D原型，帮助设计师们实时具现化灵感，提高工作效率。而在工业设计、制造等场景中，3D大模型还可以用于产品原型设计和仿真测试，减少研发成本和时间。此外，3D大模型在AI视频、元宇宙，甚至具身智能领域都有着广阔的应用空间。随着相关技术的快速发展，3D大模型即将迎来更多突破性进展。

参考资料：

1.3D Generative Models: A Survey

2.A Comprehensive Survey on 3D Content Generation

3.Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting

4.LRM: Large Reconstruction Model for Single Image to 3D

5.Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials

6.Meta 3D Gen

7.Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects

8.Point-E: A System for Generating 3D Point Clouds from Complex Prompts

9.Shap-E: Generating Conditional 3D Implicit

「免责声明」：以上页面展示信息由第三方发布，目的在于传播更多信息，与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资建议，据此操作，风险自担，以上网页呈现的图片均为自发上传，如发生图片侵权行为与我们无关，如有请直接微信联系g1002718958。