在这里插入图片描述

LatticeWorld:基于多模态大语言模型的交互式复杂世界生成框架

原文链接:https://arxiv.org/abs/2509.05263
video:https://www.youtube.com/watch?v=8VWZXpERR18&feature=youtu.be

文章目录

摘要

近年来,研究工作愈发聚焦于开发能够模拟复杂真实场景的三维世界模型。世界模型已在具身智能、自动驾驶、娱乐等多个领域得到广泛应用。具备精准物理特性的高保真仿真环境,能够有效缩小仿真与现实之间的差距,让我们便捷地获取关于真实世界的丰富信息。尽管传统的手动建模已可实现虚拟三维场景的构建,但现代方法借助先进的机器学习算法开展三维世界生成,近期的研究热点集中于基于用户指令的生成式方法。本研究探索了该研究方向,提出LatticeWorld——一款简洁高效的三维世界生成框架,可简化三维环境的工业生产流程。

LatticeWorld将轻量级大语言模型(LLaMA-2-7B)与工业级渲染引擎(如虚幻引擎5)相结合,实现动态环境生成。该框架支持以文本描述与视觉指令作为多模态输入,生成包含动态智能体的大规模三维交互式世界,具备竞争性多智能体交互、高保真物理仿真与实时渲染等特性。本文通过全面实验对LatticeWorld进行评估,结果表明该框架在场景布局生成精度与视觉保真度上均达到优异水平。此外,相较于传统工业手动制作方式,LatticeWorld在保持高创作质量的同时,使工业生产效率提升90倍以上。演示视频链接:https://youtu.be/8VWZXpERR18
在这里插入图片描述

图1:LatticeWorld生成结果展示

1 引言

交互式世界模型的研发已成为近期研究的核心领域[64,17,34]。这类虚拟环境旨在模拟真实世界的复杂场景,使研究人员能够通过充分且有意义的交互获取丰富观测数据。由于真实世界数据的获取通常难度大、成本高,世界模型生成的海量数据可用于训练各类人工智能(AI)算法[52,72],尤其适用于高样本复杂度的任务。

此外,世界模型对于涉及安全与风险考量的学习任务具有重要价值。世界模型已广泛应用于具身人工智能、序贯决策、自动驾驶、娱乐(如游戏开发、影视制作)等诸多场景。从本质上讲,世界模型能够让智能系统通过充分交互获得空间智能。

世界模型的实际应用价值,要求我们研发高保真三维虚拟环境,以最小化仿真与现实之间的差距。通过这一方式,我们能够生成更贴合真实样本的丰富数据,显著缓解由仿真-现实差距引发的学习误差。

高保真虚拟环境的研发,核心在于三维场景生成技术的研究。该领域的早期工作以基础的手动场景建模为主,主要应用于游戏开发等场景,高度依赖美术人员的手工制作,人力成本高昂。为提升制作效率,过程化内容生成(PCG)被广泛应用于计算机图形学领域,通过算法与预定义规则自动生成三维虚拟环境[58,4,15,3,11,66]。

随着深度学习的发展,大量研究将过程化内容生成与深度神经网络相结合[44,23,31]。近期,研究人员重点关注基于用户指令的生成模型进行内容创作。神经渲染方法是重要的研究方向,例如基于神经辐射场的分数蒸馏采样[36,38,54,19,33,71,13,69]与三维高斯泼溅[22,68,7,74,25]。然而这类方法缺乏交互能力,限制了其实际应用。

另一类基于扩散模型的研究[14,26,17,34,9],为场景生成提供了基于视觉(如图像、视频)的解决方案。同时,诸多研究致力于将生成模型与三维建模平台相结合[55,73,20,10,52,65,67],其中以Blender平台的应用最为广泛。

本研究推动了该领域的发展,提出名为LatticeWorld的新型框架——一款基于多模态大语言模型的交互式复杂世界生成框架。该方法借鉴工业界标准计算机图形学(CG)方案,与工业级过程化内容生成生产流程深度融合。

LatticeWorld是一款简洁高效的框架,实现了多模态大语言模型与工业级计算机图形学渲染引擎(虚幻引擎,UE)的无缝集成,这也是其与现有工作的核心区别。相较于Blender,虚幻引擎具备更真实的物理仿真、原生多智能体交互能力,以及针对交互体验优化的实时渲染性能。因此,LatticeWorld继承了虚幻引擎的独特优势,并通过成熟插件拓展了功能。

具体而言,LatticeWorld支持以虚拟世界的文本描述、地形高程视觉指令(如高度图、手绘草图)作为输入。借助大语言模型的符号理解与结构化序列生成能力,框架中经过充分训练的多模态大语言模型从输入中生成场景布局的符号化表示(矩阵),并提取语义清晰的环境配置,展现出优异的可解释性与语义精度。

渲染引擎对生成结果与视觉信息进行处理,构建包含多个交互智能体的大规模动态虚拟世界。视觉条件能够确保大语言模型直接高效地理解场景高程信息,从而实现精准生成。该框架最终生成可交互的虚拟世界,用户可操控主角智能体与其他具备对抗行为的智能体进行交互。因此,LatticeWorld能够根据用户指令创建竞争性环境,用于AI智能体训练。

值得注意的是,LatticeWorld的多模态大语言模型基于轻量级的LLaMA-2-7B模型[59]构建,证明了使用小参数量大语言模型实现复杂空间理解的潜力。

本文主要贡献总结如下:

  1. 本文通过探索轻量级大语言模型在空间理解与结构化序列生成方面的能力,提出简洁高效的三维复杂世界生成框架LatticeWorld。该框架将多模态大语言模型与工业级渲染引擎虚幻引擎相结合,构建动态环境,具备五大核心优势:(1)多模态输入;(2)可解释的中间表示;(3)真实物理建模;(4)动态多智能体交互;(5)大规模实时仿真。该方法具备通用性,可适配Unity等其他高性能引擎。
  2. 为训练框架中的多模态大语言模型,本文提出构建多模态数据集,数据集包含多样化文本描述、高度图、符号化布局表示与对应环境配置。在数据集构建过程中,本文结合精细的提示工程,使用GPT-4o完成数据标注,兼顾标注效率与准确性。
  3. 本文通过全面实验评估LatticeWorld的性能,在布局生成与最终环境生成任务上与现有方法进行对比。结果表明,在各类用户指令下,LatticeWorld在生成精度与视觉保真度上均取得更优表现。此外,相较于工业界传统手动制作方式,LatticeWorld在保持高创作质量的同时,使工业生产效率提升90倍以上。

2 相关工作

2.1 过程化内容生成

过程化内容生成(PCG)框架通过算法手段自动完成资源与环境的创建[58]。传统PCG依赖基于规则的系统与参数化模型,生成地形、关卡、游戏元素等多样化内容[12,15,3,66,11,4]。这类方法因能高效生成具备可控多样性的大规模内容,被广泛应用于工业生产流程,尤其在游戏开发与虚拟环境创建领域。

此外,诸多研究探索了将PCG与人工智能方法[31,44,23]、三维场景生成技术[55,49,20,73,30]相结合的路径。

2.2 三维场景生成的神经渲染

该领域的技术从基于神经辐射场(NeRFs)的分数蒸馏采样方法[36,38,54,19,33,71,13,69],逐步发展为前馈架构[26,14]。近期三维高斯泼溅技术的突破[22,68,7,74,25],进一步提升了生成效率与场景连贯性。

尽管这类神经渲染方法在视觉保真度上表现优异,但其核心聚焦于静态内容生成,普遍缺乏交互能力,限制了在动态世界模型场景中的应用。

2.3 基于视觉的交互式世界生成

基于扩散模型的方法已构建起交互式三维环境创建的框架[14,26,9]。近期如Genie-2[17]、WorldLabs[64]、GenEx[34]等工作,采用扩散模型结合图像/视频输入,生成可探索的环境。这类方法通过视觉预测实现交互性,但仍受限于基于视觉的仿真体系本身的缺陷。

2.4 基于平台的环境创建

除上述方法外,近期研究聚焦于将生成能力与成熟的三维内容创作平台相结合,不同平台具备独特的计算范式与交互能力。已有多项工作实现了与Blender平台的集成[55,73,20,16,10,52,65,67],依托其全面的建模能力与Python脚本生态开展研究。

这类方法主要侧重内容创作与离线渲染,而非实时交互。尽管Blender可通过Eevee引擎实现实时渲染、支持物理仿真,但在动态多智能体场景下的能力仍有限;且其典型工作流为先完成内容创作,再导出至其他平台,导致生成与交互环节相互割裂。

此外,英伟达Isaac Sim等专业仿真平台被应用于机器人交互任务[51],仿真环境也从符号推理阶段[45,53]逐步演进为高精度物理仿真平台[56,24,28,46,39]。但这类方法通常使用静态内容,无法支持实时响应智能体交互的动态内容生成(如碰撞导致树木倾倒)。

本文方法选用虚幻引擎,该引擎针对实时交互应用提供了截然不同的技术范式。与Blender相比,虚幻引擎具备先进的物理仿真、原生多智能体交互能力,以及针对交互体验优化的实时渲染性能。这使得我们能够将大语言模型的生成能力与可响应的虚拟环境相结合,支持实时场景修改与智能体交互,让方法同时适配创意应用与AI智能体训练场景。

2.5 大语言模型

大语言模型(LLMs)已展现出强大的文本指令理解能力,典型代表包括GPT系列[6,41]、LLaMA系列[59,35]、Mistral[21],以及DeepSeek-R1[8]等专用模型。这类模型主要处理单模态文本输入,而近期的技术进展通过多模态集成拓展了其通用性(如GPT-4系列变体[40,42]、Qwen2-VL[62]、Claude 3[2]、Gemini[57])。

指令微调技术的出现[48,63,43],让大语言模型能够通过文本指令理解实现对未知任务的泛化。为将大语言模型的能力拓展至视觉输入,Flamingo[1](跨模态注意力门控)、LLaMA-Adapter[70](可学习视觉投影器)等框架,在冻结语言模型的前提下,通过轻量级模块将视觉特征(如CLIP[47,50])与文本嵌入对齐。LLaVA[29]等端到端方法证明,视觉-语言联合指令微调能够解锁更深度的多模态推理能力。

3 LatticeWorld框架

LatticeWorld旨在根据用户的多模态指令(包含目标环境的文本与视觉描述)生成可定制的三维虚拟世界。为实现这一目标,LatticeWorld包含多模态场景布局生成器环境配置生成器渲染流水线三部分,如图2所示。
在这里插入图片描述

图2:LatticeWorld技术框架

具体而言,LatticeWorld的输入为多模态布局控制指令(包含文本描述 x L x_L xL与承载三维空间信息的视觉条件 v L v_L vL),以及环境配置的文本描述 x C x_C xC。本文中,视觉条件 v L v_L vL指高度图,可通过特定算法由地形手绘草图转换得到。

随后,LatticeWorld先使用两个经过微调的基础模型 L L M L LLM_L LLML L L M C LLM_C LLMC,分别生成与输入匹配的场景布局与环境配置,再基于生成的布局与渲染参数完成三维渲染。该生成过程可形式化表示为:
y ^ L = L L M L ( x L , Φ ( v L ) ) (1) \hat{y}_L=LLM_L\left(x_{L}, \Phi\left(v_{L}\right)\right) \tag{1} y^L=LLML(xL,Φ(vL))(1)
y ^ C = L L M C ( x C , Φ ( v L ) , y ^ L ) (2) \hat{y}_C=LLM_C\left(x_{C}, \Phi\left(v_{L}\right), \hat{y}_{L}\right) \tag{2} y^C=LLMC(xC,Φ(vL),y^L)(2)
W = R e n d e r ( Ψ L ( y ^ L ) , Ψ C ( y ^ C ) , v L ) (3) \mathcal{W}=Render\left(\Psi_{L}\left(\hat{y}_{L}\right), \Psi_{C}\left(\hat{y}_{C}\right), v_{L}\right) \tag{3} W=Render(ΨL(y^L),ΨC(y^C),vL)(3)
其中, Φ \Phi Φ为视觉-词嵌入算子,负责将视觉信息嵌入目标语言空间; Ψ L \Psi_L ΨL为解码器,将 L L M L LLM_L LLML生成的中间布局表示解析为张量形式的引擎可读场景布局, y ^ L \hat{y}_L y^L为生成的中间布局表示; y ^ C \hat{y}_C y^C为生成的环境配置, Ψ C \Psi_C ΨC为配置转换过程,将生成的配置解析为引擎原生属性,可通过开发转换脚本或基于Houdini等软件的专用插件实现; R e n d e r Render Render为执行渲染流水线的三维渲染引擎。

值得注意的是,视觉条件 v L v_L vL为可选输入,并非必需,这为LatticeWorld的应用提供了灵活性。最终,框架生成可交互的虚拟世界,用户可操控主角智能体与其他虚拟智能体交互。目前主角智能体的动作通过输入设备控制,借助现有虚幻引擎插件可轻松拓展为AI算法策略控制。本文核心聚焦虚拟世界的构建方法,工程实现细节将在后续开发中完善。

本文将在4、5、5.2与6节详细阐述公式(1)(2)(3)对应的三个流程。

4 场景布局生成

本节旨在通过挖掘与拓展大语言模型的空间理解与符号序列生成能力,训练一个支持文本描述+视觉条件多模态输入的场景布局生成模型。

如公式(1)所示,场景布局生成以文本描述 x L x_L xL与视觉条件 v L v_L vL为输入,输出特定结构的布局表示。本文目标是训练 Φ \Phi Φ L L M L LLM_L LLML以得到该场景布局生成模型。

训练数据集 D L t r D_L^{tr} DLtr遵循 L L M L LLM_L LLML统一的输入/输出数据格式,包含由原始布局图像 L L L转换得到的布局表示 y L y_L yL。该中间布局表示对高效训练至关重要,可通过 Ψ L \Psi_L ΨL解析为引擎可读的布局张量(公式3),最终经渲染引擎生成真实感场景。下文将详细介绍布局表示的设计。

4.1 布局的序列符号化表示

在本文任务中,场景布局是一幅图像,不同类型的资源以不同颜色表征并分布其中。Stable Diffusion等视觉-语言基础模型在视觉生成任务中表现出色,有望直接从文本与视觉指令生成布局图像。但这类模型存在布局生成不可控的问题。

本文核心并非优化视觉-语言基础模型,而是研发一款高效兼容各类基础模型(仅具备文本生成能力亦可)的生成框架。

为解决上述问题,本文提出一种高效的中间表示方案对布局图像进行编码,便于大语言模型通过微调融入布局信息。具体而言,本文先将场景布局图像 L L L压缩为 p × p p×p p×p的符号(字母)矩阵(本文取 p = 32 p=32 p=32),每个字母对应一类资源。各类数据集的符号化表示详情见表1。

表1:资源类别的符号化表示

在这里插入图片描述

该符号矩阵进一步转换为大语言模型可高效处理的字符串 y L y_L yL
y L = " s 1 1 s 1 2 ⋯ s 1 P \ n s 2 1 s 2 2 ⋯ s 2 P \ n ⋯ \ n s p 1 s p 2 ⋯ s p p " y_L=" s_{1}^{1} s_{1}^{2} \cdots s_{1}^{P} \backslash n s_{2}^{1} s_{2}^{2} \cdots s_{2}^{P} \backslash n \cdots \backslash n s_{p}^{1} s_{p}^{2} \cdots s_{p}^{p} " yL="s11s12s1P\ns21s22s2P\n\nsp1sp2spp"
其中 \ n \backslash n \n为换行符, s i j s_i^j sij对应矩阵第 i i i行第 j j j列的元素。该设计将布局转换为固定长度的“布局符号语言”,并在符号序列中嵌入空间信息。因此,本文提出的布局表示可直接应用于仅具备文本生成能力的大语言模型,对各类基础模型具备通用性。

该布局表示可有效捕捉布局内的复杂信息,包括各类资源区域的位置、大小及空间关系。例如,连续两个字母表示两个区域相邻,每个字母的位置对应区域在布局中的坐标

该序列符号化表示以语言模型易处理的格式,充分利用大语言模型强大的序列理解与推理能力,使模型能够从文本与视觉描述生成逻辑合理的布局。

本文指出,为保证布局生成的可控性,需对训练数据集内的目标进行标注。本文提出的符号化表示等价于对布局图像中的不同类型区域进行标注。现有多模态基础模型(如LLM-grounded Diffusion[27]、LLaVA)依赖带语言描述的边界框定位图像中的目标。但布局中的资源形状往往极不规则,边界框标注方法不实用且精度低。

本文方法在区域类型标注与形状勾勒上具备灵活性,可将符号矩阵中的每个元素视为一个小块,与虚幻引擎等主流引擎的网格化场景与地形构建机制高度匹配。

4.2 固定高度场景的文本转布局

本节先处理地形起伏极小的固定高度场景布局表示生成任务(如实验所用LoveDA数据集)。后续小节将证明,融入视觉指令可进一步生成可变高度场景。

在前面的步骤中已经提前用「文本描述 ↔ 符号序列」对LLM做了监督微调(SFT)

具体而言,经指令微调训练完成的 L L M L LLM_L LLML模型,在输入布局指令 x L x_L xL后,生成对应符号序列:
y ^ L = L L M L ( x L ) \hat{y}_L=LLM_L\left(x_{L}\right) y^L=LLML(xL)
即公式(1)中不输入视觉指令 v L v_L vL的情况。

4.3 视觉信息融合与可变高度场景生成

上一小节通过固定高度变化、仅保留文本指令简化了场景生成任务。为充分挖掘大语言模型理解结构化三维空间信息以完成布局生成的潜力,需将高度信息进一步编码至模型中。

为解决该问题,本文提出一种多模态方法,可将高度图等视觉指令融入模型。例如,地形高度变化可通过灰度图表示。该多模态方法对布局生成施加更严格的约束,保证场景构成更真实、连贯(如积雪出现在山顶而非湖面)。

在高度图中,像素位置对应现实中的经纬度坐标,像素值表示高度,从而描绘空间高度变化,确保布局与高度变化严格对应。

在计算机图形学工业场景制作中,高度图传统上由美术人员使用World Machine等专业软件制作。针对该问题,除直接输入高度图外,本文模型支持以手绘草图作为视觉指令。

本文研发了一款草图转高度图转换模型,在严格配对的草图-高度图数据集上训练,简化了高度图创建流程,用户仅需提供简单草图即可生成精细的高分辨率高度图。受近期工作[18]启发,本文采用Pix2PixHD模型(针对任务定制)实现基于GAN的草图转高度图生成模型,使用两种颜色线条控制高度图生成:蓝色线条表示低洼区域,黑色线条表示山脊。

用户随便画一张黑白 + 蓝色的简笔画草图,模型就能自动把它变成真实的 3D 地形高度图。

视觉信息集成

本文多模态方法将大语言模型与高精度视觉模块集成以编码视觉信息,如图2所示。回顾公式(1),给定视觉指令 v L v_L vL,生成符号布局:
y ^ L = L L M L ( x L , Φ ( v L ) ) \hat{y}_L=LLM_L\left(x_{L}, \Phi\left(v_{L}\right)\right) y^L=LLML(xL,Φ(vL))
其中 Φ \Phi Φ包含视觉特征编码器与投影模块,将 v L v_L vL对应的视觉信息映射至大语言模型的语言词嵌入空间。

视觉模块的核心为CLIP视觉编码器(ViT-B/32),记为 ϕ \phi ϕ,通过提取倒数第二层Transformer的输出,为每张图像 v L v_L vL生成逐块视觉特征 ϕ ( v L ) \phi(v_L) ϕ(vL)

为将视觉特征映射至词嵌入空间,本文采用轻量级基于CNN的投影网络。该可训练投影网络将逐块视觉特征 ϕ ( v L ) \phi(v_L) ϕ(vL)转换为语言嵌入令牌 Φ ( v L ) \Phi(v_L) Φ(vL),其维度与大语言模型的词嵌入空间维度一致:
Φ ( v L ) : = P r o j ( ϕ ( v L ) ) \Phi\left(v_{L}\right):=Proj\left(\phi\left(v_{L}\right)\right) Φ(vL):=Proj(ϕ(vL))

该投影实现了视觉特征与文本在大语言模型Transformer层中的无缝处理。

本文的嵌入方案在概念上受LLaVA[29]启发,在保证计算效率的同时,有效将视觉信息转换为与大语言模型架构匹配的格式,助力文本与视觉输入的联合理解。

4.4 模型训练

本文分别构建固定高度场景与可变高度场景的训练数据 D L t r D_L^{tr} DLtr,对场景生成模型 L L M L LLM_L LLML进行微调。

对于固定高度场景生成任务,训练数据 D L t r D_L^{tr} DLtr为数据对 ( x L , y L ) (x_L, y_L) (xL,yL)集合。本文采用GPT-4o作为高精度标注器,从多视角生成描述场景的文本描述 x L x_L xL

本文设计一系列有效提示词融入 x L x_L xL,将布局符号语言 y L y_L yL中的符号解析为现实概念(如“W:湖泊、河流等水体”)。本文提出的符号化布局表示可直接将序列化符号矩阵的上下文关系映射为空间关系。

文本描述 x L x_L xL定义任务的系统提示 x L s y s x_L^{sys} xLsys描述场景的用户指令 x L i n s x_L^{ins} xLins组成,即 x L = ( x L s y s , x L i n s ) x_L=(x_L^{sys}, x_L^{ins}) xL=(xLsys,xLins)。其中系统提示 x L s y s x_L^{sys} xLsys格式为:“你是一名AI助手。你的任务是根据给定输入生成32×32的字母矩阵。矩阵每行以‘\n’结尾。矩阵中字母的含义与分布应精准反映所提供的内容与视觉编码信息。矩阵中的字母代表不同地理特征:S:雪山或积雪区域,R:岩石区域或多岩石地表……”

基于整理后的布局数据集 D L t r D_L^{tr} DLtr,本文使用交叉熵损失对LLaMA-2-7B模型进行有监督微调。

文字 x L x_L xL(提示 + 指令)→ 符号序列 y L y_L yL

对于可变高度场景生成任务,本文基于提出的Wild数据集构建视觉-语言场景训练数据集 D L t r D_L^{tr} DLtr(含大量数据增强与标注),对融合视觉信息的模型进行微调。

由于框架引入视觉信息,训练数据集 D L t r D_L^{tr} DLtr比4.2节中的数据集更复杂。具体而言, D L t r D_L^{tr} DLtr定义为数据元组 ( x L , y L , v L , c v ) (x_L, y_L, v_L, c_v) (xL,yL,vL,cv)的集合,其中 x L x_L xL y L y_L yL为4.2节中的布局描述与布局符号化表示, v L v_L vL为视觉指令(如高度图), c v c_v cv v L v_L vL的描述文本(如高度图的地形描述)。

c v c_v cv用 GPT‑4o 批量生成出来的

基于该训练数据集,本文提出融入视觉指令的布局生成三阶段训练方案:

  1. 面向地形理解的CLIP微调:为使模型提取细粒度高度变化特征,本文使用高度图 v L v_L vL(编码地形高程的灰度图)标注数据与对应描述 c v c_v cv对CLIP进行微调,得到高效的高度图视觉特征提取器。
  2. 面向特征对齐的持续预训练:本阶段冻结CLIP模型的视觉编码器与 L L M L LLM_L LLML权重,仅对投影模块Proj进行持续预训练。沿用CLIP微调所用的高度图-描述对 ( v L , c v ) (v_L, c_v) (vL,cv)。Proj的训练采用单轮对话形式,每个样本包含CLIP提取的视觉特征 ϕ ( v L ) \phi(v_L) ϕ(vL)、任务专属指令提示 x i n s v x_{ins}^v xinsv与对应真实图像描述 c v c_v cv保持 L L M L LLM_L LLML参数冻结,训练Proj以最小化模型预测与真实描述 c v c_v cv的差异,实现视觉特征与语言表示的对齐。具体而言,Proj将CLIP特征映射为语言词令牌,与分词后的 x i n s v x_{ins}^v xinsv(用于生成简洁地形高度描述的提示词)拼接,模型预测结果为 L L M L ( c o n c a t e n a t e ( P r o j ( ϕ ( v L ) ) , T o k e n i z e ( x i n s v ) ) ) LLM_L(concatenate(Proj(\phi(v_L)), Tokenize(x_{ins}^v))) LLML(concatenate(Proj(ϕ(vL)),Tokenize(xinsv)))。通过训练好的Proj,在视觉与语言表示之间建立稳固的桥梁。

x i n s v x_{ins}^v xinsv 就是作者自己写的一句固定提示,用来告诉模型:现在要描述地形高度,没有其他来源。

  1. 端到端微调:最后阶段使用数据元组 ( x L , v L , y L ) (x_L, v_L, y_L) (xL,vL,yL)进行端到端训练。本阶段冻结CLIP模型的视觉编码器权重,对预训练好的投影模块Proj与布局基础模型 L L M L LLM_L LLML(LLaMA-2-7B)进行微调,在保留鲁棒视觉理解能力的同时实现更精准的适配。

在这里插入图片描述

通过上述三个训练阶段,最终得到支持文本+视觉指令输入的布局生成器。

5 环境配置生成

受工业界过程化内容生成(PCG)生产流程启发,本文在场景布局确定后,重点研究环境配置的设定,这是核心步骤。由于LatticeWorld旨在构建包含交互智能体的动态环境,其环境配置涉及两大关键维度:

  • 场景属性:场景中资源的视觉特征与空间排布;
  • 智能体参数:智能体的完整设置,包括类别、外观、空间位置与行为模式。

环境配置的复杂度与多样性极高,非专业人员难以直接手动配置,单个虚拟环境的视觉效果控制参数组合可达数千种。用户不仅需要理解每个参数的含义,还需具备艺术审美才能通过手动编辑实现最优效果。

本文框架通过以自然语言描述段落与图像为输入的环境配置生成模型简化该流程,如公式(2)所示:
y ^ C = L L M C ( x C , Φ ( v L ) , y ^ L ) \hat{y}_C=LLM_C\left(x_{C}, \Phi\left(v_{L}\right), \hat{y}_{L}\right) y^C=LLMC(xC,Φ(vL),y^L)
其中, x C x_C xC为环境配置(含场景属性与智能体参数)的文本描述, v L v_L vL为视觉条件(如高度图), y ^ L \hat{y}_L y^L为布局大语言模型生成的符号化布局表示, y ^ C \hat{y}_C y^C为配置生成结果; Φ \Phi Φ为4.3节训练完成的视觉-词嵌入算子。

需注意,环境配置受场景布局与地形高程约束(详见7节),因此 v L v_L vL y ^ L \hat{y}_L y^L L L M C LLM_C LLMC的关键输入。例如,水生生物不应出现在山地地形。若为4.2节所述的固定高度环境生成,可移除视觉嵌入模块 Φ ( v L ) \Phi(v_L) Φ(vL),生成过程简化为:
y ^ C = L L M C ( x C , y ^ L ) \hat{y}_C=LLM_C(x_C, \hat{y}_L) y^C=LLMC(xC,y^L)

5.1 场景属性

场景属性数量庞大,直接建模并映射至文本描述难度高,易引发生成结果冲突。为解决该问题,本文采用分层结构建模场景属性,助力语言到属性的有序转换,最终实现过程化场景细节的精准控制与渲染。

分层结构顶层为粗粒度属性,控制场景全局设置(如季节、天气等);底层为细粒度属性,基于粗粒度属性对生成场景进行精细化刻画。

为系统落地分层场景属性方案,本文搭建完备的属性转换框架,明确不同抽象层级的关联关系,指导生成流程。该数据生成框架借鉴工业PCG工作流,通过分层属性系统实现自然语言描述到环境配置的映射:

粗粒度属性

粗粒度属性控制整个环境的全局通用特征,涵盖场景五大维度:地形类型、季节、艺术风格、天气条件、时间。五大维度均对应具体控制值,例如季节分为“春季”“夏季”“秋季”“冬季”。

细粒度属性

细粒度属性包含两类:离散参数(如季节、材质参数)与连续参数(如密度 D ∈ [ 0 , 1 ] D \in [0,1] D[0,1])。连续参数可从指定区间采样,例如旋转用三维欧拉角表示(俯仰角、偏航角、滚转角取值范围 [ 0 ∘ , 360 ∘ ] [0^\circ,360^\circ] [0,360])。

高度图(HM)表示连续曲面几何,存储时离散化(数值通常在 [ 0 , 65535 ] [0,65535] [0,65535]区间),采用基于GAN的方法生成而非直接数值采样。

场景生成本质上受粗粒度场景属性、高度图特征、布局分布约束,同时遵循常识规则,并在PCG规则内融入部分随机化。表2展示了各类资源的细粒度属性数量,表明不同季节下资源类型与表面材质存在差异。

另一类细粒度属性对应资源排布,包括密度、朝向、位置等。本文对这类属性施加规则约束的同时,保留一定随机性。
在这里插入图片描述

表2:各类资源的离散(季节&材质)与连续参数统计

粗粒度到细粒度的转换

为将粗到细的生成理念融入语言模型,本文以分层方式构建训练数据用于模型微调,因此需要粗粒度到细粒度的转换方法。

本文实现基于规则的映射系统粗粒度属性定义细粒度属性的有效范围与分布,遵循工业PCG分层控制原则。例如,选择“冬季”作为季节后,会自动降低植被密度参数、限制可用植被类型、修改地形材质参数以添加积雪覆盖。

该分层方法可保证生成结果的语义一致性,减少数百个关联变量空间中的参数冲突,同时贴合专业美术人员的工作流——先完成高层场景设计,再细化细节。最终实现可处理复杂环境的轻量化生成流水线。

5.2 智能体参数

截至目前,本文方法创建的环境仅包含静态物体。本节研究通过在生成场景中加入交互智能体/角色构建动态环境,使生成环境具备成为具身智能模型训练平台的潜力。

这些智能体可通过追击、对抗等动态行为与主角(主智能体)交互,为多智能体决策研究提供竞争性平台。具体而言,智能体参数包含四大维度:智能体类别(如哥布林、人形机器人、机器狗、古代战士等)、数量、状态(如待机、巡逻、游泳等)、空间位置(如左上、左下等),可实现对智能体外观、动作、交互策略的管控。

通常,智能体参数受各类场景属性约束,例如鲸鱼仅能存在于大型水域。因此,输入包含智能体参数文本描述的 x C x_C xC,结合生成的场景布局 y ^ L \hat{y}_L y^L与视觉条件 v L v_L vL L L M C LLM_C LLMC可生成对应智能体的类别、状态、空间位置参数

本文生成方法支持用户通过简单的文本与视觉指令配置管控复杂动态智能体,为工业级动态环境设计与具身策略训练提供更直观、灵活的智能体控制方式。

5.3 模型训练

为训练 L L M C LLM_C LLMC模型,本文构建训练数据集 D C t r D_C^{tr} DCtr,数据元组格式为 ( x C , Φ ( v L ) , y L , y C ) (x_C, \Phi(v_L), y_L, y_C) (xC,Φ(vL),yL,yC)。其中, x C x_C xC由系统任务定义 x C s y s x_C^{sys} xCsys与环境配置描述文本 x C i n s x_C^{ins} xCins组成; y C y_C yC为JSON格式的场景属性与智能体参数; v L v_L vL y L y_L yL为对应高度图与符号化布局表示。

7节将详细介绍数据集构建过程,本文基于 v L v_L vL y L y_L yL的布局、地形高程描述,约束不同智能体类型的状态、位置集合与场景属性,保证训练数据与输出结果贴合现实规则。

本文训练模型遵循特定指令,学习场景关键属性与智能体状态,采用LLaMA-2-7B作为任务基础大语言模型,并使用4.3节训练完成的视觉嵌入算子 Φ \Phi Φ将视觉条件映射为语言词令牌。

模型训练采用交叉熵损失,基于专为该任务整理的环境配置数据集 D C t r D_C^{tr} DCtr进行微调。最终,输入粗粒度场景属性、智能体参数的文本描述,结合高度图与生成的布局符号化表示,即可通过 L L M C LLM_C LLMC生成环境配置

6 过程化渲染流水线

LatticeWorld是工业级世界模型生成框架,采用标准过程化内容生成(PCG)流水线实现完整渲染流程,可快速迁移至各类渲染引擎与图形系统,搭建工业级场景。

本文任务中,经 L L M L LLM_L LLML L L M C LLM_C LLMC生成符号化布局表示 y ^ L \hat{y}_L y^L与环境配置 y ^ C \hat{y}_C y^C后,渲染过程可表示为:
W = R e n d e r ( Ψ L ( y ^ L ) , Ψ C ( y ^ C ) , v L ) \mathcal{W}=Render\left(\Psi_{L}\left(\hat{y}_{L}\right), \Psi_{C}\left(\hat{y}_{C}\right), v_{L}\right) W=Render(ΨL(y^L),ΨC(y^C),vL)
其中, v L v_L vL为布局生成的视觉指令(如高度图), W \mathcal{W} W为渲染后生成的场景, R e n d e r Render Render为渲染引擎(本文采用虚幻引擎); Ψ L \Psi_L ΨL Ψ C \Psi_C ΨC分别为视觉解码器与配置转换器。

值得注意的是,仅需针对各引擎专属输入格式实现不同版本的 Ψ L \Psi_L ΨL Ψ C \Psi_C ΨC,即可将本框架适配至各类渲染引擎,包括工业级引擎(如Unity、虚幻引擎)与非商用/开源引擎(如Blender、Three.js)。受部分引擎(尤其是非工业级引擎)固有局限影响,本文选用虚幻引擎,依托其先进功能完成实验。

6.1 渲染用布局处理

L L M L LLM_L LLML生成布局的符号化表示后,本文采用解码器 Ψ L \Psi_L ΨL将其转换为渲染引擎可读格式。本文设计简洁高效的映射方法实现该解码器,分为三大步骤:

  1. 布局二值掩码创建:将 p × p p×p p×p符号化布局(本文 p = 32 p=32 p=32)转换为 p × p p×p p×p低分辨率图像,每个字符对应预定义的RGB颜色像素;再为RGB图像上每种颜色创建二值(黑白)掩码,表征每种场景类型在各像素的有无。
  2. 拉伸与边缘融合:通过最近邻插值将各颜色的二值掩码拉伸至目标尺寸;为实现不同场景类型边缘的平滑自然过渡,本文采用基于噪声的边缘融合技术(如高斯模糊)进行边缘处理,将二值掩码转换为灰度图。
  3. 引擎处理:渲染引擎读取平滑后的掩码图像完成场景布局可视化,每种掩码对应一类场景类型;在多场景类型重叠区域,引擎通过精密融合算法自动整合重叠元素,保证视觉效果自然。

二值掩码的 4 个关键作用
语义转空间:把 LLM 生成的字母语义,转换成引擎能读的像素位置信息;
场景解耦:把水、草地、建筑等不同场景类型的区域分开,方便单独处理;
平滑基础:为后续边缘融合、生成自然过渡效果提供硬边界参考;
批量渲染依据:让引擎能自动根据掩码生成对应资产,不用手动摆放

6.2 渲染用环境配置处理

场景布局仅表达场景资源的分布,引擎还需必要配置以刻画环境、资源与动态智能体。经 L L M C LLM_C LLMC生成的环境配置(含场景属性与智能体参数),通过转换过程 Ψ C \Psi_C ΨC解析为引擎原生属性。

例如,本文天气系统借助Niagara Fluids插件[5,37],根据生成参数实现各类天气效果(如沙漠场景的沙尘暴、山地场景的降雪)。其他具体实现中,本文集成虚幻引擎的体积云、体积雾、天空盒、天空大气等多种组件。

环境配置关联几类属性:

  1. 物体密度与材质类型:环境配置可控制不同区域的植被、草地、岩石等的分布、多样性、外观与视觉特征;本文通过多种规则将这些配置映射为引擎属性,管控不同物体的密度与材质。
  2. 建筑排布:建筑排布的规则设计比草地等自然元素更精细,需考虑地形类型、高度图与方向要求。为解决该问题,本文提出建筑感知规则确定建筑类型、位置与朝向;例如,为提升真实感,为建筑朝向添加可控随机变化,并定义建筑间的最大/最小距离。
  3. 动态智能体配置:环境配置可刻画渲染引擎中动态智能体的模型、状态、初始朝向与分布、数量。

最终, Ψ C \Psi_C ΨC可通过开发转换脚本或基于Houdini等软件的专用插件实现。

这里是引用

6.3 渲染用视觉指令处理

视觉指令 v L v_L vL同样作为渲染引擎的输入,通常为场景高度图,或可转换为高度图的草图,二者均编码地形高程信息。

最终,渲染引擎融合三类输入完成场景创建:视觉信息、生成的符号化布局、自动化流水线输出的环境配置。

7 数据集构建

本框架依托精心整理的多模态数据集,这也是本文的另一核心贡献。据本文所知,现有场景生成多模态方法与本框架不兼容,导致模型训练面临数据缺失问题。例如,基于Blender引擎的方法依赖大语言模型生成的Blender代码与手动设计规则[55,73,20]。

为解决该问题,本文贡献了适配本框架的全新多模态数据集。

7.1 布局数据集

遵循本文渲染流水线,为满足工业标准化要求,本文将LoveDA数据集[60,61]与自研Wild数据集两类原始数据集,转换为包含草图、布局语义分割等多维度布局数据(详见下文),这些数据对模型训练与推理至关重要。

LoveDA数据集是开源语义分割数据集,包含5987幅遥感高空间分辨率(HSR)图像。由于每幅图像地形平坦,所有高度图的高程值均设为0。

Wild数据集从谷歌地球平台收集1095幅高分辨率荒野场景图像,每幅图像尺寸2048×2048像素,覆盖5.4平方千米区域,平均像素分辨率2.53米。本文对这些图像与对应数字高程模型(DEM)数据进行处理,分割为512×512像素子图像,并通过降雨累积算法[18]生成草图、通过模拟侵蚀算法生成高度图、完成图像语义分割。

在此数据基础上,本文通过以下步骤完成额外数据处理与增强:

  1. 布局转符号矩阵:将布局语义分割图像转换为32×32符号矩阵(如图3所示)。该下采样过程为 L L M L LLM_L LLML训练创建紧凑的语义视觉-文本映射,资源到符号的映射详情见表1。
  2. 数据增强:为降低数据集过拟合风险、提升模型鲁棒性,本文采用旋转等方式进行数据增强;再经下述描述步骤,从不同视角对同一图像多次标注,实现单图像对应多描述,显著扩充数据集规模。
  3. 描述生成:本文借助GPT-4o的强大能力完成数据标注(如图3所示)。为保证数据标注的准确性与一致性,基于上下文学习设计精细的提示工程方案完成GPT-4o描述生成。具体而言,每个提示包含两大组件:(1)颜色-场景映射提示,建立颜色与各类资源的对应关系;(2)布局上下文引导提示,提供位置描述、简洁性、保留不同资源区域邻接关系的具体指令。标注器(GPT-4o)按引导生成有效的空间关系与分布描述。对于高度图,同样使用GPT-4o生成高程变化与方向的描述。

最终,通过上述步骤构建两类全新训练数据集。LoveDA数据集从原始2059幅郊区图像扩展为8236个数据样本;Wild数据集扩展为24380个数据样本。两类数据集结构一致,每个样本包含布局语义分割、描述文本、符号矩阵;Wild数据集额外为每个样本提供草图与高度图,地理空间信息更全面。
在这里插入图片描述

图3:数据集构建流程示意图

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.2 环境配置数据集

本文遵循工业标准,提出分层框架构建环境配置与语言描述,进而为LoveDA与Wild数据集搭建配置-描述数据集,步骤如下:

  1. 高度图与布局描述:使用GPT-4o生成布局图像与高度图的详细描述,为环境的视觉与空间特征提供完整文本表示。
  2. 环境配置生成:受虚幻引擎5过程化生成流水线启发,本文采用随机采样与结构化提示工程,通过GPT-4o构建包含场景属性与智能体参数的JSON格式环境配置数据集。

本文指出,这些JSON格式配置将在渲染过程中通过转换函数 Ψ C \Psi_C ΨC(6节)精准转换为引擎原生属性。配置分为两类:

  • 上下文无关配置:随机采样结果,适用于数据集中所有场景类型,包括场景属性(如时间)与智能体参数(如类型)。针对这类配置,本文采用系统化随机采样策略,在保留真实分布的同时,最大化覆盖属性空间。
  • 上下文相关配置:需要常识推理的配置。本文利用GPT-4o的固有推理能力,通过结构化提示融合已采样配置、高度图与布局描述,完成上下文分析以推断剩余配置。
  1. GPT-4o生成描述:本文采用基于规则的提示方法,融合生成的上下文无关/相关配置、高度图与布局描述,引导GPT-4o推理并生成完整文本描述。

未来工作将丰富数据集的描述类型,使模型支持更广泛的描述风格(包括更口语化、对话式的语言)。

这段话核心是:专门给环境配置模型 L L M C LLM_C LLMC 制作配套训练数据集,仿照虚幻引擎工业制作逻辑,造出「自然语言指令 ↔ 场景+智能体结构化参数」的数据样本,让模型学会看懂文字、输出合规可渲染的环境配置。

整体分为三大制作步骤,还把配置分成两类差异化生成,保证数据丰富又符合现实常识。


步骤1:生成地形布局的文字基础描述

  1. 依托已有的布局图像、地形高度图两类视觉素材
  2. 调用GPT-4o,把画面里的空间结构、地势起伏、地貌分布写成完整文字
  3. 作用 把视觉画面转换成统一文本信息,作为后续生成配置、生成用户指令的参考基底,相当于给每一个场景建立文字档案。

举例: “整体为山地地形,中部地势高耸形成山脊,两侧地势低洼,右下角存在连片水域,四周遍布林地”


步骤2:分两类逻辑,生成JSON格式环境配置 y C y_C yC JSON就是机器能读懂的结构化参数表,包含天气、季节、植被材质、智能体数量位置等,后续会通过转换函数 Ψ C \Psi_C ΨC

翻译成虚幻引擎可直接使用的属性参数。

① 上下文无关配置

  • 含义:不受地形、布局限制,全场景通用的基础参数
  • 生成方式:系统随机采样,贴合真实场景参数分布
  • 常见内容:一天中的时间、艺术风格、智能体种类
  • 目的:最大化覆盖各类参数组合,避免模型生成样式单一

例子:随机抽取清晨/傍晚、人形机器人/野兽类智能体

② 上下文相关配置

  • 含义:必须贴合地形地貌、空间常识,不能随意设定
  • 生成方式:GPT-4o结合已有采样参数、地形布局文字做常识推理
  • 常见内容:积雪材质只分配给高山、水生生物只放在水域、建筑修在平缓地面
  • 目的:杜绝违背现实逻辑的怪异场景,保证生成合理性

例子:识别出大片水域后,自动配置鱼类、游船智能体


步骤3:反向生成自然语言指令 x C x_C xC 拿着上一步做好的全套JSON配置,再结合地形布局描述,让GPT-4o反向写出人类日常表述的场景指令。

至此就凑齐模型训练需要的数据对:
输入文本指令 x C x_C xC ↔ 标准答案JSON配置 y C y_C yC 模型训练就是学习从文字描述映射到对应环境参数。

举例: 配置里设定「冬季雪山、1只机器狗巡逻」,对应生成指令:冬日雪山场景,安排一只机器狗在区域内巡逻


两类配置设计的意义对比

在这里插入图片描述



整条数据链路总结

在这里插入图片描述

8 实验

本节将基于本框架展示生成流程,并通过对比实验评估方法性能。

8.1 实现细节

实验中,本文将数据集划分为训练集与测试集,在以下配置下训练上述模型:

  1. 基于文本输入的固定高度布局生成:采用AdamW优化器[32]( α = 5 × 10 − 5 \alpha=5×10^{-5} α=5×105 β 1 = 0.9 \beta_1=0.9 β1=0.9 β 2 = 0.999 \beta_2=0.999 β2=0.999 λ = 0.001 \lambda=0.001 λ=0.001)对LLaMA-2-7B微调4轮,批次大小32;
  2. 基于多模态输入的可变高度布局生成:采用4.4节提出的三阶段训练方案——CLIP微调(10轮)、视觉-语言特征对齐(12轮, α = 5 × 10 − 4 \alpha=5×10^{-4} α=5×104)、冻结CLIP参数的端到端微调(4轮, α = 5 × 10 − 5 \alpha=5×10^{-5} α=5×105 β 1 = 0.9 \beta_1=0.9 β1=0.9 β 2 = 0.999 \beta_2=0.999 β2=0.999 λ = 0.001 \lambda=0.001 λ=0.001);
  3. 环境配置生成:对LLaMA-2-7B微调5轮,批次大小64。

所有实验均在NVIDIA A100显卡上运行,模型基于7节整理的布局数据集与环境配置数据集训练。本文指出,所有实验的输入均已包含4、5节所述提示词,结果中仅突出用户指令。

8.2 实验结果

LatticeWorld环境生成效果

本文评估LatticeWorld的文本转布局生成能力,并与其他方案对比。实验在两种条件下开展(如表3所示):

  1. 固定高度条件:仅使用文本描述完成布局生成;
  2. 可变高度条件:融入高度图、草图等视觉信号完成布局生成。

本文使用相同提示词与指令,将LatticeWorld与GPT-4o、Claude 3.7 Sonnet[2]、DeepSeek-R1[8]、Qwen2-VL-Max[62]对比。为辅助其他模型理解高度图,可变高度条件实验中为图像输入添加描述,说明高度信息对场景的影响。结果中,32×32符号矩阵转换为RGB图像用于可视化。实验证明,LatticeWorld在处理多模态输入、生成高精度布局方面效果更优,两种条件下均表现突出。

LatticeWorld通过简洁的32×32符号矩阵编码空间关系。如表4所示,本文评估文本+视觉输入的场景生成效果。受最新工业工作流启发,所有布局均在虚幻引擎5中渲染,保持天气与时间参数不变,仅改变地形。

此外,本文通过实验验证LatticeWorld的场景属性生成能力(如表5所示),采用固定布局与多样化环境配置,输入不同指令。本方法支持生成丰富多样的自然环境,可调节场景属性(如天气、光照),并实现真实物理特性仿真。
在这里插入图片描述

表3:LoveDA与Wild数据集上的布局生成能力对比

在这里插入图片描述

表4:不同多模态布局指令下的生成场景展示

在这里插入图片描述

表5:不同环境配置指令下的生成场景

含交互智能体的动态环境

如表6所示,基于LatticeWorld可搭建多智能体交互环境。实验证明,本框架同样支持智能体参数(如智能体类型、数量)的有效配置。这些智能体具备环境感知能力,可基于预定义规则执行自主对抗行为——当主角智能体进入指定范围时,自动追击并攻击主角。本框架未来可实现更复杂的智能体交互行为策略。上述特性使本框架具备成为具身智能体训练平台的潜力。
在这里插入图片描述

表6:含动态智能体的环境生成展示

与现有工作对比

由于LatticeWorld采用基于平台的范式,本文仅在场景生成任务上与现有基于平台的方法对比(现有方法普遍不支持动态交互智能体)。如表7、表8所示,本文采用现有工作公开的演示结果进行定性对比,证明LatticeWorld生成质量更优。受方法与数据集差异影响,仅选取相似场景对比。本文指出,LatticeWorld生成大规模三维场景,仅截取部分场景细节展示。
在这里插入图片描述

表7:荒野场景下生成三维场景的定性对比
在这里插入图片描述

表8:郊区场景下生成三维场景的定性对比

与工业手动方法对比

工业界动态环境的标准制作流程结合过程化内容生成与人工美术创作,分为三大阶段:

  1. 概念设计阶段(草图绘制与优化);
  2. 建模阶段(高度图、三维资源、UV映射);
  3. 场景编辑阶段(布局、光照、材质)。

本文使用相同布局与参数指令,对比专业美术人员与LatticeWorld创建的环境,选取包含树木与建筑的相似场景对比,结果如表9所示。工作量对比(表10)表明,尽管LatticeWorld使用预完成的草图、建模、纹理资源,但在其他步骤中效率显著提升。具体而言,LatticeWorld将总制作时间从55天(手动)缩短至0.6天以内,效率提升90倍以上。生成多个环境时,预完成成本被分摊,该优势将进一步扩大。
在这里插入图片描述

表9:LatticeWorld与人工美术生成三维场景的定性对比
在这里插入图片描述

表10:LatticeWorld与美术人员工作量对比(单位:天)

9 结论

本文提出LatticeWorld——一款基于大语言模型的多模态交互式虚拟世界生成框架。LatticeWorld将轻量级大语言模型与工业级渲染引擎(如虚幻引擎5)相结合,基于多模态指令生成动态环境。未来可从以下方向进一步优化LatticeWorld:

  1. 当前对抗智能体遵循简单策略:主角智能体靠近时发起攻击。未来可实现更多样化的策略,创造丰富的对抗行为;
  2. 当前框架仅支持控制单个主角,未来可拓展为控制多个主角;目前主角智能体通过输入设备控制,借助现有虚幻引擎插件可拓展支持AI算法策略控制;
  3. 暂不支持独立控制主角智能体的身体部位,未来可通过更精细的建模实现特定部位的细粒度控制;
  4. 未来计划扩充资源库,增加更多物体与交互元素,生成更丰富的虚拟世界。

思考

方法首先以LoveDA、Wild遥感影像、高程数据以及手绘草图作为原始基础素材,自主构建适配框架的多模态数据集,先通过语义分割、草图转译处理,分别得到表征空间地貌的32×32符号布局矩阵与反映地形起伏的高度图;再依托GPT-4o完成图文标注,生成场景布局、地形高程对应的文本描述,同时结合随机采样生成上下文无关通用场景参数,利用大模型常识推理推导贴合地形地貌的上下文相关参数,组合形成JSON格式环境配置标签,并反向匹配生成自然语言指令,以此组建布局生成、地形图文匹配、环境配置三类成对训练数据。
在此基础上开展分阶段模型训练,先对CLIP模型进行微调,使其能够精准提取地形细粒度高度特征;再基于LLaMA-2-7B基座分别训练布局生成模型 L L M L LLM_L LLML与环境配置模型 L L M C LLM_C LLMC,布局模型历经固定高度文本指令训练、视觉语言特征对齐、冻结视觉编码器的多模态端到端微调三个阶段,学习文本与高度图信息到布局符号序列的映射关系,环境配置模型则学习自然语言指令向植被材质、建筑排布规则、智能体状态数量等结构化参数的转换逻辑。
模型训练完成后,接收用户输入的场景指令,双模型分别输出预测布局符号矩阵与环境配置参数,随后经由 Ψ L \Psi_L ΨL Ψ C \Psi_C ΨC两类转换函数完成数据解码,将符号矩阵转化为经过缩放、边缘平滑处理的场景区域掩码,把结构化配置解析为渲染引擎可识别的各项原生属性;最终虚幻引擎整合地形高度、区域分布掩码与环境配置信息,批量生成场景静态资产,合理排布建筑模型并搭载动态行为逻辑,初始化可自主交互的智能体,渲染生成视觉效果真实、支持实时操控与多智能体动态对抗的交互式三维虚拟场景。

Logo

更多推荐