logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【三维重建】TrackerSplat:基于点追踪的快速鲁棒动态3DGS重建

本文提出TrackerSplat方法,通过整合点追踪技术优化动态3D高斯场景重建。针对传统方法在快速运动时出现的伪影问题,该方法利用点追踪模型提取像素轨迹并三角化到3D高斯基元,指导其位移、旋转和缩放参数的优化。关键技术包括:1)基于点追踪的初始运动估计;2)并行加权增量最小二乘法(PWI-LS)求解高斯变换;3)多视角观测下的运动补偿。实验表明,该方法在保持实时渲染速度的同时,显著提升了大幅位移

文章图片
#safari#人工智能#AIGC
【光流跟踪】MegaFlow:零样本大位移光流算法

摘要: MegaFlow提出了一种零样本大位移光流估计方法,通过结合预训练视觉Transformer的全局匹配能力和轻量级局部优化模块,解决了传统方法在大位移和跨域泛化中的局限性。该框架将光流估计转化为全局相关性计算问题,利用DINOv2特征构建全对全匹配,并通过循环细化提升精度。实验表明,MegaFlow在Sintel、KITTI等基准上实现了零样本SOTA性能,且可无缝扩展至长序列点追踪任务。

文章图片
#人工智能#深度学习
【世界模型】WorldWarp:异步视频扩散的3D重建

摘要 《WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion》提出了一种创新方法来解决长视频生成中的几何一致性问题。该方法通过3D高斯泼溅(3DGS)构建在线几何缓存,将历史内容显式变形为新视角作为结构支架。针对静态变形导致的遮挡问题,设计了时空扩散模型(ST-Diff),其核心创新是时空变化的噪声调度机制:空白区

文章图片
#3d#AIGC
【视频生成】HY-World 1.5:实时延迟和几何一致的交互式世界模型系统(腾讯混元)

HY-World 1.5:实时交互式世界建模系统框架 腾讯推出的HY-World 1.5突破了传统3D世界建模的局限性,通过创新的WorldPlay流式视频扩散模型,实现了24FPS的实时交互式世界生成。该系统具备四大核心技术: 1)双动作表征融合离散与连续控制信号; 2)重构上下文记忆机制保持长期几何一致性; 3)WorldCompass强化学习框架提升动作跟随能力; 4)上下文强制蒸馏技术平衡

文章图片
#transformer#深度学习#人工智能 +2
【Backbone】TransNeXt:最新ViT模型(原理+常用神经网络汇总)

基于生物模仿视杆细胞视觉设计的Token混合器聚合注意力和一种具有门控通道注意力的通道混合器卷积GLU。作者将它们结合起来,提出一种强大的高度鲁棒的视觉模型TransNeXt,它在各种视觉任务如分类、检测和分割等方面都实现了最先进的性能。TransNeXt在多尺度推理的出色性能突显了它在解决深度衰减问题方面优于大型核策略的优势。此外,作者还提供了一个CUDA实现,在训练中实现了高达103.4%的加

文章图片
#神经网络#人工智能#深度学习
【世界模型】混元2.0(腾讯)

文章摘要: 本文介绍了一个创新的3D场景生成系统,具有四大核心功能:1)通过文本或图像一键生成360度全景空间(HY-Pano 2.0),采用无相机元数据的隐式学习方案;2)智能轨迹规划(WorldNav)实现场景探索,支持五种专业级导航模式;3)世界扩展技术(HY-WorldStereo 2.0)生成高质量新视角视频,结合几何感知记忆机制保持一致性;4)支持生成可编辑的3D场景和交互式游戏环境。

文章图片
#safari#人工智能#AIGC
【API部署】fastapi与nuitka打包py项目

功能:作为一名算法工程师,训练机器学习模型只是为客户提供解决方案的一部分。 除了生成和清理数据、选择和调整算法之外,还需交付和部署结果,以便在生产中使用实现python或基于虚拟环境的pytorch项目,在终端部署。即py文件最终变成exe,可脱离python环境,在任意终端运行。Requests建立在世界上下载量最大的Python库urllib3上,它令Web请求变得非常简单,功能强大且用途广泛

文章图片
#fastapi#python#深度学习
【三维重建】LagerNVS:神经场的实时新视图几何合成(CVPR 2026)

牛津大学与Meta AI联合提出LagerNVS框架,实现实时神经新视角合成。该框架采用编码-解码两阶段设计:编码器基于VGGT模型提取3D感知特征,避免显式几何重建;解码器通过Transformer处理目标相机参数生成新视图。研究提出两种注意力变体以平衡质量与效率,并通过混合13个多视角数据集进行端到端训练。实验表明,该方法在保持实时性能(24fps)的同时,合成质量优于传统技术。关键创新在于隐

文章图片
#3d#AIGC
【图像编辑】LightMover:支持颜色与强度控制的生成式光运动系统(CVPR 2026)

LightMover:基于视频扩散模型的光照精准编辑方法 摘要:LightMover提出了一种创新的图像编辑方法,通过将静态图像编辑任务转化为伪视频生成任务,利用视频扩散模型的时空建模能力实现精准的光照控制。该方法采用多信号位置编码(MSPE)技术,将位置信息分解为空间、时间、条件类型和帧角色四个正交子空间,增强模型对输入语义的理解。针对计算效率问题,设计了自适应token修剪策略,包括空间感知剪

文章图片
#AIGC
【世界模型】Captain Safari:位姿对齐3D记忆的世界引擎(CVPR 2026)

本文提出Captain Safari——一种基于位姿条件的三维世界引擎,通过持久化记忆机制实现长距离视频生成。针对现有系统在复杂摄像机运动和户外场景中表现不佳的问题,该方法创新性地采用动态局部记忆窗口与位姿对齐检索策略:仅筛选关键场景特征构建紧凑世界表示,在保证计算效率的同时维持三维一致性。研究团队还发布了OpenSafari数据集,包含高动态无人机拍摄的复杂户外场景视频及验证轨迹。实验表明,该模

文章图片
#safari#人工智能#AIGC
    共 119 条
  • 1
  • 2
  • 3
  • 12
  • 请选择