logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

迈向高真实感数字人:3D高斯建模与智能交互技术解析|达摩链接

具体来说,用于训练的每一个样本视频都要提取人体信息,并利用同一时刻的多视点视频图像来学习空间信息,确保视角和空间的一致性;在这一领域,团队的第一个工作是动画化高斯建模,核心思想是对单帧人物图像参数化建模,将人物图像投影出正面和背面,用正面和背面的每一个像素定义一个 3D 高斯球,之后通过 3D 高斯球的优化来逼近拍摄的图像。该方法在人头的 3D 模型上优化模型顶点的 3D 高斯球,数字模型学习人头

文章图片
#3d
虚拟角色的 AI 未来:从肖像编辑到三维生成,技术如何重塑数字人生态|达摩链接

人体动画风格迁移在计算机图形和动画领域应用广泛,这里的风格迁移包括了两个步骤,第一步是从内容中分离动画角色的动作风格,第二步是将这种风格迁移到另一个动作上,从而创造出高质量、指定风格的动画内容。对此,团队开发了一种新的分离图像中头发边界的方法,以及男性秃头图像的构建方法,用来生成有发和秃头的训练配对数据。经过对比发现,该方法生成的睫毛蒙版是业内最接近真值的,优于RenderEyelashNet的结

文章图片
#人工智能
面向具身智能:开源 IP 视觉芯片新突破

该框架分为三个步骤,第一步同样是用代理拟合不可微的 ISP,但这里使用了一种更适合 ISP 的,基于 RRDB 的代理模型,可以避免之前使用的模型的降采样带来的性能损失;该模型将图像的合成和分解步骤引入到扩散中,即在推理步骤中,将中间迭代生成的图像分解为 MSCN 和 色调,用最原始的 MSCN 替换中间图像的 MSCN,从而确保图的纹理结构保持不变。通过这套系统的实践发现,自动驾驶场景中过亮的图

文章图片
#人工智能
达摩院开源RynnBrain:首个支持可移动操作的具身大脑基础模型

达摩院发布具身智能大脑基础模型RynnBrain,并一次性开源了包括30B MoE在内的7个全系列模型。RynnBrain首次让机器人拥有时空记忆和空间推理能力,智能水平实现大幅跃升,在16项具身开源评测榜单上刷新纪录(SOTA),超越谷歌Gemini Robotics ER 1.5等行业顶尖模型。

文章图片
#开源
达摩院开源RynnBrain:首个支持可移动操作的具身大脑基础模型

达摩院发布具身智能大脑基础模型RynnBrain,并一次性开源了包括30B MoE在内的7个全系列模型。RynnBrain首次让机器人拥有时空记忆和空间推理能力,智能水平实现大幅跃升,在16项具身开源评测榜单上刷新纪录(SOTA),超越谷歌Gemini Robotics ER 1.5等行业顶尖模型。

文章图片
#开源
达摩院开源RynnBrain:首个支持可移动操作的具身大脑基础模型

达摩院发布具身智能大脑基础模型RynnBrain,并一次性开源了包括30B MoE在内的7个全系列模型。RynnBrain首次让机器人拥有时空记忆和空间推理能力,智能水平实现大幅跃升,在16项具身开源评测榜单上刷新纪录(SOTA),超越谷歌Gemini Robotics ER 1.5等行业顶尖模型。

文章图片
#开源
达摩院 ICLR‘25 Spotlight | 细粒度视觉模型如何提升医疗影像诊断能力?

此外,即使在某些情况下医师报告了具体的病变位置,在其他病人的特定细粒度解剖部位(比如肺部右中叶)发生异常病变的可能性也相当低,导致这些具体的解剖结构的正常样本和异常样本的数量存在压倒性的不平衡。但这种全局对比方法本质上是粗粒度的,忽略了图像上的局部解剖区域和报告中对应的文本段落之间的关系。匹配具体的 CT 图像位置与诊断报告文本之间的关系时,面临的一个主要挑战是报告对身体器官描述的模糊性。具体来说

文章图片
#人工智能
LangEngine硬核开源!24小时极限复刻OpenManus

Langengine-Openmanus初步具备了通过大模型规划和执行步骤的能力,能够针对浏览器进行 UI 操作,并可本地执行 Python 命令。本文分享的目的是希望大家能够通过这一框架快速学习和理解其原理。开源生态为Agent技术的快速发展提供了核心动力。从算法模型到工程框架,全球开发者的开放共享使前沿创新得以快速落地验证。但技术原型与成熟产品之间存在真实壁垒:代码复现可以“快”,而构建稳定、

文章图片
#开源
ICLR‘25 Spotlight | 用户能否通过提示来识别带有水印的大型语言模型?

文本水印技术在检测大型语言模型(LLM)输出以及防止其滥用方面取得了显著进展。当前的水印技术具有高可检测性、对文本质量影响小以及对文本编辑具有鲁棒性等特点。然而,目前的研究缺乏对 LLM 服务中水印技术不可感知性的探讨。因为 LLM 提供商可能不希望在现实场景中透露水印的存在,这可能会降低用户使用服务的意愿,并使水印更容易受到攻击。本研究调查了水印 LLM 的不可感知性。我们设计了一种名为 Wat

文章图片
#语言模型#人工智能#自然语言处理
ICLR‘25 Spotlight|ReDeEP: 针对 RAG 场景的幻觉检测与缓解

Retrieval-Augmented Generation (RAG) 模型通过结合外部知识以减少幻觉问题,但即使检索到准确的上下文,RAG 模型仍可能在生成过程中产生与检索信息相冲突的“幻觉”输出。

文章图片
#人工智能
    共 136 条
  • 1
  • 2
  • 3
  • 14
  • 请选择