logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR2025 两篇关于3D重建的paper:VGGT&Difix3D+

相比去年(11532),今年的投稿数量增长了 13%,最终有 2872 篇论文被接收,整体接收率约为 22.1%。在接收论文中,Oral 的数量是 96(3.3%),Highlights 的数量是 387(13.7%)。图像与视频生成领域今年度的论文接收数量最多,而接收率最高的领域则是基于多视角和传感器的 3D 以及基于单图像的 3D。这篇paper相当于打通了高质量3D合成的最后一公里,平时在使

#3d
微软面向未来的制造 | 罗技 AI | 谷歌1000 亿美元|波士顿动力Atlas | 灵感源自大脑...

面向未来的制造:微软发布从云端到工厂车间的全新工业人工智能创新技术在全球最大的制造业创新盛会之一汉诺威工业博览会(Hannover Messe)召开之前,微软宣布将为制造商提供新的人工智能和数据解决方案,帮助他们开启创新、实现智能工厂、优化运营和提高员工生产力。在过去十年中,制造业一直保持着令人难以置信的韧性,新人工智能解决方案的注入标志着这一重要行业的关键转型。罗技发布 AI 提示生成器软件及配

#人工智能#microsoft#制造
<span class=“js_title_inner“>当我和AI从意识自由聊到“它”(四)</span>

同理,高维存在只需要给我们的感官输入「可见光、可听声、有限的触觉 / 味觉信号」,这些信号是「稳定的、一致的、可重复的」—— 比如苹果永远是红的、甜的,石头永远是硬的、冷的,太阳永远东升西落,重力永远向下,这些「稳定的规律」,就足以让我们的大脑认为「这是真实的现实」。同理,如果我们的宇宙是「高维模拟」,那么量子的「叠加态」,就是「未渲染的代码」,量子的「坍缩」,就是「被观测时的实时渲染」—— 高维

#人工智能
利用预训练模型的先验知识实现图像超分辨率的新途径——StableSR

随着扩散模型在图像生成任务中的长足发展,研究人员开始尝试将其应用于下游任务中。其中图像超分辨率是一个值得探索的方向。近期工作StableSR提供了一种新方法,即在不需从头训练的情况下,有效利用预训练文本到图像模型Stable Diffusion所含的强大生成先验知识,来实现图像的超分辨率。 StableSR的关键创新在于提出了时间感知编码器。它通过时间嵌入层生...

#人工智能#计算机视觉#深度学习 +2
压阻式压力传感器

“压力传感器是将压力转换为电信号输出的传感器。压力传感器一般由弹性敏感元件和位移敏感元件(或应变计)组成。弹性敏感元件的作用是使被测压力作用于某个面积上并转换为位移或应变,然后由位移敏感...

#算法#嵌入式
只需 1 分钟|拥有本地运行的大型模型|调用大模型的浏览器插件

LLM也火了很久了,各种开源闭源的大模型也是层出不穷,头部玩家当属ChatGPT,但是也是各种收费以及被墙,甚至连API也被封禁了,于是国内玩家也不得不转战于各种各样的国内免费模型,比如Qwen2,但是免费的功能毕竟有限,很多功能也只能试用。所以在本地运行大模型就很有必要了。说起来简单,做起来却并没那么容易,这么多的开源大模型,如果给每一个大模型都构建一个运行环境,那太复杂了,对普通玩家也不友好,

ROS2 Jazzy系列入门教程(四)—— TF

simple_robot/odom → child_frame_id: simple_robot/base_link 的变换信息已发布。此次教程我们使用第二章的simple_robot.sdf进行仿真,打开终端,启动Ubuntu,然后启动仿真。string child_frame_id : 子帧名称(例如 camera_link)然后根据frame_id配置Fixed Frame为simple_r

Veo3——AI视频的“声画同步”时代

作为首个支持音画同步生成的模型 ,它不仅能合成高清画面,还能为鸟鸣、街头交通等场景自动生成逼真背景音效,甚至能为角色添加对白,让视频瞬间“活”起来更令人惊叹的是,Veo 3在物理模拟 和口型同步上的精准表现:人物说话时的口型与音频完美匹配,动作与环境互动自然流畅,堪称“细节控的福音”。这一发布不仅让AI视频生成告别了“默片时代”,更直接对标OpenAI的Sora,将行业竞争推向新高潮,从“无声”到

#人工智能
Veo3真的是视频生成的GPT-3时刻?

10月1日,Google DeepMind发布了一篇关于Veo3评测的论文,结论表明,Veo3视频模型具备显著的零样本学习与推理能力,且可以解决62个定性任务和7个定量任务(涵盖感知、建模、操纵、推理四大视觉层级,如边缘监测、物理属性建模、图像编辑、迷宫求解),并提出“帧链(CoF)”视觉推理概念(类似于LLM的“CoT”);见证了自然语言处理(NLP)近期从特定任务模型向通用模型的转变,所以有理

#gpt-3
Unsloth微调1.5B模型function call的能力

与这些系统交互通常通过单行命令完成,或者对于更复杂的任务,使用可运行的脚本语言,如 Bash 或 Python。您可能会注意到,我们传递给tool参数的是实际函数get_vector_sum(),而不是get_tool_definition_list()。大语言模型在解决通用问题的领域上表现都相当不错,但是在特定领域上往往会产生幻觉,比如在没有联网的状态下,询问大模型天气情况,有时候大模型会一本正

    共 22 条
  • 1
  • 2
  • 3
  • 请选择