logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态PaliGemma 2(含1代):Google推出的基于SigLIP和Gemma 2的视觉语言模型

PaliGemma 是一个开放的视觉语言模型(VLM),基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型其结合了PaLI视觉语言模型和Gemma语言模型家族的特点。

文章图片
视频生成背后技术的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT、Sora等

真没想到,举例视频生成上一轮的集中爆发才过去三个月,没想OpenAI一出手,该领域又直接变天了自打2.16日OpenAI发布sora以来,不但把同时段Google发布的Gemmi Pro 1.5干没了声音,而且网上各个渠道,大量新闻媒体、自媒体(含公号、微博、博客、视频)做了大量的解读,也引发了圈内外的大量关注,很多人因此认为,视频生成领域自此进入了大规模应用前夕,好比NLP领域中GPT3的发布一

文章图片
#视频生成
一文通透多模态LLaVA系列——Visual Instruction Tuning:组合CLIP ViT和Vicuna

之所以写本文,源于三个方面一方面,我司「七月在线」准备在一个人形项目中,试下英伟达通用人形VLA GR00T N1,而GR00T N1中所用的VLM是他们自家于25年1月发布的Eagle 2

文章图片
HumanoidVerse——CMU发布的用于人形sim2real训练的多模拟器框架(包含agents/envs/config/data):涉及师生网络、PPO、运动追踪

本文解析了ASAP开源代码框架,这是一个专注于人形机器人敏捷运动技能学习的平台。核心内容包括:1) 算法层实现PPO、DAgger等强化学习算法,支持增量学习等创新模块;2) 环境层提供运动控制和任务跟踪等场景;3) 模拟器层对接IsaacGym等多物理引擎。文章详细剖析了PPO训练流程、广义优势估计计算等关键技术实现,并介绍了双策略机制和参考策略加载等创新设计。该框架采用模块化架构,支持从仿真到

文章图片
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦

程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...

文章图片
#机器学习#ChatGPT#DeepSeek
TactileVLA——将触觉作为原生模态引入VLA:触觉参与动作生成,且根据触觉推理出合适的力度大小,以高成功率搞定充电器和USB插拔

摘要: Tactile-VLA是一种融合视觉、语言与触觉的多模态机器人操作框架,通过触觉感知提升接触丰富任务的执行精度。该模型基于π0架构改进,引入触觉编码器和混合力控机制,将语言指令(如"轻柔地")直接映射为物理力目标。通过端到端流匹配训练,模型展现了零样本泛化能力,包括力控指令迁移、物体自适应抓握及基于触觉反馈的自主纠错。实验表明,Tactile-VLA在插拔、装配等需精细

文章图片
2024自动驾驶(多模态)大模型综述:从DriveGPT4、DriveMLM到DriveVLM、DriveMM

​本文主要涉及以下4篇paper的解读(按发表的时间顺序排列)DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language ModelDriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for A

文章图片
#自动驾驶
Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华Prediction with Action详解)

本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这

文章图片
#视频生成
Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

第一种是基础模式(Basic Mode),用户只需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。而达到这样拔群的视频生成效果,并没有依赖复杂的数据集和大规模的模型训练,PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B 大小的模型就达到了上述效果。),引发了开源社

文章图片
GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

本文介绍GraspVLA系统,这是一个利用合成数据训练视觉-语言-动作(VLA)模型的新方法。研究者构建了十亿规模的SynGrasp-1B数据集,包含240类物体的抓取数据,并提出了渐进式动作生成(PAG)机制,将感知任务整合到动作生成的思维链中。该系统在互联网数据和合成数据上联合训练,实现了从仿真到现实的直接迁移,在透明物体抓取等任务上表现优异。实验表明,GraspVLA支持自然语言指令,具有开

文章图片
    共 441 条
  • 1
  • 2
  • 3
  • 45
  • 请选择