
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DOV-SG 建了动态 3D 场景图,并使用LLM大型语言模型进行任务分解,从而能够在交互式探索过程中对 3D 场景图进行局部更新。来自RA-L 2025,适合长时间的 语言引导移动操作,动态开放词汇 3D 场景图。

本文详细介绍了如何在不同电脑间复制Ollama大模型权重文件的方法。主要内容包括:1)通过find命令定位Ollama模型存储路径(通常位于/usr/share/ollama/.ollama/models/);2)解析模型清单文件获取权重文件的哈希值;3)在blobs目录中匹配对应文件并验证大小;4)使用rsync命令批量拷贝权重文件到目标位置。文章以qwen2.5vl和llama4等模型为例,展

CogNav框架创新性地通过VLM和LLM协同解决具身AI中的目标物体导航难题。该框架构建包含场景图、地标图和占用图的异质认知地图,动态整合语义与空间信息。核心创新在于:1)用VLM实现多模态环境表征;2)通过LLM模拟人类五阶段认知过程(广泛搜索→目标确认);3)实现零样本、开放词汇的导航能力。实验表明,相比传统方法,CogNav在HM3D等数据集上成功率显著提升,且支持跨场景泛化。该工作为具身

本文介绍了如何使用BitsAndBytes库对Qwen3-VL多模态模型进行量化部署。BitsAndBytes是一个轻量级PyTorch库,支持8/4位量化技术,能将模型显存占用降低90%以上。文章详细讲解了从环境搭建到模型量化、再到实际推理的全流程,包括: 在NVIDIA Orin上安装CUDA驱动和PyTorch环境 使用LLaMA-Factory进行LoRA微调 合并基础模型和LoRA适配器

本文分享在自己的本地电脑部署 DeepSeek,而且轻松简易,快速上手。这里借助Ollama工具,在Windows系统中进行大模型部署~ 本文的成功部署了DeepSeek-R1的1.5b、8b、14b、32b等版本

UniScene是CVPR2025提出的自动驾驶场景统一生成框架,可同时生成语义占据、多视角视频和LiDAR点云三种核心数据。其创新性在于: 采用"以占据为中心的分层生成"策略,首先生成3D语义占据作为中间表示,再转换为其他模态数据; 通过OccupancyVAE和OccupancyDiT实现高质量语义占据生成,支持BEV布局编辑控制场景; 视频生成支路利用3D语义占据提供几何

本文分享在自己的本地电脑部署 DeepSeek,而且轻松简易,快速上手。借助Ollama工具,在Windows系统中进行大模型部署~

本文介绍了在Jetson Orin系列(ARM64架构)设备上配置GPU加速Docker容器的完整流程。主要内容包括:1)系统准备(Ubuntu 20.04/22.04);2)Docker安装与配置(ARM64版本);3)NVIDIA Container Toolkit安装(实现GPU加速);4)验证方法(包括GPU可用性检查);5)常用Docker命令及注意事项(必须使用--gpus all参数

本文介绍了在Jetson Orin系列(ARM64架构)设备上配置GPU加速Docker容器的完整流程。主要内容包括:1)系统准备(Ubuntu 20.04/22.04);2)Docker安装与配置(ARM64版本);3)NVIDIA Container Toolkit安装(实现GPU加速);4)验证方法(包括GPU可用性检查);5)常用Docker命令及注意事项(必须使用--gpus all参数

LLaMAFactory是一个大模型高效微调平台,提供一站式可视化操作界面,支持多种模型(如LLaMA、Qwen、Gemma等)和微调方法(预训练、指令监督微调等)。平台支持多种精度和先进算法,并集成实验监控工具。安装简单,可通过Conda环境快速部署。用户可自定义数据集进行微调,适用于多轮对话、图像理解等任务。平台还提供丰富的入门教程和文档,适合不同水平的开发者使用。








