logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AutoGen学习笔记系列(五)Tutorial -Human-in-the-Loop

这篇文章瞄准的是AutoGen框架官方教程中的Tutorial章节中的官网链接:https://microsoft.github.io/autogen/stable/user-guide/agentchat-user-guide/tutorial/human-in-the-loop.html#;

文章图片
#学习#python#语言模型
MLLM 论文精读(一)ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding

这篇论文是一篇有关图片转3D mesh并理解对象的模型,其最大的创新点在于用了一种新的方法对体素的表达进行压缩,大幅度减少了 token 消耗,仅用 1024 个离散 token 就能表示一个 3D 对象。从生成的表现来看优于目前的 SOTA 并且模型对 3D 对象的理解能力也保留了下来。就是训练对 GPU 的消耗很大,用了 48 块 H100,和其基座模型 Qwen-2.5-vl-7B-Inst

文章图片
#3d#人工智能#机器人 +1
AutoGen学习笔记系列(十二)Advanced - Memory

这篇文章瞄的是AutoGen官方教学文档Advanced章节中的Memory篇章,介绍了如何将外部知识添加进 Team或Agent中以实现RAG功能。

文章图片
#学习#人工智能#python +1
VLN 论文精读(三)Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach

这篇笔记用来描述2025年发表在arxiv上的一篇有关VLN领域的论文,我个人觉得其应用场景比较有意思所以写下这篇读书笔记。该论文由多伦多大学团队发布,其主要研究方向在于使用手绘地图实现机器人在真实环境下的导航。

文章图片
#语言模型#人工智能#自然语言处理
VLA 论文精读(二十七)RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

这篇论文是北大和北京智源研究院(不是上海智元机器人)共同发表的一篇具身大脑的 VLA 论文。智源研究院作为国内在 VLA 领域中科研实力强劲的一个机构,其发表的论文还是相当有技术水平和思想的,值得阅读。

文章图片
#人工智能#机器人#深度学习
全网首发! Nvidia Jetson Thor 128GB DK 刷机与测评(四)常用功能测评 - 目标跟踪系列 DeepSort、Boxmot、ByteTrack等

这篇博客是上一篇博客的续集,所有测试和评测均基于第一篇刷机博客的环境上完成的测试。此篇博客对一些目标跟踪领域优秀的开源项目提供了在 Nvidia Jetson Thor 硬件平台上部署的参考操作。

文章图片
#目标跟踪#人工智能#计算机视觉 +1
VLA 论文精读(三十)MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for

这篇论文是一篇有关 VLA 领域的论文,其创新点在于退出了一个时空感知路由,配合蒸馏的方式动态选择大模型的功能层进行激活,以此来实现推理加速,模型的参数总量并没有减少。

文章图片
#学习#论文阅读#机器人 +1
LLM 论文精读(八)Towards Efficient Generative Large Language Model Serving: A Survey from

这篇论文讲的是 LLM 推理加速的综述,比较全面地讲述了在推理加速领域中从算法到硬件上当前取得的进展以及存在的问题,在文章发表的时候(2023年)多模态大模型还没出现爆炸性增长,单单处理自然语言的话推理加速其实没有那么紧切,但现在(2025年)随着多模态模型的井喷,一张图像输入就可能消耗掉几千几万个 token,推理加速就变得非常重要,这也是很多公司 CTO 和 CIO 的共识。现在再回头看这篇综

文章图片
#语言模型#人工智能#自然语言处理 +1
Nvidia Orin DK 刷机CUDA TensorRT+硬盘扩容+ROS+Realsense+OpenCV+Ollama+Yolo11 一站式解决方案

这个文档用来记录 Nvidia Orin DK Ubuntu 20.04 刷机 + CUDA TensorRT + 硬盘扩容 + ROS 安装 + OpenCV-CUDA + Ollama + Yolo11 一站式解决方案

文章图片
#opencv#人工智能#计算机视觉
LLM 论文精读(十三)DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

这篇论文是 DeepSeek 的 2025 年 09 月《Nature》 封面文章,主要强调的是 LLM 的推理能力可以通过纯强化学习 (RL) 来激励而无需人工标注的推理轨迹。他们提出的强化学习框架促进了高级推理模式的涌现,例如自我反思、验证和动态策略自适应。

文章图片
#人工智能#论文阅读#语言模型
    共 82 条
  • 1
  • 2
  • 3
  • 9
  • 请选择