nenchoumi3119 个人主页

@nenchoumi3119

nenchoumi3119

2022-11-24 12:18:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LLM 文本生成与 ChatTTS 音频生成结合使用

这篇博客用来记录在 Macbook Air M4 设备上使用 ChatTTS 的过程。当然，该博客是我们即将开源的一个项目的前期准备工作，最终项目形态是用本地 Ollama + ChatTTS 生成有音色质感的对话，未来还将封装成一个 Ubuntu 平台下的 ros 功能包并尝试在 Jetson 设备上进行部署。

#人工智能

ROS2 Humble 笔记（四）ROS 的最小工作单元-- Node 节点

这篇博客是 B 站《古月·ROS2入门21讲》的第七个视频的图文记录，主要介绍了一个常规 ROS 节点的结构是怎样的、如何配置 python 节点的程序入口、基于 opencv 本地与摄像头画面的识别实现。

#机器人

smolagents学习笔记系列（四）Inspecting runs with OpenTelemetry

官网链接：https://huggingface.co/docs/smolagents/v1.9.2/en/tutorials/inspect_runs显然，debug永远都是非常痛苦的一件事，更何况你需要面对的还是类似黑箱机制的LLM模型，为了让你能稍微轻松点，smolagent 提供了一个基于的辅助工具。

#学习 #python #自然语言处理 +1

AutoGen学习笔记系列（十七）Examples - Literature Review

这篇笔记瞄准的是AutoGen库中Examples章节的示例，实现的功能是对Arxiv文献进行检索。

#python #人工智能 #学习 +1

smolagents学习笔记系列（九）Examples - Orchestrate a multi-agent system

通常情况下将一个任务拆分成不同部分让多个模块合作完成，这样的框架设计是比较合理的，那么Agent也是一样。章节中的 Orchestrate a multi-agent system。运行结果如下，这个运行耗时可能比较长，因为实际需要按照。文章，主要介绍了如何设计一个多Agent系统。这篇文章锁定官网教程中。

#学习 #python #语言模型

AutoGen学习笔记系列（十三）Advanced - Logging

这篇文章瞄的是AutoGen官方教学文档Advanced章节中的Logging篇章，介绍了怎样在使用过程中添加日志信息，其实就是使用了python自带的日志库logging。

#学习 #python #语言模型 +1

VLA 论文精读（六）Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Languag

这篇笔记用来描述 2025年发表在arxiv上的一篇有关 VLA 领域的论文。其创新点在于将触觉与音频信息融合进模型中，根据作者描述将这两种数据融合后，在他们设置的任务成功率最高能提升20%以上，但并没有去跑过开源大规模数据集bench。

#论文阅读 #学习

VLA 论文精读（十五）Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic

这篇论文是2024年发表在arxiv上关于3D DP的论文，主要讲了如何将3D点云嵌入到DP模型中，但这里作者对3D点云信息嵌入有一些巧思，没有直接对整个点云进行编码，而是用2D多模态模型先计算注意力区域，然后将这些mask中的点云进行编码，最后再生成机械臂动作。按照作者的描述这样做可以大幅减少有效空间信息缺失；

#3d #人工智能 #学习 +1

AutoGen学习笔记系列（十五）Examples - Travel Planning

从这篇文章开始我们开启一个新的篇章，即 AutoGen 官方教程中的Examples章节，如果之前将该系列笔记的所有文章都亲手执行过一次，那么这部分对你而言难度不大，甚至平均水平还没有Advanced章节高，所以可以抱着一个比较放松的心态来学习。首先还是对Advancedrun()SwarmListMemoryTutorial这篇笔记瞄准的是Examples章节中的第一个例子。

#学习 #python #语言模型 +1

VideoLLM 论文精读（一） Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Und

这篇论文是一篇关于 videoLLM 的基准测试报告，作者首先开源了一个 benchmark，然后基于此对来源和商业的共计 23 个 SOTA 模型进行了测试，主要测试目的是考察模型对真实、安全、鲁棒、隐私、公平这几个方面的能力。从综合结果来看，由于商业模型用了更丰富的数据集，因此在大盘面上是要由于开源模型的。

#人工智能 #机器学习 #深度学习 +2

共 96 条

请选择