logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM 文本生成与 ChatTTS 音频生成结合使用

这篇博客用来记录在 Macbook Air M4 设备上使用 ChatTTS 的过程。当然,该博客是我们即将开源的一个项目的前期准备工作,最终项目形态是用本地 Ollama + ChatTTS 生成有音色质感的对话,未来还将封装成一个 Ubuntu 平台下的 ros 功能包并尝试在 Jetson 设备上进行部署。

文章图片
#人工智能
ROS2 Humble 笔记(四)ROS 的最小工作单元-- Node 节点

这篇博客是 B 站《古月·ROS2入门21讲》的第七个视频的图文记录,主要介绍了一个常规 ROS 节点的结构是怎样的、如何配置 python 节点的程序入口、基于 opencv 本地与摄像头画面的识别实现。

文章图片
#机器人
smolagents学习笔记系列(四)Inspecting runs with OpenTelemetry

官网链接:https://huggingface.co/docs/smolagents/v1.9.2/en/tutorials/inspect_runs显然,debug永远都是非常痛苦的一件事,更何况你需要面对的还是类似黑箱机制的LLM模型,为了让你能稍微轻松点,smolagent 提供了一个基于的辅助工具。

文章图片
#学习#python#自然语言处理 +1
AutoGen学习笔记系列(十七)Examples - Literature Review

这篇笔记瞄准的是AutoGen库中Examples章节的示例,实现的功能是对Arxiv文献进行检索。

文章图片
#python#人工智能#学习 +1
smolagents学习笔记系列(九)Examples - Orchestrate a multi-agent system

通常情况下将一个任务拆分成不同部分让多个模块合作完成,这样的框架设计是比较合理的,那么Agent也是一样。章节中的 Orchestrate a multi-agent system。运行结果如下,这个运行耗时可能比较长,因为实际需要按照。文章,主要介绍了如何设计一个多Agent系统。这篇文章锁定官网教程中。

文章图片
#学习#python#语言模型
AutoGen学习笔记系列(十三)Advanced - Logging

这篇文章瞄的是AutoGen官方教学文档Advanced章节中的Logging篇章,介绍了怎样在使用过程中添加日志信息,其实就是使用了python自带的日志库logging。

文章图片
#学习#python#语言模型 +1
VLA 论文精读(六)Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Languag

这篇笔记用来描述 2025年 发表在arxiv上的一篇有关 VLA 领域的论文。其创新点在于将触觉与音频信息融合进模型中,根据作者描述将这两种数据融合后,在他们设置的任务成功率最高能提升20%以上,但并没有去跑过开源大规模数据集bench。

文章图片
#论文阅读#学习
VLA 论文精读(十五)Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic

这篇论文是2024年发表在arxiv上关于3D DP的论文,主要讲了如何将3D点云嵌入到DP模型中,但这里作者对3D点云信息嵌入有一些巧思,没有直接对整个点云进行编码,而是用2D多模态模型先计算注意力区域,然后将这些mask中的点云进行编码,最后再生成机械臂动作。按照作者的描述这样做可以大幅减少有效空间信息缺失;

文章图片
#3d#人工智能#学习 +1
AutoGen学习笔记系列(十五)Examples - Travel Planning

从这篇文章开始我们开启一个新的篇章,即 AutoGen 官方教程中的Examples章节,如果之前将该系列笔记的所有文章都亲手执行过一次,那么这部分对你而言难度不大,甚至平均水平还没有Advanced章节高,所以可以抱着一个比较放松的心态来学习。首先还是对Advancedrun()SwarmListMemoryTutorial这篇笔记瞄准的是Examples章节中的第一个例子。

文章图片
#学习#python#语言模型 +1
VideoLLM 论文精读(一) Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Und

这篇论文是一篇关于 videoLLM 的基准测试报告,作者首先开源了一个 benchmark,然后基于此对来源和商业的共计 23 个 SOTA 模型进行了测试,主要测试目的是考察模型对 真实、安全、鲁棒、隐私、公平 这几个方面的能力。从综合结果来看,由于商业模型用了更丰富的数据集,因此在大盘面上是要由于开源模型的。

文章图片
#人工智能#机器学习#深度学习 +2
    共 107 条
  • 1
  • 2
  • 3
  • 11
  • 请选择