SUNNY_SHUN 个人主页

@SUNNY_SHUN

SUNNY_SHUN

2024-04-16 21:22:05 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LiveKit Agents：基于WebRTC的实时语音视频AI Agent框架（9.9k Star）

LiveKit Agents是一个开源Python框架（GitHub 9.9k stars），让AI Agent能以WebRTC参与者身份加入实时音视频会话。该框架解决了语音AI的核心挑战：实时音频流处理、智能打断检测、语义轮次判断和多Agent协作。其特点包括：1）基于transformer的语义轮次检测（替代传统静音阈值）；2）自适应打断处理（86%精确率）；3）支持64个插件集成主流AI服务

#webrtc #人工智能 #github

IEEE IoT-J | CoDrone：Depth Anything V2+VLM云边端协同，无人机自主导航飞行距离+40%

中山大学团队提出CoDrone框架，通过端-边-云协同实现无人机自主导航优化。系统采用三层架构：端侧基于灰度图轻量导航（减少66%输入通道），边缘通过DepthAnythingV2进行深度估计并压缩为一维占用栅格，云端Qwen-VL-Max通过函数调用机制直接输出控制指令。核心创新包括：1）仅需1万FLOPs的DRL神经调度器动态协调三层资源；2）DEGAGE算法将深度图转换为可行驶区域分类；3）

#物联网 #无人机

国产小龙虾方案实战：nanobot + 通义千问，钉钉上随时派活

本文介绍了一个基于国产AI技术的轻量级智能助手方案，整合了nanobot框架、通义千问大模型和钉钉机器人。该方案通过4000行代码的nanobot框架实现消息接收、工具调用和技能管理，利用通义千问Qwen3.5Plus进行智能推理，并支持联网搜索功能。系统配置了9个自定义技能，涵盖文档处理、数据分析、代码审查等日常工作场景，用户可直接在钉钉上对话并派发任务。部署过程简单，只需安装nanobot、配

#人工智能 #语言模型 #github +1

国产小龙虾方案实战：nanobot + 通义千问，钉钉上随时派活

#人工智能 #语言模型 #github +1

Pipecat：构建实时语音 AI Agent 的开源编排框架，500ms 级端到端延迟

Pipecat是一个开源Python框架，专注于解决语音AI落地的工程编排问题。它将ASR、LLM、TTS等AI服务通过管线(Pipeline)方式连接，实现端到端延迟500-800ms的实时对话系统。框架支持18+语音识别服务、18+大语言模型和24+语音合成服务，并提供多模态交互能力。Pipecat还包含客户端SDK、开发工具和结构化对话模块，适用于语音助手、客服系统等多种场景。虽然依赖外部A

#人工智能 #开源 #语音识别 +3

浙大团队提出PowerGPT：面向电力巡检的多模态基础模型，构建20万张图像数据集与专用评估基准

浙江大学团队提出PowerGPT，一个面向电力巡检的多模态基础模型，通过统一架构解决传统任务碎片化问题。研究构建了包含20万图像、80万指令对的PSID数据集和覆盖70个场景的PowerBENCH评估基准。PowerGPT融合自适应视觉提示和知识检索增强技术，在5项任务中全面领先通用模型，其中GroundedCaption得分达9.6（LLaVA仅5.0）。消融实验显示，仅领域数据微调就带来平均1

#算法 #人工智能 #开源 +3

YOLO26：实现目标检测进入端到端时代

YOLO26实现端到端目标检测，彻底移除NMS后处理摘要：Ultralytics发布的YOLO26标志着目标检测技术的重大突破，首次完全移除了NMS（非极大值抑制）后处理步骤。通过三项关键创新——One-to-One检测头、MuSGD优化器和STAL+ProgLoss训练策略，该模型实现了原生端到端推理，CPU推理速度提升43%。YOLO26不仅简化了部署流程，还支持检测、分割、分类等多任务统一

#目标检测 #人工智能 #计算机视觉

3人干16人的活：Meta首次公开内部自主ML工程Agent架构——REA全拆解

Meta REA（Ranking Engineer Agent）是Meta推出的自主AI Agent系统，用于加速广告排序模型迭代。该系统采用Planner+Executor双组件架构：Planner负责实验规划并与工程师协作制定方案，Executor负责执行、监控和迭代。核心创新是Hibernate-and-Wake机制，使Agent能在训练任务运行数小时甚至数天后自动恢复继续工作，突破传统会话

#架构 #开源 #人工智能

3人干16人的活：Meta首次公开内部自主ML工程Agent架构——REA全拆解

#架构 #开源 #人工智能

MedOpenClaw：给GPT-5.4更多工具反而变差，TUM+牛津+帝国理工揭开工具使用悖论

摘要：八所顶尖机构联合研究发现，AI模型在医学影像诊断中存在"工具使用悖论"——当GPT-5.4接入专业分割工具后，BrainMRI和LungCT/PET的诊断准确率反而下降。研究团队构建了MedOpenClaw运行时和MedFlowBench评估体系，首次让AI像放射科医生一样操作3DSlicer进行完整影像检查。核心发现表明，当前视觉语言模型缺乏毫米级空间定位精度，错误的分

#人工智能 #github #开源

共 33 条

请选择