logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star

语音AI推理部署框架sherpa-onnx发布1.12.29版本,支持12项语音功能和多平台部署。该框架由next-genKaldi团队开发,可将Whisper、Moonshine等主流语音模型统一转换为ONNX格式,实现跨平台离线运行。支持12种编程语言和多种硬件架构,包括移动端、嵌入式设备和浏览器环境,并提供NPU加速支持。最新版本新增Supertonic2TTS模型,持续完善多语言绑定和模型

文章图片
#github#人工智能
YOLO26:实现目标检测进入端到端时代

YOLO26实现端到端目标检测,彻底移除NMS后处理 摘要:Ultralytics发布的YOLO26标志着目标检测技术的重大突破,首次完全移除了NMS(非极大值抑制)后处理步骤。通过三项关键创新——One-to-One检测头、MuSGD优化器和STAL+ProgLoss训练策略,该模型实现了原生端到端推理,CPU推理速度提升43%。YOLO26不仅简化了部署流程,还支持检测、分割、分类等多任务统一

文章图片
#目标检测#人工智能#计算机视觉
3人干16人的活:Meta首次公开内部自主ML工程Agent架构——REA全拆解

Meta REA(Ranking Engineer Agent)是Meta推出的自主AI Agent系统,用于加速广告排序模型迭代。该系统采用Planner+Executor双组件架构:Planner负责实验规划并与工程师协作制定方案,Executor负责执行、监控和迭代。核心创新是Hibernate-and-Wake机制,使Agent能在训练任务运行数小时甚至数天后自动恢复继续工作,突破传统会话

文章图片
#架构#开源#人工智能
3人干16人的活:Meta首次公开内部自主ML工程Agent架构——REA全拆解

Meta REA(Ranking Engineer Agent)是Meta推出的自主AI Agent系统,用于加速广告排序模型迭代。该系统采用Planner+Executor双组件架构:Planner负责实验规划并与工程师协作制定方案,Executor负责执行、监控和迭代。核心创新是Hibernate-and-Wake机制,使Agent能在训练任务运行数小时甚至数天后自动恢复继续工作,突破传统会话

文章图片
#架构#开源#人工智能
MedOpenClaw:给GPT-5.4更多工具反而变差,TUM+牛津+帝国理工揭开工具使用悖论

摘要:八所顶尖机构联合研究发现,AI模型在医学影像诊断中存在"工具使用悖论"——当GPT-5.4接入专业分割工具后,BrainMRI和LungCT/PET的诊断准确率反而下降。研究团队构建了MedOpenClaw运行时和MedFlowBench评估体系,首次让AI像放射科医生一样操作3DSlicer进行完整影像检查。核心发现表明,当前视觉语言模型缺乏毫米级空间定位精度,错误的分

文章图片
#人工智能#github#开源
不用真缺陷图也能训练:MIRAGE用VLM全自动生成工业异常样本,13000+图像对开源

帕多瓦大学提出MIRAGE方法,通过四阶段全自动流程解决工业异常检测中的样本稀缺问题。该方法利用ChatGPT5生成缺陷描述,Gemini2.5Flash生成异常图像,CLIP进行质量过滤,最后通过双分支融合生成像素级mask。整个过程无需真实异常样本或训练,仅需约3GB显存。实验显示,MIRAGE生成的图像在人类感知评估中接近真实缺陷,用其训练模型在MVTecAD和VisA数据集上取得优异表现。

文章图片
#人工智能#计算机视觉#github +1
CVPR 2026 | SubspaceAD:无训练少样本异常检测,方法极其简洁,适合工业快速部署(附代码)

摘要:埃因霍温理工大学团队提出SubspaceAD,一种无需训练的少样本工业异常检测方法。该方法利用冻结的DINOv2-G提取中间层patch特征,通过PCA拟合正常样本的低维子空间,以重建残差作为异常分数。在1-shot设定下,该方法在MVTec-AD和VisA数据集上分别达到98.0%和93.3%的图像级AUROC,超越现有记忆库和VLM方法。其核心优势在于零训练、模型存储小于1MB、新品类部

文章图片
#人工智能#深度学习#机器学习 +2
VLM走进农田:AgriChat覆盖3000+作物品类,607K农业视觉问答基准开源

农业AI研究取得突破:Khalifa大学团队开发出高效精准的农作物诊断系统 研究团队创新性地提出了V2VK管线技术,通过三阶段自动化流程解决了农业AI领域长期存在的数据瓶颈问题。该方法能够自动生成经过科学验证的农业视觉问答数据,最终构建了包含121,425张图像、607,125条问答对的AgriMM基准数据集,覆盖3,099个农业类别。 基于这一数据集开发的AgriChat模型展现出卓越性能:在核

文章图片
#算法#人工智能#开源 +1
LiveKit Agents:基于WebRTC的实时语音视频AI Agent框架(9.9k Star)

LiveKit Agents是一个开源Python框架(GitHub 9.9k stars),让AI Agent能以WebRTC参与者身份加入实时音视频会话。该框架解决了语音AI的核心挑战:实时音频流处理、智能打断检测、语义轮次判断和多Agent协作。其特点包括:1)基于transformer的语义轮次检测(替代传统静音阈值);2)自适应打断处理(86%精确率);3)支持64个插件集成主流AI服务

文章图片
#webrtc#人工智能#github
CVPR 2026|一张缺陷图变一百张:O2MAG免训练注意力嫁接生成高保真工业异常样本

南京大学联合中国移动紫金创新研究院与山东科技大学提出O2MAG方法,通过三分支注意力嫁接技术实现免训练的工业异常图像生成。该方法仅需一张缺陷参考图,利用扩散模型self-attention的特性,将异常特征精准"移植"到目标图像上。配合文本嵌入优化和双注意力增强模块,在MVTec-AD等三个数据集上取得最优性能:像素级AP86.3、分类准确率82.35%,推理速度28秒/张,比

文章图片
#人工智能#计算机视觉#github +1
    共 30 条
  • 1
  • 2
  • 3
  • 请选择