logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识

摘要:Judo是一种针对工业异常检测的多模态推理模型,通过三阶段渐进训练解决通用大模型在工业领域的知识不足问题。首先通过并置分割学习建立视觉对比能力(准确率提升至73.01%),然后注入领域知识(准确率79.82%),最后采用多奖励GRPO统一视觉和推理(最终准确率81.20%)。实验表明,无领域知识的CoT推理会使准确率下降9.5%,验证了领域知识的重要性。在MMAD基准测试中,Judo超越GP

文章图片
#学习#人工智能#github +2
智谱 GLM-OCR:0.9B 小模型登顶 OCR 榜单,3月起还能一行代码接入 Agent

摘要:GLM-OCR以仅0.9B参数量在OmniDocBenchV1.5榜单夺冠,技术亮点包括:1)新增AgentSkill模式,实现一行代码集成AIAgent;2)采用CogViT+GLM架构和创新的Multi-Token Prediction技术,吞吐量提升50%;3)全任务GRPO强化学习针对文本/表格等任务设计专用奖励。测试显示其在综合性能(94.62分)、处理速度(PDF 1.86页/秒

文章图片
#人工智能#大数据#计算机视觉 +2
YOLO26:实现目标检测进入端到端时代

YOLO26实现端到端目标检测,彻底移除NMS后处理 摘要:Ultralytics发布的YOLO26标志着目标检测技术的重大突破,首次完全移除了NMS(非极大值抑制)后处理步骤。通过三项关键创新——One-to-One检测头、MuSGD优化器和STAL+ProgLoss训练策略,该模型实现了原生端到端推理,CPU推理速度提升43%。YOLO26不仅简化了部署流程,还支持检测、分割、分类等多任务统一

文章图片
#目标检测#人工智能#计算机视觉
把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star

语音AI推理部署框架sherpa-onnx发布1.12.29版本,支持12项语音功能和多平台部署。该框架由next-genKaldi团队开发,可将Whisper、Moonshine等主流语音模型统一转换为ONNX格式,实现跨平台离线运行。支持12种编程语言和多种硬件架构,包括移动端、嵌入式设备和浏览器环境,并提供NPU加速支持。最新版本新增Supertonic2TTS模型,持续完善多语言绑定和模型

文章图片
#github#人工智能
AAAI 2026 | 华中科大联合清华等提出Anomagic:跨模态提示零样本异常生成+万级AnomVerse数据集(附代码)

摘要:华中科技大学等团队提出Anomagic框架,通过跨模态提示编码融合视觉参考和文本描述,实现零样本异常图像生成。该方法创新性地结合修复式扩散生成与对比掩码精炼策略,在VisA数据集上取得IS 2.16/IL 0.39的生成质量,集成到INP-Former++检测器后P-F1达54.00%,超越现有方法。团队构建了包含12,987个三元组的AnomVerse数据集,覆盖131种缺陷类型,是目前最

文章图片
#人工智能#计算机视觉#github +1
Pipecat:构建实时语音 AI Agent 的开源编排框架,500ms 级端到端延迟

Pipecat是一个开源Python框架,专注于解决语音AI落地的工程编排问题。它将ASR、LLM、TTS等AI服务通过管线(Pipeline)方式连接,实现端到端延迟500-800ms的实时对话系统。框架支持18+语音识别服务、18+大语言模型和24+语音合成服务,并提供多模态交互能力。Pipecat还包含客户端SDK、开发工具和结构化对话模块,适用于语音助手、客服系统等多种场景。虽然依赖外部A

文章图片
#人工智能#开源#语音识别 +3
智谱 GLM-OCR:0.9B 小模型登顶 OCR 榜单,3月起还能一行代码接入 Agent

摘要:GLM-OCR以仅0.9B参数量在OmniDocBenchV1.5榜单夺冠,技术亮点包括:1)新增AgentSkill模式,实现一行代码集成AIAgent;2)采用CogViT+GLM架构和创新的Multi-Token Prediction技术,吞吐量提升50%;3)全任务GRPO强化学习针对文本/表格等任务设计专用奖励。测试显示其在综合性能(94.62分)、处理速度(PDF 1.86页/秒

文章图片
#人工智能#大数据#计算机视觉 +2
智谱 GLM-OCR:0.9B 小模型登顶 OCR 榜单,3月起还能一行代码接入 Agent

摘要:GLM-OCR以仅0.9B参数量在OmniDocBenchV1.5榜单夺冠,技术亮点包括:1)新增AgentSkill模式,实现一行代码集成AIAgent;2)采用CogViT+GLM架构和创新的Multi-Token Prediction技术,吞吐量提升50%;3)全任务GRPO强化学习针对文本/表格等任务设计专用奖励。测试显示其在综合性能(94.62分)、处理速度(PDF 1.86页/秒

文章图片
#人工智能#大数据#计算机视觉 +2
CVPR 2026 | 用一句话告诉 AI 分割什么——MedCLIPSeg 让医学图像分割不再需要海量标注

摘要:加拿大Concordia大学团队提出的MedCLIPSeg(CVPR 2026)创新性地将概率建模引入医学图像分割。该模型通过文本提示引导分割,采用概率化注意力机制生成不确定性地图,在仅使用10%标注数据时即达到传统方法全量数据的性能(DSC 81.10%)。实验覆盖16个数据集、5种模态,跨域泛化性能提升显著(OOD DSC提升8-15个百分点),不确定性地图与专家分歧区域高度吻合(相关系

文章图片
#人工智能#github#神经网络 +2
AAAI 2026 | 上海AI Lab发布RacketVision,首次为球拍运动标注球拍姿态

《RacketVision:首个多球拍运动联合分析基准》摘要 上海人工智能实验室等机构提出的RacketVision是首个同时标注球位置和球拍姿态(边界框+5关键点)的多运动基准数据集,覆盖乒乓球、网球和羽毛球942场职业比赛、43.5万帧数据。该研究突破现有数据集仅追踪球的局限,定义了球追踪、球拍姿态估计和球轨迹预测三个递进任务。关键发现表明:多运动联合训练使球追踪mAP提升14.6%-19.2

文章图片
#人工智能#计算机视觉#视觉检测 +2
    共 15 条
  • 1
  • 2
  • 请选择