登录社区云,与社区用户共同成长
邀请您加入社区
【AI即插即用CV涨点模块开源】 本文介绍了一个专为CV任务设计的即插即用模块开源仓库(GitHub链接),提供SOTA模型创新模块、论文精读及实现代码。重点解析了AAAI 2025论文《PConv-SDLoss》的创新: PConv风车形卷积:通过不对称填充和十字卷积核(1×3和3×1)模拟红外小目标的高斯分布特性,参数量减少22%的同时扩大177%感受野; SD Loss动态损失:根据目标尺寸
本文介绍了一套基于NVIDIA Jetson Orin Nano的工业安全实时视频分析系统。系统融合多模态感知与深度学习技术,具备双光谱火灾检测、智能安全装备识别、QR码定位与区域感知等功能。采用多线程流水线架构优化计算资源利用,结合YOLOv8+TensorRT实现高效推理(延迟<52ms)。详细阐述了Jetson环境配置、核心算法实现(如HESA空间关联算法)及工程优化策略(动态模型加载
Browser-Use是一款融合DeepSeek大模型与Playwright引擎的开源智能体工具,实现了自然语言驱动的浏览器自动化操作。其技术亮点包括: 采用低代码开发模式,通过自然语言指令生成脚本; 集成多模态交互能力,DOM解析精度达99%; 支持企业级私有化部署与多智能体协同; 深度适配DeepSeek模型,推理成本仅为GPT-4的1/5; 提供电商自动下单等完整场景解决方案。 工具包含任务
🏆 本文收录于 《YOLOv8实战:从入门到深度优化》,该专栏持续复现网络上各种热门内容(全网YOLO改进最全最新的专栏,质量分97分+,全网顶流),改进内容支持(分类、检测、分割、追踪、关键点、OBB检测)。且专栏会随订阅人数上升而涨价(毕竟不断更新),当前性价比极高,有一定的参考&学习价值,部分内容会基于现有的国内外顶尖人工智能AIGC等AI大模型技术总结改进而来,嘎嘎硬核。 ✨ 特惠福利
25年7月来自浙大的论文“The Developments and Challenges towards Dexterous and Embodied Robotic Manipulation: A Survey”。实现类人灵巧的机器人操作一直是机器人领域的核心目标和关键挑战。人工智能(AI)的发展推动机器人操作的快速进步。本文概述机器人操作从机械编程到具身智能的演变历程,以及从简单夹爪到多指灵巧
AI 融合两张图片的核心,是让创意摆脱技术束缚 —— 不用懂图层蒙版,不用调曲线参数,只需清晰表达需求,就能实现 “1+1>2” 的视觉效果。不管是在线轻量工具还是专业设计软件,AI 融合两张图片的逻辑高度一致,核心围绕 “素材准备 - 智能融合 - 优化导出” 三个环节,新手跟着走绝不会错。上传素材后,核心是通过 “功能选择 + 提示词引导” 控制融合效果,避免 AI “自由发挥”:。遇到 “
基于深度学习(DL)的医学图像分割方法虽有显著进步,但实际场景中测试数据(目标域)与训练数据(源域)常存在,源于设备、患者人群、图像质量等差异,会严重降低模型在目标域的性能。
PiscCamera是一款Android应用,可将手机摄像头转为标准MJPEG网络视频流源,支持机器视觉开发。核心功能包括前后摄像头切换、30ms帧率控制、HTTP协议传输和多客户端并发访问。其技术架构基于CameraX图像采集和HTTP服务器分发,兼容主流浏览器及编程工具如OpenCV、FFmpeg。作为PiscTrace/PiscCode的配套工具,它简化了移动端视频采集流程,适用于工业检测、
项目名称项目名称1. 人脸识别与管理系统2. 车牌识别与管理系统3. 手势识别系统4. 人脸面部活体检测系统5. YOLOv8自动标注6. 人脸表情识别系统7. 行人跌倒检测系统8. PCB板缺陷检测系统9. 安全帽检测系统10. 生活垃圾分类检测11. 火焰烟雾检测系统12. 路面坑洞检测系统13. 钢材表面缺陷检测14. 102种犬类检测系统15. 面部口罩检测系统16. 西红柿成熟度检测17
上海交大与南京农大提出ADPretrain框架,专为工业异常检测定制预训练。该方法通过残差特征剥离类别信息,并设计角度-范数双对比损失,显著提升了异常检测性能。实验显示,该方法在MVTecAD等数据集上使PatchCore、UniAD等模型的AUROC平均提升20+个百分点。该工作突破了传统ImageNet预训练在工业场景的局限性,为领域特定预训练提供了新思路。
Anthropic推出Claude Agent SDK,为开发者提供构建生产级AI智能体的工具包。该SDK基于Claude Code的核心技术,具备上下文管理、丰富工具生态、细粒度权限控制等关键功能。支持Python和TypeScript开发,提供两种交互模式:一次性查询和持续会话。SDK还包含会话管理、自定义工具扩展、子智能体协作等高级特性,适用于编码助手、业务代理等多种应用场景。开发者可通过p
使用opencv的haarcascade-frontalface检测人脸时,发生(-215:Assertion failed)
会议由深圳大学主办,旨在探讨计算机科学的最新发展如何与区块链技术相结合,以及这一结合如何推动金融、供应链管理、数据安全和其他多个行业的革新,本次会议将提供一个多学科交流的平台,汇集来自相关领域学者的研究和思想,共同讨论计算机科学与区块链技术的交汇点,以及这些技术如何塑造我们的未来,推进计算机科学与区块链技术的研究和应用,为未来的技术进步奠定坚实的基础。所征稿件会经由2-3位组委会专家审稿,审核结果
shanghaiTech数据集包含了part_A_final,part_B_final两部分。A部分训练集:300张图片,测试集:182张图片。B部分训练集:400张图片,测试集:316张图片。共1198张,330,165个注释头。A,B两部分测试集和训练集打开都包含images和ground_truth两部分,显示如下:其中images显示如下:ground_truth 显示如下:...
一种新的文本嵌入模型,名为GTE(General-purpose Text Embedding Model),它通过多阶段对比学习进行训练。
Vaihingen是一个相对较小的村庄,有许多独立的建筑和小的多层建筑。
语言、视觉和多模态预训练的大融合正在出现。在这项工作中,我们介绍了一个通用的多模态基础模型BEIT-3,它在视觉和视觉语言任务上实现了最先进的迁移性能。具体来说,我们从主干架构、预训练任务和模型扩展三个方面推进了大收敛。我们介绍了用于通用建模的多路Transformers,其中模块化体系结构支持深度融合和特定于模态的编码。基于共享主干,我们以统一的方式对图像(英语)、文本(英语)和图像-文本对(“
具体内容请看原论文。此文只为本人观后总结。作者:Zixuan Chen , Zewei He , and Zhe-Ming Lu , Senior Member, IEEE。
计算机视觉
——计算机视觉
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net