登录社区云,与社区用户共同成长
邀请您加入社区
本文详细介绍了使用PyTorch搭建极简全连接神经网络(3→3→2→2结构)的全流程。对比传统机器学习,深度学习通过自动特征提取简化了预处理和特征工程步骤。文章拆解了参数计算(共26个参数)、环境配置(安装torchsummary)和代码实现(类定义、初始化、前向传播),并强调激活函数与初始化方法的匹配(如Sigmoid+Xavier、ReLU+Kaiming)。通过torchsummary工具可
本项目基于MATLAB平台,开发了一种结合遗传算法(GA)和支持向量回归(SVR)的多变量回归预测模型。针对工业、金融、医疗等领域中常见的高维非线性数据预测问题,通过遗传算法自动优化SVR关键参数(惩罚系数C、ε不敏感损失带宽和核宽度),显著提升了模型预测精度。项目包含数据预处理、GA-SVR参数优化、模型训练、预测评估等完整模块,并提供了GUI界面设计。通过标准化流程和可视化分析,实现了对复杂非
随着大模型技术在垂直领域的进一步渗透,未来的回单识别系统将具备更强的推理能力和自适应学习能力,为企业财务自动化乃至整个金融生态的智能化转型提供坚实的技术底座。在这一进程中,技术的进步正悄然重塑着资金管理的效率边界。其中,银行回单作为资金流转的核心凭证,其处理效率直接关系到企业的资金安全与财务核算速度。随着人工智能与深度学习技术的成熟,基于深度学习的银行回单识别系统应运而生,成为连接物理票据与数字财
问题:DETR隐式查询空间先验弱,训练收敛极慢方案:DAB-DETR用4D动态锚框 (x,y,w,h) 作为显式查询创新锚框直接编码为位置查询宽高调制注意力,自适应目标尺度逐层动态优化锚框,级联细化效果:50epoch达到原版500epoch性能,同设置SOTA价值:为DETR类模型提供清晰、通用、高效的查询设计范式,成为后续众多DETR改进版的基础架构。
本文介绍了一个基于Python Flask框架开发的线上超市管理系统。系统采用分层架构设计,包含用户管理、商品管理、订单处理等核心模块,实现了从商品展示、购物车操作到订单生成的全流程管理。项目重点解决了数据一致性、并发访问和安全性等关键问题,通过ORM框架、事务处理和密码加密等技术确保系统稳定运行。该系统不仅可作为中小型超市数字化转型的解决方案,还具有教学实践价值,完整展示了Web应用从需求分析到
本文提出了一种基于快速扩展随机树(RRT)、深度强化学习(DRL)和卷积神经网络(CNN)的无人机三维路径规划方法。该方法在MATLAB R2025b平台上实现,通过RRT提供基本的路径搜索骨架,利用DRL学习在不同环境特征下对RRT扩展方向和步长的智能调节策略,并采用CNN提取环境的三维结构特征。项目解决了三维环境建模复杂性、RRT与DRL/CNN的耦合机制等挑战,构建了包含环境建模、RRT搜索
本文深入浅出地阐述了神经网络的核心工作原理。文章首先通过单神经元模型引入权重(w)和偏置(b)的概念,解释了前向传播如何通过线性组合和激活函数产生预测值。然后重点剖析了反向传播机制,说明梯度下降如何通过损失函数计算误差,并利用链式法则将误差责任反向分配给各层参数。文中通过具体数值示例,生动展示了参数更新的数学过程,阐明了学习率的作用。最后扩展到多层网络结构,强调激活函数对非线性表达能力的关键作用,
摘要: MegaFlow提出了一种零样本大位移光流估计方法,通过结合预训练视觉Transformer的全局匹配能力和轻量级局部优化模块,解决了传统方法在大位移和跨域泛化中的局限性。该框架将光流估计转化为全局相关性计算问题,利用DINOv2特征构建全对全匹配,并通过循环细化提升精度。实验表明,MegaFlow在Sintel、KITTI等基准上实现了零样本SOTA性能,且可无缝扩展至长序列点追踪任务。
深度学习是机器学习的一个分支,通过多层神经网络,自动从海量数据里学习深层、复杂的特征与规律,不需要人工手动设计特征,是当前人工智能的核心。常用于:图像识别、人脸识别、自动驾驶、自然语言处理、大模型 AI、语音识别、医学影像分析、智能推荐等。(1)深度学习组成1.神经网络:基础模型(MLP、CNN、RNN、Transformer)2.激活函数:引入非线性,让模型能拟合复杂问题3.反向传播 + 梯度下
Transformer模型正进入LLMs+时代,从参数堆叠转向架构创新。核心突破包括:MoE架构提升效率与模块化;扩散模型替代自回归实现并行推理;视觉编码器降低文本处理成本;百万级上下文面临信息稀释问题,MIT提出递归LLMs解决方案。未来竞争将聚焦工程化能力,率先突破的团队将掌握市场定价权。(149字)
LoRA 当前更像是一个「高效的外挂接口」而非「智能的压缩系统」。表格你的观察本质未来可能性与蒸馏的压缩联系参数空间压缩 vs 知识压缩融合:蒸馏出「LoRA 生成器」动态权重模块化切换,非真正动态动态路由 + 实时 LoRA 生成不学压缩提取只拟合偏移,无信息瓶颈语义化 LoRA + 解耦表示手动数据收集缺乏元学习,需要统计覆盖合成数据 + 少样本适应LoRA 最大的价值不在于它本身有多「智能」
本文系统阐述了大模型训练的三大核心阶段:预训练、有监督微调(SFT)和人类对齐(RLHF/DPO)。预训练阶段通过海量无标注数据让模型掌握语言统计规律和世界知识;SFT阶段使用高质量指令-回答对教会模型对话能力;RLHF/DPO阶段则通过人类反馈优化模型行为。文章通过生动类比(如"博览群书的孩子")解释各阶段目标,并对比了工业级与学习级模型的差异。最后介绍了nano-LLM项目
当前大模型技术呈现多路线并行发展态势,主要分为三层架构:主干序列建模(自注意力、状态空间模型、线性递推、长卷积等)、记忆与上下文扩展机制(检索增强、压缩记忆等)、规模化实现路径(MoE、潜变量压缩等)。各路线在底层数学上逐渐趋同,竞争焦点转向算子表达能力、系统扩展性与硬件适配性的综合平衡。未来可能形成统一框架,关键指标将聚焦成本效率与泛化能力,而非单一数学形式的最优性。
本文详细拆解2026年大模型核心岗位,涵盖算法、开发、infra、评估、数据五大类,深度拆解算法岗中基座模型岗与应用算法岗的核心差异,清晰梳理开发、infra、数据、评估岗的职责边界与能力要求。结合2026年大模型行业最新趋势,强调岗位间的关联与区别,点明大模型重构行业人才需求的核心逻辑——从专才到通才、从技术深耕到技术融合,已是不可逆的行业共识。相信很多刚接触大模型的同学,都会陷入同一个困惑:2
2026 年的 AI Agent 赛道,热度迭代的速度远超想象。年初横空出世、被圈内戏称 “龙虾” 的 OpenClaw,仅仅火了两个月就迎来了强劲对手 ——Nous Research 推出的**Hermes Agent**。
随着**GPT、Qwen、Claude** 等大模型能力持续提升,LLM-based Agent 正在从单轮问答走向更复杂的**长期任务**:多轮对话、个人助手、游戏智能体等。在这些场景中,Agent 不仅要理解当前输入,还要持续积累过去的交互、偏好、事实变化和任务状态。
在计算机视觉目标检测领域,YOLOv10作为YOLO系列的最新力作,在精度和速度上取得了令人瞩目的突破。然而,在实际应用场景中,模型对遮挡、光照变化、噪声干扰等复杂环境的鲁棒性仍有待提升。本文提出了一种新颖的改进方案——融合SA(Stochastic Attention,随机注意力)模块的YOLOv10鲁棒性增强方法。SA模块通过引入随机化机制,在训练过程中动态调整注意力权重,有效缓解了过拟合问题
YOLOv10作为YOLO系列的最新力作,在速度和精度平衡上达到了新高度。但其C2f模块中使用的传统卷积(3×3/5×5)难以捕捉遥感图像中目标的长程依赖关系和全局语义信息。大核注意力机制通过动态重加权和扩大感受野,能够显著提升遥感检测性能。本文将LSK(Large Separable Kernel Attention,大核分离注意力)机制无缝集成到YOLOv10的Neck层,设计出LSK-YOL
在目标检测领域,YOLOv10凭借其实时性和高精度已成为工业界和学术界的首选模型之一。然而,传统的YOLOv10在全局特征建模方面存在天然缺陷——其基于卷积的局部感受野限制了长距离依赖的捕获能力。本文提出了一种创新性的改进方案:将External Attention(外部注意力机制)无缝集成到YOLOv10的主干网络中,构建出YOLOv10-EA-Net。实验证明,该方法在保持实时性的同时,显著提
人工智能的浪潮正以席卷之势重构全球就业市场,其中AI与嵌入式领域的人才缺口持续扩大,需求呈现爆发式增长态势。未来5-10年,就业市场的核心增长极将高度聚焦于AI与大数据赛道,对于正在择业的小白、寻求转型的程序员而言,掌握人机协作技巧、锤炼AI难以替代的核心能力、树立终身学习意识,已然成为立足职场、实现突破的关键竞争力。在此背景下,优质教育机构通过创新教学模式精准对接产业需求,为不同基础的学习者搭建
目标检测是计算机视觉领域的核心任务之一,而小目标检测一直是该领域最具挑战性的难题。随着深度学习技术的发展,YOLO系列算法凭借其出色的速度与精度平衡,成为工业界和学术界广泛应用的检测框架。YOLOv10作为该系列的最新成员,在继承前人优点的基础上,进一步优化了网络结构和训练策略。然而,标准YOLOv10在检测小目标时仍存在特征信息丢失、背景干扰等问题。本文提出了一种融合CBAM(Convoluti
在计算机视觉领域,形变目标的检测一直是一个具有挑战性的任务。传统的目标检测方法通常依赖于固定的几何结构,难以有效处理具有不规则形状、非刚性形变或部分遮挡的目标。本文提出了一种基于YOLOv10结合DA(Deformable Attention)可变形注意力机制的改进方法,显著提升了模型对形变目标的检测能力。DA可变形注意力机制通过引入可学习的偏移量,使模型能够自适应地调整采样点位置,从而更好地捕捉
大模型在垂直领域知识不足、知识时效性差及幻觉问题严重。本文介绍了RAG(检索增强生成)技术,通过结合知识库为模型配置资料室,实现知识补充。详细阐述了文档加载、分割、词嵌入、存储及检索等步骤,强调了数据质量和检索质量是RAG效果的关键。对于想要提升大模型应用能力的小白和程序员,本文提供了实用的技术指导和代码案例。RAG检索增强生成是为了解决大模型知识不足的问题大模型主要面临三个问题:垂直领域内的知识
本文提出了一种创新的YOLOv10改进方法,通过引入ConvNeXt-V2自监督学习框架对骨干网络进行骨干预训练,显著提升了模型在有限标注数据场景下的特征表达能力和检测精度。ConvNeXt-V2采用了先进的FCMAE(Fully Convolutional Masked Autoencoder)自监督学习策略,能够在大规模无标签图像数据上学习到丰富的视觉表征。本文将这一预训练权重迁移至YOLOv
目标检测作为计算机视觉领域的核心任务之一,在自动驾驶、安防监控、工业质检等场景中具有广泛应用。YOLO系列算法凭借其卓越的检测速度与精度的平衡,成为工业界最受欢迎的实时目标检测框架。YOLOv10作为该系列的最新成员,在模型架构上进行了全面优化,但依旧采用传统CNN风格的骨干网络。Swin Transformer作为Vision Transformer的代表性工作,通过层级化设计与移位窗口注意力机
本文介绍了一个基于深度学习的蔬菜识别系统,使用PyTorch框架实现了ResNet50、VGG16和ResNet34三种卷积神经网络模型。系统提供GUI界面(PySide6)和Web前端界面(Flask+Vue)两种操作方式,支持模型训练、验证和测试全流程。项目包含完整的数据集、代码和预训练模型,可输出训练过程曲线、分类混淆矩阵、热力图等可视化结果,并计算准确率、精确率等评估指标。系统支持自定义数
租用GPU云服务器进行深度学习(AutoDL,超保姆级,适用新手)
当下,AI大模型已彻底告别“技术爆发期”的野蛮生长,迈入“全面应用期”的精细化落地阶段。对于每一位IT从业者而言,这不再是“是否要转型AI”的选择题,而是“如何精准切入、快速突围”的战略必答题。很多程序员、IT小白想抓住这波行业红利,却屡屡陷入困境:要么不清楚自己的技术背景适配哪个赛道,要么找不到系统的学习路径,要么被“AI岗位只有算法博士能做”的误区劝退,最终错失机遇。
对于 MobileNetV2 这种深度可分离卷积构成的网络,特征图的“空间信息”在压缩过程中极易丢失。CBAM 通过 7 \times 7 的大核卷积重新拾取了物体的几何轮廓信息,这在 VOC 这种背景复杂的分类任务中至关重要。对于 MobileNetV2 这种“窄”网络(如第一层只有 32 通道),过重的注意力模块会引入过多的非线性变换,破坏了原始预训练权重所构建的特征流。SE 再次进行通道间的
AI测试赋能-基础篇1、你日常工作中最常用的AI工具有哪些?请描述一个具体的使用场景和操作步骤。(如MidScene、Trae、通义灵码等)2、让 AI 帮你写测试用例,你一般怎么输入提示词?你会直接用吗?为什么?3、在你使用AI生成测试用例时,如何保证输出结果符合公司项目的业务需求呢?4、你曾经用AI完成过哪些以前需要手工完成的重复性工作?效率提升了多少?
【摘要】该项目基于PyTorch框架开发了一个鲜茶叶等级识别系统,提供ResNet50、VGG16、ResNet34三种卷积神经网络模型可选。系统包含GUI(PySide6)和Web(Flask+Vue)双界面,支持图像分类、模型训练与验证功能。核心功能包括:1)完整的训练流程,输出准确率曲线、损失曲线和分类混淆矩阵;2)可视化模型结构与热力图;3)提供模型评估指标(准确率、精确率等)。项目附带完
随着 Google 发布最新的Gemma 4系列模型,如何在个人消费级硬件(如 RTX 20系列显卡)上高效运行这类大规模参数模型成为了开发者关注的热点。本文将重点介绍如何利用LM Studio工具,通过架构的特性,实现显存与内存的混合计算,从而在有限的硬件条件下流畅运行 Gemma 4-26B 模型。通#深度学习 #模型部署 过本文的配置方案,我们成功实现了在 RTX 2080Ti 环境下运行
在多模态大语言模型(MLLMs)飞速发展的今天,如何让模型真正“听懂人类的话”并做出符合人类意图的回答,成为了学界和工业界的一项长期核心挑战 。然而,传统基于人类反馈的强化学习(RLHF)高度依赖“仅打分”的黑盒奖励模型(Score-only RM),这种方法正面临着准确率低、泛化能力弱以及可解释性极差的三大瓶颈 。
介绍:这个是一个视觉分割的“通用基础模型(Foundation),由Meta发布。优势:具有强大额零样本(Zero-shot)推理能力,能通过点、框(Bounding Box)等提示词(Prompt)识别几乎任何物体。局限性:在面对特定的物体是,默认权重的边缘精度往往达不到工业要求。基线模型 Baseline SAM : https://arxiv.org/abs/2304.02643SAM模型由
2026年5月将在中国多个城市举办30余场国际学术会议,涵盖人工智能、大数据、物联网、新能源等多个前沿科技领域。重点会议包括:5月8-10日在无锡举办的IEIT2026互联网与教育信息技术会议,5月15-17日上海的ICBAR2026大数据与风险管理会议,5月22-24日广州的ISPPAI2026信息安全与隐私保护会议,以及5月29-31日西安的航空航天ICAPC2026会议等。这些会议为学者提供
昇腾CANN训练营推出Transformer算子技术专题,聚焦大模型核心算子优化。OpenTransformer算子仓覆盖MHA、MOE等关键模块,采用生态兼容、高内聚低耦合设计。专家深入解析了MOE架构中的Dispatch/Combine优化、FIA算子在MLA中的应用、GMM低精度支持等核心技术。通过共享内存通信、双分区方案、Amable算法等创新手段,显著提升算子性能。训练营提供0基础到进阶
深度学习
——深度学习
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net