登录社区云,与社区用户共同成长
邀请您加入社区
鸿蒙元服务技术解析 本文系统介绍了HarmonyOS元服务的核心概念和技术架构。元服务是一种轻量化应用形态,具有免安装、即用即走的特点,包体积控制在10MB以内,实现秒开体验。文章从元服务的定义、特征、应用场景入手,与传统应用进行多维对比,突出其轻量化优势。重点剖析了元服务的架构设计,包括基于Stage模型的UIAbility组件、服务卡片、扩展能力等核心模块,详细说明了包结构规范和开发模式。
本文系统讲解了深度学习在计算机视觉(CV)领域的核心技术与应用。主要内容包括:1) 图像增广技术解决小数据问题;2) 微调预训练模型实现迁移学习;3) 目标检测技术从分类到定位;4) 语义分割实现像素级分类;5) 风格迁移将照片转化为艺术风格;6) Kaggle图像分类竞赛实战。文章详细解析了SSD、R-CNN、FCN等经典模型,并提供了7天学习计划和避坑指南,涵盖从基础理论到工业应用的完整知识体
PyTorch动态形状系统摘要 PyTorch的动态形状系统处理深度学习模型中变化的输入形状,如动态批量和变长序列。核心组件包括: TorchDynamo:Python层JIT编译器,优化未修改的PyTorch代码 符号形状推理系统:通过FX IR和Sympy表达式处理动态维度 torch.export:支持AOT导出含动态形状的计算图 系统流程:分配符号形状→传递符号尺寸→添加条件guard→验
动手学深度学习过程中,在anaconda中如何使用jupyter notebook打开学习笔记教程与对应相关问题解决(如d2l下载失败报错:Failed to build 'numpy')
本文聚焦深度学习计算性能优化。内容涵盖编译器与解释器、异步计算、自动并行、硬件基础、多 GPU 训练及参数服务器等核心模块,对比命令式与符号式编程差异,讲解 PyTorch 混合式编程、异步计算与自动并行原理,详解多 GPU 数据并行的手动与简洁实现,补充实际学习场景、高频避坑指南与 4 周学习计划,助力读者掌握从单 GPU 到多机分布式的全链路性能优化技术,提升模型训练与推理效率。
深度学习模型部署方案选型指南 本文对比了PyTorch、ONNX、TensorRT和OpenVINO四种主流模型部署方案。PyTorch适合原型验证,开发体验好但性能较差;ONNX作为跨平台中间格式,兼容性强但需配合运行时;TensorRT在NVIDIA GPU上性能最优,支持FP16/INT8量化;OpenVINO专为Intel硬件优化,CPU性能突出。测试显示,TensorRT在RTX 409
PyTorch是一个由Facebook开发的开源深度学习框架,从2016年发布至今已经成为学术界和工业界最受欢迎的深度学习工具之一。相比TensorFlow,PyTorch的最大特点是动态计算图,这意味着你可以在代码运行时随时改变网络结构,调试起来非常方便。
PyTorch自定义层:轻松实现的深度学习利器引言:当自定义层不再成为障碍1. 为什么自定义层是创新的基石?1.1 超越预定义层的局限1.2 传统框架的痛点2. PyTorch的“简单”哲学:核心设计解密3. 实战:5分钟构建自定义层步骤1:实现Swish激活函数(无状态层)步骤2:集成到ResNet模型步骤3:验证与训练(完整流程)4. 高级技巧:从“简单”到“优雅”4.1 有状态自定义层(带可
摘要: 本文深度解析回归任务三大核心损失函数:MAE(L1 Loss)、MSE和Smooth L1 Loss。MAE计算绝对误差均值,具有特征稀疏性但零点不可导;MSE通过平方误差实现平滑收敛,但对异常值敏感;Smooth L1 Loss融合两者优势,在大误差区保持MAE的快速下降,小误差区采用MSE的平滑特性,成为兼顾速度与稳定性的最优解。PyTorch中分别对应nn.L1Loss()、nn.M
本文介绍了基于JavaCPP-PyTorch实现PyTorch模型量化的全流程框架。该框架解决了Java端量化API缺失、显存泄漏风险等核心挑战,完整复现了动态量化、训练后静态量化(PTQ)和量化感知训练(QAT)三大核心能力。文章详细阐述了量化基础概念、框架设计思路以及关键代码实现,包括量化枚举配置、参数计算、观测器设计等核心模块。该Java量化框架严格对标Python生态的torch.ao.q
依托面向多种AI芯片的统一开源系统软件栈众智FlagOS的跨芯能力,众智FlagOS社区在Qwen3.5模型发布后,即完成了397B MoE多模态模型的全量适配、精度对齐、及多芯片迁移,实现Qwen3.5在多款芯片的同步适配上线。
在 PyTorch 中, 是一个属性,用于表示张量的数据类型。(数据类型)决定了张量中元素的存储方式和计算方法。PyTorch 支持多种数据类型,常见的数据类型包括:你可以在创建张量时通过参数指定数据类型。例如:更改张量的数据类型你可以使用方法或方法来更改张量的数据类型。例如:访问和检查你可以通过访问属性来检查张量的数据类型:示例总结以下是一个完整的示例,展示如何创建不同数据类型的张量,检查和更改
repeat方法用于沿指定维度重复张量。它接受一个或多个整数参数,表示每个维度的重复次数。通过重复操作,可以扩展张量以匹配特定形状或进行广播操作。这些示例展示了如何使用repeat方法来重复和扩展张量,以满足不同的需求。
今天,字节跳动豆包大模型团队开源 FullStack Bench,一个专注于全栈编程和多语言编程的代码评估数据集。该数据集在业界首次囊括编程全栈技术中超 11 类真实场景,覆盖了 16 种编程语言,包含 3374 个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。同时,高效的代码沙盒执行工具 SandboxFusion 也一起开源,用于评估来自不同语言的不同编程任务。
reshape方法用于重塑张量。-1作为参数表示自动推断该维度的大小,以确保新张量的总元素数量与原张量一致。reshape与view的主要区别在于reshape更加灵活,可以在张量不连续时使用。通过使用reshape方法,可以方便地改变张量的形状,以满足不同的需求。
view要求原始张量是连续的。如果不是连续的,需要先调用contiguous方法。在连续张量上非常高效,因为它不会复制数据,只是改变了视图。reshape更加灵活,可以处理非连续的张量。尝试返回一个共享数据的新张量,但如果不能实现,会创建一个新的张量并复制数据。在实际使用中,如果你确定你的张量是连续的,并且你不希望创建数据的副本,使用view会更高效。而如果你的张量可能是非连续的,或者你希望更加灵
grad_fn属性用于记录张量的创建操作,是自动微分机制的一部分。通过grad_fn属性,PyTorch 能够追踪操作的计算图,从而在反向传播时计算梯度。了解grad_fn对于调试和优化神经网络训练过程非常有帮助。是 PyTorch Autograd 计算图中的一个节点,表示操作的反向传播。通过构建计算图和反向传播,PyTorch 可以自动计算张量的梯度。理解这些概念有助于调试和优化神经网络的训练
2小时搞定通义千文7B模型本地部署,复现成功
【代码】千问base模型安装过程遇到的问题。
本节通过一个实战,展示了使用 PyTorch 构建生成对抗网络 (Generative Adversarial Networks, GAN) 生成 Atari 游戏画面的完整流程。首先介绍了 GAN 的基本原理:生成器与判别器相互博弈,逐步提升生成图像的真实性。随后详细实现了图像预处理包装类、判别器与生成器的网络结构,以及训练数据生成函数。核心训练过程中,交替优化判别器和生成器。经过迭代训练,生成
在 PyTorch 入门阶段,我们经常使用自带的 torchvision.datasets.ImageFolder 来加载数据。数据必须按类别分好子文件夹存放。但在实际的工程项目或开源数据集中(如图像分类、目标检测等),数据往往是**“大杂烩”**形式的:几千上万张图片全部混放在一个大文件夹中,另附一个标注文件(如 train.txt 或 val.json)。面对这种“一图一表”的结构,Image
超快”不仅是速度指标,更是AI与物理世界交互方式的重构。AI的效率源于对生物智能的谦卑学习——人脑用30W功耗实现超算级推理,而传统GPU却需1000W。PyTorch的未来不在“更快编译”,而在“更像人脑地思考”。当边缘设备成为训练中心,当实时微调成为常态,AI将真正从“工具”进化为“伙伴”。这不仅是技术跃迁,更是人类对效率认知的革命。2026年,我们或许会回望:正是这场神经形态与软件优化的跨界
Deepseek本地部署,LM部署deepseek详细极简步骤教程!!手把手带部署!!不再被服务器繁忙所困扰,速度取决于自己的电脑!!超简单deepseek本地部署教学!
摘要:本项目基于PyTorch框架开发了一个树木识别系统,提供ResNet50、AlexNet和MobileNet三种卷积神经网络模型选择。系统采用Python+Pyside6+OpenCV技术栈,包含完整的GUI界面和训练测试流程。项目支持自定义数据集训练,可输出训练曲线、模型结构、混淆矩阵、热力图等评估指标。提供详细的开发环境配置指南,包含完整的代码、预训练模型和数据集资源,实现开箱即用的深度
本文用 80 行 PyTorch 把 DeepSeek V2/V3 的 MLA 从论文推到能跑,然后在 RTX 3090 上量化了三件事:cache 体积(比同规模 MHA 小 56.9x,3090 实测一致)、朴素实现的 decode 开销(16k 上下文 MLA 反而比 MHA 慢约 4x)、absorption 和 decoupled RoPE 在数学上的等价与冲突关系(两行 einsum
在AI模型迭代速度决定商业成败的今天,增量学习(Incremental Learning)——一种让模型在新数据到来时高效更新而非从头训练的技术——正面临前所未有的速度挑战。:该代码通过内存池、GPU直传和小批量设计,将增量训练时间从传统方法的28分钟压缩至3.8分钟(在10万样本数据集上),同时保持92%的模型精度。当手机能在5秒内学习新表情识别,当工厂设备能即时应对突发工况,我们看到的不仅是速
摘要:本项目基于YOLOv10实现桃子成熟度检测系统,包含完整代码、数据集、预训练模型及GUI界面。系统支持图像/视频实时检测,提供精确率、召回率等指标评估。采用PySide6+OpenCV开发简洁功能型界面,支持摄像头输入。项目结构清晰,包含模型训练、验证及部署全流程,提供详细环境配置教程。核心功能包括目标检测、分类统计及可视化结果输出,检测速度达毫秒级。完整项目资料开箱即用,适用于PyChar
1. 维护者账号被入侵Lightning 的 maintainers 可能有人账号被钓鱼了,攻击者直接拿到了 PyPI 的发布权限。这个在供应链攻击里最常见。2. 内部人员作恶也有可能是 maintainer 团队里有人主动植入了代码。这个更恐怖,因为意味着攻击者就在项目内部。3. CI/CD 管道被攻破现代开源项目普遍使用自动化构建和发布流程。如果 CI/CD 环节被攻破,攻击者可以在构建过程中
本文档是一份全面的PyTorch深度学习实战指南。首先,筑基篇涵盖了环境配置、张量(Tensor)的底层物理与数学逻辑,以及自动微分(Autograd)机制的核心操作与常见避坑技巧。其次,网络篇详细剖析了卷积、全连接、激活、归一化、池化这五大核心网络基元,并系统梳理了从Dataset/DataLoader数据加载到运用“五步训练法”与优化器的完整模型构建流程。此外,实战与调试篇提供了丰富的代码实例
Mamba-3 的复数状态空间模型为金融时序预测提供了一个新的技术选择:线性复杂度、固定推理内存、天生适合序列建模。核心改进(复数状态、MIMO、ZOH离散化)让它比前代 Mamba 更适合多变量金融数据。多尺度 SSM:不同步长对应不同时间尺度,自动学习 5min/1h/1d 的联合表示SSM + Attention 混合架构:用 SSM 做全局状态压缩,用稀疏注意力做局部精细回看在线学习:SS
本文系统梳理了大模型后训练(Post-Training)的技术演进与工程实践。从基础SFT到RL对齐再到推理能力涌现,完整呈现了三阶段训练范式。重点分析了PPO、DPO、GRPO等核心方法的优缺点,并介绍了2026年前沿技术如RLVR(纯强化学习训练多模态推理)和GRPO工程改进方案(DAPO/GSPO)。通过对比实验数据表明,后训练能将模型性能提升20-47个百分点,实现从"语言模仿&
1.每次必备代码import osTensorFlow 及 Keras 核心组件2.理论基础测试集 VS 验证集的本质区别:验证集(Validation Set):不直接参与梯度下降和参数更新(狭义上不参与训练),但用于人工调参。通过观察模型在验证集上的表现,来决定是否早停(Early Stopping)或调整超参数(如学习率、Batch Size)。它防止了模型对训练集的盲目过拟合。标签编码与加
复现了经典的 Faster R-CNN 模型。通过 PyTorch 的 TorchVision 库,我们仅需几行代码即可调用强大的 ResNet50-FPN 骨干网络。相比于原始 R-CNN 系列繁琐的多阶段训练,现代 PyTorch 框架让 Faster R-CNN 的实现变得异常简洁高效。
摘要:该项目基于YOLOv10实现了一个柿子成熟度检测系统,包含完整代码、数据集、预训练模型和GUI界面。系统支持图像和视频实时检测,使用PySide6设计的简洁界面可显示检测结果及各项指标(精确率、召回率等)。项目提供详细使用指南,包括模型训练、验证流程(修改数据集路径后运行train.py和val.py),以及Pycharm/Anaconda环境配置教程。核心功能通过OpenCV实现目标检测,
本文介绍了一个基于YOLOv8的工地安全帽检测系统,支持图像、视频和实时摄像检测。项目采用PyTorch框架实现,包含完整代码、数据集、预训练模型权重和GUI界面。GUI界面使用PySide6开发,简洁实用。系统支持USB摄像头和笔记本自带摄像头,提供图像检测、视频检测和实时摄像检测功能。项目结构清晰,包含训练(train.py)、验证(val.py)和使用(gui.py)三个主要模块,并附带详细
文章摘要 上下文工程(Context Engineering)正在成为比Prompt Engineering更重要的下一代AI工程范式。它从系统层面管理模型的知识层(预训练知识、系统提示)、记忆层(对话历史、KV Cache)、检索层(RAG、知识图谱)和生成层(输出约束、思维链),而不仅限于优化指令文本。 2026年该领域快速发展的三大动因:1)上下文窗口从4K扩展到1M,使信息筛选成为关键;2
在深度学习模型训练中,梯度裁剪(Gradient Clipping)常被误认为是“超简单”的技术操作,仅需一行代码即可完成。然而,这一看似基础的机制实则深刻影响着模型收敛性、训练效率甚至最终性能。随着大语言模型(LLM)和复杂神经网络的普及,梯度裁剪已从“辅助工具”升级为训练流程的核心稳定性保障。本文将突破“超简单”的表象,从技术本质、实践挑战到未来演进,揭示梯度裁剪在AI训练中的战略价值——它不
本文记录了深度学习训练营中的CNN图像分类实践。主要内容包括:1)准备数据集并划分训练集和测试集;2)构建包含卷积层、批归一化和全连接层的CNN网络;3)设置损失函数和优化器;4)编写训练和测试函数,进行20轮模型训练。实验使用了PyTorch框架,在GPU环境下运行,实现了基础的图像分类流程。通过该实践,掌握了CNN模型构建、数据预处理和训练评估等深度学习核心技能。
本文介绍了一个基于YOLOv10的草莓生长期检测系统,使用PyTorch框架实现。项目包含完整代码、数据集、预训练模型权重、训练记录和GUI界面,支持图像分类、目标检测和实时摄像检测功能。GUI界面由PySide6设计,简洁实用。用户可选择使用预训练模型或自行训练,通过修改配置文件路径即可完成模型训练与验证。项目提供了详细的数据集示例、GUI界面截图和模型性能指标(如精确率、召回率)。核心代码展示
pytorch
——pytorch
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net