登录社区云,与社区用户共同成长
邀请您加入社区
LlamaFactory 是一个统一高效的大语言模型微调框架,其核心目标是让 100 多种 LLM 和 VLM(视觉语言模型)的微调变得简单易用。该项目采用了精心设计的分层架构,具有高度的模块化和可扩展性。项目架构设计LlamaFactory 采用了创新的五层架构设计(49)模型层(Model Layer):作为 “兼容并蓄的车库”,支持 100 多种主流模型架构数据层(Data Layer):统
本文完整实现了基于DiT的MNIST扩散模型,从原理到代码拆解了模型的核心设计与实现细节。该模型兼顾了Transformer的全局注意力优势和扩散模型的生成能力,是入门生成式AI的优质案例。
本文学习自Unist的论文实现,源码地址:https://github.com/tsinghua-fib-lab/UniST/tree/main,本内容为个人理解整理。
在本节中,我们探讨了如何将训练好的 PyTorch 深度学习模型部署到生产环境中,成功构建了一个独立运行的模型服务器,能够对手写数字图像进行预测。我们将首先构建一个简易的 PyTorch 推理管道:通过输入数据和预训练模型的存储路径即可完成预测。随后将该推理管道部署至模型服务器,使其能够接收数据请求并返回预测结果。这套方法可以轻松扩展至其他机器学习模型,这为使用 PyTorch 和 Flask 开
本课程是Andrej Karpathy「0 to Hero」系列的核心章节,目标是从零复现GPT-2 124M参数模型——从加载OpenAI预训练权重验证模型正确性,到完全随机初始化参数、基于高质量数据集从零训练,最终实现性能对标甚至超越原版GPT-2。掌握Decoder-only Transformer的完整实现(Pre-LN结构、权重共享等GPT-2关键特性)理解大模型训练的核心技术栈(混合精
本文基于HarmonyOS 6.0+的ArkUI图形增强能力,开发了一款专业级SVG编辑工具。通过分层架构设计实现SVG解析、图形编辑、跨设备协同等核心功能,利用ArkUI新增的SVG2解析、仿射变换等API提升图形处理性能。采用脏矩形重绘、分片加载等技术优化大型文件处理效率,集成NearLinkKit实现"碰一碰"跨设备传输。测试表明,该工具在10MB文件加载、复杂路径编辑等
for batch_x, batch_y in train_loader:# 遍历每个batch。optimizer.zero_grad()# 重要!train_bat_loss.backward()# 自动计算梯度。with torch.no_grad():# 关闭梯度计算,节省内存和计算。# feature_data: 特征数据(比如表格的X部分)model.train()# 设置模型为训练模
项目依赖安装:后续安装巡检机器人项目的其他依赖(如 OpenCV、MMDetection 等),建议继续使用 python -m pip install [包名] 命令,确保依赖安装在当前 conda 环境中;python 确实在 conda 环境里,但 pip 还是指向了系统用户目录下的版本(/home/ubuntu/.local/bin/pip),所以才会触发 “外部管理环境” 的保护。至此,
摘要:本文记录了使用老款Quadro K4200显卡配置PyTorch GPU环境的过程。通过安装适配CUDA 11.4的PyTorch cu118版本,成功识别出GPU设备。关键步骤包括卸载CPU版PyTorch、安装GPU版本,并验证torch.cuda.is_available()返回True。结果表明,尽管K4200是较老的Kepler架构(Compute Capability 3.0),
在 CANN 生态中,pyasc作为 Ascend C 的 Python 前端,旨在为开发者提供一种符合 Python 原生语法习惯的高效自定义算子编程接口。然而,将高层次的 Python 表达式精准地映射到硬件底层的计算单元(如 AI Core 的计算单元、共享内存、寄存器等)是一项极具挑战性的任务。编译器的自动调度器(Auto-scheduler)虽然强大,但在面对复杂或非标准的计算模式时,往
本文详细介绍了一个本地部署的RAG智能体系统实现方案,基于Qwen模型和ChromaDB向量数据库,不依赖LangChain框架。系统支持深度思考模式、知识库自由开关、两阶段检索策略(Embedding+Reranker)、对话终止等功能,并提供丰富的参数设置和知识库管理能力。通过模块化设计实现了文档检索、问答等核心功能,并优化了响应速度与精度平衡。文章包含完整的架构设计、技术选型、代码实现和性能
本文介绍了大模型微调的技术要点和参数优化方法。首先说明了项目环境配置,包括镜像设置和关键依赖安装(transformers、peft等)。重点分析了全量微调的计算成本,详细拆解了模型权重、梯度、优化器状态和中间激活值的内存需求。通过数学公式推导了梯度下降原理,解释了优化器(如AdamW)如何通过动量矩和方差矩解决训练中的方向不稳定和参数尺度差异问题。文章为高效微调大模型提供了理论基础和实践指导,特
摘要:本文介绍了Python中dir()和help()两大实用工具在PyTorch学习中的应用。dir()用于快速查看模块或对象的所有属性与方法,如dir(torch);help()则提供详细的函数文档说明,如help(torch.cuda.is_available)。文章通过示例演示了这两个函数的具体用法,并附有闯关测验检验学习效果,帮助开发者高效掌握PyTorch的核心功能。掌握这两个工具可以
ModelZoo是华为昇腾旗下的开源AI模型平台,涵盖计算机视觉、自然语言处理、语音、推荐、多模态、大语言模型等方向的AI模型及其基于昇腾机器实操案例。pytorch-NLP:pytorch框架自然语言(生成创作、摘要、对话、翻译、搜索推荐、优化)pytorch-Audio:pytorch框架音频(识别、强化、理解记忆、生成)pytorch-CV-detection:pytorch框架计算机视觉物
摘要:本文详细介绍了在HarmonyOS 6中通过OpenGL ES在OH_NativeXComponent上实现图形绘制的完整流程。主要内容包括:1) OpenGL ES和EGL的基本概念及其在移动开发中的作用;2) HarmonyOS NDK中使用OpenGL的标准操作流程;3) 具体实现方案,通过EGLCore类封装EGL环境初始化、渲染逻辑和缓冲区交换,并在PluginRender类中与O
基于 PyTorch 生态实现 MNIST 手写数字数据集的自动下载、加载与可视化,涵盖了 PyTorch 核心库调用、计算机视觉数据集处理、数据转换、Matplotlib 图像可视化。
到这里,HarmonyOS Image Kit 的核心能力已全部覆盖——从「解码(文件→PixelMap/Picture)」到「编辑(裁剪/缩放/滤镜)」,再到「编码(对象→文件/内存流)」,形成了完整的图片处理闭环。解码用→ 单图用PixelMap,多图用Picture;编辑用PixelMap的内置方法 → 基础编辑全覆盖;编码用→ 单图/多图/GIF 全场景支持。掌握这些能力后,无论是简单的图
为 CANNops-nn仓库贡献代码,是一条通往深度学习底层技术架构师的必经之路。它要求贡献者不仅要掌握 Python 和 TBE 语言,更要对异构计算的内存模型、指令级并行和硬件架构有深刻的理解。从修正一个简单的 Bug,到一个新算子的 TBE 实现,再到复杂的性能优化,每一步贡献都将加深你对 AI 芯片栈的理解。积极参与社区的讨论和代码审查,将使你的技术视野从上层的应用层迅速下沉到硬件执行层,
本文探讨了大模型微调的概念与实践。通过对比Qwen3-4B-Base和Qwen3-4B-Instruct模型的测试,发现Base模型仅具备词语接龙能力,而Instruct模型经过指令微调后能更好地理解对话指令。文章介绍了大模型的三个阶段:预训练(Base模型)、监督微调(Instruct模型)和人类对齐(Chat模型)。指出微调的优势在于能内化能力、提升推理速度和定制输出风格,而Prompt工程存
在企业级AI服务落地过程中,单纯将训练好的PyTorch模型用torch.load直接部署,仅能满足测试场景需求:面对高并发请求时,原生推理存在GPU利用率低、延迟波动大、跨平台部署困难等短板,无法支撑电商质检、实时NLP、视频流分析等工业场景。ONNX Runtime(ORT)是微软开源的跨平台推理引擎,通过算子融合、内存优化、硬件厂商加速库集成等能力,成为PyTorch模型工业部署的主流选择。
基础理论结束,咱们今天的重心是使用快速高效的微调库Unsloth在Kaggle的T4显卡上,用15分钟将Qwen3-4B模型微调成认主咱们的专属模型。
AIGC 识别Swish节点自动从加载预编译 Kernel在 ATC 中注册为 Custom Op# 强制使用 FP16(跳过量化) python trans_ai.py --model = model.pt --precision fp16CANN 的 AIGC 智能转换工具,正在消除 PyTorch 开发者拥抱昇腾 NPU 的最后障碍。它将专家经验编码为 AI 智能体,让模型部署从“技术活”变
本文设计了一种基于YOLOv11和AI技术的野生动物智能监测系统,采用Vue3+SpringBoot+Flask架构实现。系统支持图片、视频和实时摄像头三种检测方式,可识别多种野生动物(如狗、猫、浣熊等),并实时显示预测结果和置信度。通过集成DeepSeek等大模型提供分析建议,支持检测报告导出和可视化展示。该系统融合了计算机视觉与深度学习技术,解决了传统监测方法效率低、成本高的问题,为野生动物保
在生产环境运维AI推理服务的三年里,我遇到过无数次线上故障:电商图像分类服务白天流量高峰时延迟从20ms突刺到200ms引发接口超时;垂直领域NLP模型部署后,精确率相比实验室环境下降8个百分点无法上线;量化加速后的检测模型出现随机漏检问题。市面上的教程大多只关注推理加速的「均值性能」,却忽略了生产环境最核心的稳定性和一致性。而企业级服务的考核指标,从来不是平均延迟,而是P99/P95延迟;模型效
2. 显卡驱动:whql-amd-software-adrenalin-edition-26.1.1-win11-b.exe (目前最新版本)(自行魔法)下载地址:https://github.com/guinmoon/rocm7_builds/releases。建议使用 AMD 官方 amd--cleanup--utility.exe 彻底清除旧版 驱动残留。官网https://git-scm.
当PyTorch研究员、TensorFlow运维、MindSpore移动端工程师围坐一桌,CANN用统一的算子语言消融框架壁垒。让开发者专注模型创新,而非框架适配。ops-nn仓库中的每一个适配器,都在缩短“创意”到“落地”的距离。你的多框架加速之旅3️⃣ 贡献新框架:在Issues提交标签需求“最好的框架,是让开发者忘记框架存在的框架。—— CANN社区集成哲学CANN的每一次框架桥接,都在编织
本文介绍了一个基于YOLOv13和DeepSORT的行人检测、追踪与计数系统。项目包含完整代码、预训练模型权重、GUI界面(使用PySide6开发)及模型训练记录,支持USB摄像头或笔记本摄像头输入。系统在PyCharm+Anaconda虚拟环境中运行,提供两种使用方式:直接使用预训练模型或重新训练模型。训练过程需修改数据集路径后运行train.py,验证阶段通过val.py评估模型性能。GUI界
在给中小企业做AI落地的两年里,我遇到最多的问题:没有A100/H100,甚至连专业GPU都没有,只有普通CPU服务器或几张游戏显卡;研发团队3-5人,没有专职运维,没法维护复杂的容器集群;模型上线周期要求短,最好1-2天完成从训练到生产部署。反观市面上大部分部署教程,要么围绕高端硬件展开,要么依赖重型运维框架,完全不贴合中小厂的真实业务环境。基于这些实际痛点,我沉淀了这套轻量级、低成本、易维护的
笔者先后为电商推荐、工业质检、政企知识库三大业务场景搭建过AI部署平台,落地过超50个PyTorch模型(包含ResNet、YOLO、BERT、QLoRA微调大模型等)。早期采用单模型单服务的部署模式,短短半年就暴露了致命问题:服务框架不统一(FastAPI/Tornado混用)、GPU资源利用率不足20%、模型版本混乱、故障排查耗时按天计算,完全无法支撑业务规模化迭代。基于上述痛点,我主导设计并
metadef(Metadata Definition)是CANN框架中用于描述算子元数据和实现逻辑的抽象层。它扮演着“桥梁”的角色,将上层框架(如MindSpore的算子描述)与底层CANN执行引擎(TBE/AI Core)的实现细节解耦。插件化的核心在于通过定义接口和数据结构,而非直接修改核心引擎代码来实现功能的扩展。在CANN的语境下,一个“算子插件”本质上就是一套遵循特定接口规范的实现集合
混合精度训练是利用昇腾 AI 处理器强大算力的必由之路。通过深度集成 PyTorch 与 CANN 框架,提供了稳定且高性能的混合精度执行环境。架构师应充分理解 FP16/BF16 的数值特性,并结合昇腾硬件的优势(如 BF16 支持),利用 CANN 的自动编译优化能力,实现训练速度的指数级提升。对底层算子映射和内存访问模式的洞察,是实现从“能跑”到“跑得快”的关键。
本文总结了生产环境中常见的大模型部署问题及解决方案。针对显存溢出(CUDA out of memory)问题,建议检查模型大小、调整KV Cache配置参数;多卡NCCL错误可通过检查GPU拓扑或临时禁用多卡通信解决;请求无响应问题可通过增大max-num-seqs等参数优化;PyTorch CUDA版本错误需重新安装GPU版本;模型加载卡顿可通过使用国内镜像或修改缓存权限解决。总体排查思路为:先
pytorch
——pytorch
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net