登录社区云,与社区用户共同成长
邀请您加入社区
虽然基础模型权重相同(都是DeepSeek-R1蒸馏的Qwen-32B),但不同版本针对。
系统测试的十年演进(2015-2025):从人工到AI无人化 过去十年,系统测试经历了三大阶段变革:2015-2018年的敏捷自动化阶段,以Selenium和测试左移为特征;2019-2022年进入云原生时代,测试右移和自愈测试兴起;2025年则迈向AI驱动的无人测试,AI Agent能自主生成用例并执行验证。关键技术突破包括eBPF实现内核级监控、大模型语义断言和边缘测试。测试角色从"
摘要: Triton(2015–2025)从学术研究发展为PyTorch 2.0+默认后端,核心目标是让非CUDA专家通过Python编写高性能GPU算子。其演进分为三阶段: 学术期(2015–2019):提出基于分块(Tile)的抽象和Triton-IR,优化矩阵运算性能。 OpenAI 1.0时代(2020–2022):开源后成为FlashAttention等算子的关键工具,并与PyTorch
CLIP(Contrastive Language-Image Pre-training)作为OpenAI提出的跨模态对比学习经典模型,实现了图像-文本的双向语义对齐,凭借零样本迁移能力成为计算机视觉和自然语言处理跨模态任务的基础。本文将逐行解析CLIP的PyTorch原生实现源码,从基础模块到整体架构,深入理解其视觉编码器、文本编码器和对比学习核心逻辑,同时掌握其中的经典改进技巧(如改进ResN
本文详细介绍了在WSL2环境下安装vLLM大语言模型推理框架的完整流程。核心步骤包括:1)检查并配置WSL2环境,确保支持GPU透传;2)安装NVIDIA驱动和专用CUDA Toolkit(WSL-Ubuntu版本);3)配置Python虚拟环境并安装支持CUDA的PyTorch;4)最后通过pip安装vLLM核心库。整个过程强调必须使用GPU加速环境,并提供了各环节的验证方法,包括nvidia-
本项目研发了一套基于FPGA与多模态AI的医用红外热成像辅助诊断系统"热脉智诊"。系统采用640×480高清红外模组,通过FPGA实现实时预处理,结合YOLOv11穴位定位和双流网络疾病诊断,构建从硬件采集到云端智能的闭环解决方案。创新性地提出2000级HSV伪彩增强技术,显著提升图像质量。临床验证显示早期筛查准确率超90%,同时硬件成本降低40%以上。系统实现了中医穴位自动定
LLaMA(Large Language Model Meta AI)是 Meta(原 Facebook)于 2023 年推出的开源自回归大语言模型系列,基于纯解码器 Transformer 架构优化,本文致力于学习构建LLaMA2语言模型,针对作者自己学习过程中的问题进行归纳总结。
本文介绍了一个基于YOLOv10的花卉检测系统,使用PyTorch框架实现。项目包含完整代码、数据集、预训练模型权重、GUI界面及性能指标。GUI界面由PySide6开发,支持图像和视频实时检测。系统支持两种使用方式:直接加载预训练模型或重新训练模型(需修改数据集路径后运行train.py和val.py)。项目结构清晰,包含模型训练、验证和GUI展示模块。核心代码展示了图像上传、目标检测和结果显示
torchrun 是 PyTorch 官方推荐的分布式训练启动器,它的作用是:启动多进程分布式训练(支持多 GPU,多节点)自动设置每个进程的环境变量协调节点之间建立通信。
关于PyTorch弹性训练,迄今为止我们已经分别介绍了 Agent 和 rendezous,但是有些部分并没有深入,比如监控,本文就把它们统一起来,对弹性训练做一个整体逻辑上的梳理。
RTX3050,对应算力8.6,对应cuda runtime11.1--11.7+,cuda driver vision12.2。
1、显卡2、cuda对应版本在cuda的wikepedia中搜索到的算力是7.5(需要翻墙)确定cuda可以满足10.0-10.2和11.0-3、查看自己的cuda driver version4、查看英伟达驱动版本5、pytorch官网中确定下载cuda11.36、使用清华镜像更快Index of /anaconda/ | 清华大学开源软件镜像站 | Tsinghua Open Source M
随着游戏行业的发展,实时渲染算力已经成为游戏开发中的关键技术。无论是提升画质、打造沉浸式体验,还是加速开发周期,实时渲染算力都在推动游戏产业的革新。本文将深入探讨实时渲染算力的作用、前景及其在游戏开发中的重要性。
编译器中的算力设置与显卡算力不匹配解决方法要查看显卡算力,可以直接去nvidia查看。进去后,里头会有几个可选项点进去自己显卡对应的系列即可。比如大家最常用的GeForce系列显卡算力表:注释:在下面的算力值填写为上图的算力值*10对于cmake的做法,将算力设置为符合自己的数值set(CUDA_GEN_CODE "-gencode=arch=compute_**,code=sm_**")# 根据
1.Overview1.为什么要进行特征提取? 维度诅咒:特征越多,纬度越高,表示特征所需的数据指数上升。2.反向传播:核心:计算图算法 数据集算力深度学习基本 线性代数+概率论与数理统计+python少于一年时间TensorFlowCaffe 2PyTorch2.Linear Model过拟合泛化能力The machine starts with a random guess, w=random
本文介绍了一个基于YOLO目标检测和深度学习的血液细胞智能检测系统。系统采用YOLO系列算法实现血涂片中白细胞、红细胞和血小板的精准识别,结合DeepSeek优化技术提升模型性能。技术架构上,后端使用SpringBoot+MySQL,前端采用Vue3+Echarts,实现从图像上传到智能报告生成的全流程功能。系统支持四种检测方式(批量、图片、视频、摄像头),具备用户权限管理,检测结果可导出PDF,
代码地址:github.com/deepspeedai/DeepSpeedDeepSpeedv0.18.5是一次稳定而重要的更新。该版本在多平台支持、分布式训练性能、BF16 与 ZeRO 模式兼容性、文档一致性等方面都进行了全面优化。随着 PyTorch 2.9 的支持加入,DeepSpeed 在高性能大模型训练领域的工程成熟度再度提升。这次更新不仅强化了核心训练引擎的健壮性,也为未来的性能扩展
本文分析了PyTorch中常见的ImportError: cannot import name 'DTensor'错误,该问题主要由于PyTorch版本过低或环境配置不当导致。文章详细介绍了错误原因,包括PyTorch版本低于2.1、环境不一致、依赖缺失或导入路径错误等情况。解决方案包括:检查并升级PyTorch至2.1+版本、确认正确的导入路径、检查Python环境和依赖完整性、确保分布式训练依
PyTorch 入门知识点(安装 + 张量 + 简单神经网络搭建),全程步骤清晰、代码可直接复制
在将预训练的机器学习模型投入生产环境之前,模型训练是不可或缺的关键环节。随着深度学习的发展,大模型往往具有数百万乃至数十亿参数。使用反向传播来调整这些参数需要大量的内存和计算资源,模型训练可能需要数天甚至数月时间才能完成。在本节中,我们将学习如何借助 torch.cuda.amp.autocast 和 torch.cuda.amp.GradScaler 等 API 实现混合精度训练,在加快深度学习
本文针对 PyTorch 开发中常见的 ImportError: cannot import name 'DTensor' 报错进行了系统分析。该问题主要源于 PyTorch 版本过低(需≥2.1)、环境冲突或路径错误。解决方案包括升级 PyTorch 至2.1+版本、使用传统分布式API替代、排查环境冲突等。通过验证安装版本、清理冲突环境,开发者可以顺利使用DTensor实现多GPU/节点的分布
大模型推理的基本原理与标准介绍
本文介绍了一个基于PyQt5的本地化AI智能助手工具,集成了Qwen3-ASR语音识别和Ollama大语言模型。该应用采用多线程架构实现语音转文字、本地模型调用和结果展示功能,主要特点包括:1)支持多种音频格式和多语言识别;2)可连接本地Ollama服务进行文本处理;3)提供直观的GUI界面操作;4)完全本地运行确保数据隐私。系统具备设备自适应、流式响应和错误处理等关键技术特性,适用于会议记录、多
import osif cfg:else:raise ValueError("cfg 未指定,且权重中没有可用的 yaml")if ckpt:else:if state:model,dummy,onnx_path,try:raise RuntimeError("onnxsim 简化失败")print(f"[WARN] onnxsim 失败: {e}")print(f"ONNX 导出完成: {out
【学术会议前沿信息|科研必备】2026学术征稿集结令!四大顶会来袭,EI/Scopus检索,涵盖先进电子技术、计算机与软件工程、信息安全与数据科学、机器学习与大模型、机器人感知与智能控制领域!
与LeNet有相同之处,也有很多区别;比如适用大尺寸的图像所以使用11X11这种大尺寸的卷积核使用Relu激活函数,对比tanh/sigmoid激活函数,训练更快且避免梯度消失dropout随机使得一些神经元失活防止过拟合(用在全连接层)LRN局部归一化:正则项,防止过拟合# input_size还必须是元组,使用列表就会报错,,,,AlexNet中使用了dropout,resnet丢弃dropo
初始化函数的核心是为后续注意力计算准备超参数和可学习层,每段代码对应多头注意力的前置设计,无直接公式但为公式落地做铺垫。当需要投影时,就是公式中的输出投影矩阵WOW^OWO,将拼接后的h×dkh×dk维度映射回原输入维度dimdimdim;:为投影后的特征添加正则化,防止过拟合,是工程实践的必要补充;无需投影时,用(恒等映射)替代,保证代码逻辑统一,输入输出维度一致。本文通过代码逐段拆解+核心公
【AI课程领学】第十五课 · 深度学习开源工具简介(课时2) 代表性框架与工具链的特点:从“能训练模型”到“完整 AI 工程生态”
《大模型技术30讲》这本书如同一座桥梁,连接起了学术理论与工程实践的两岸,为工程师们提供了一套全面且深入的技术知识体系和实践指导。
这几本书是一路上踩坑总结的「大模型学习黄金书单」,从编程入门,到深度学习基础,再到 LLM 原理、落地应用,完整一条线,不忽悠、不烧香,适合想认真搞事的朋友!
智能客服系统微调需谨慎:关键在于风险管理而非能力提升 智能客服系统建设常陷入误区,将大模型微调视为提升能力的"万能药"。然而,客服场景的核心是"处理得当"而非简单问答,涉及规则遵循、情绪安抚、风险边界把控等多维度考量。不当的微调可能固化历史数据中的随意性,导致输出不稳定、边界模糊等问题。真正有效的微调应聚焦于三类场景:稳定输出风格、处理规则明确的高频问题、优
本文介绍了一个使用PyTorch实现的简单神经网络训练项目,旨在学习两个变量乘积函数Y=X1*X2的拟合关系。项目包含数据生成与标准化、神经网络模型定义、训练配置和训练循环四个核心模块。采用三层全连接网络结构,使用ReLU激活函数和Adam优化器,通过MSE损失函数进行1000轮训练。文章详细解释了神经网络前向传播过程、标准化处理和训练参数设置,并展示了典型的AI项目文件结构,为初学者提供了完整的
本文详细介绍了如何使用PyTorch框架训练Transformer模型,从Tokenization、Embedding、位置编码到前向传播、损失计算和反向传播的全流程。文章通过model.py和train.py两个文件实现模型架构和训练过程,解释了残差连接等关键概念,强调现有框架使训练变得简单,即使是消费级显卡也能完成。作者提供了完整代码,帮助读者从零开始构建并训练自己的Transformer模型
【AI课程领学】第十五课 · 深度学习开源工具简介(课时1) 常用深度学习框架对比:从设计哲学到工程实践的全面解析
【学术会议前沿信息|科研必备】JPCS/IEEE出版·EI检索 | 2026材料工程、应用力学、电子AI、应用经济学、管理科学、社会发展、可再生能源与节能国际会议征稿
RuntimeError: CUDA out of memory 是深度学习训练中常见的显存问题,其根本原因通常是 GPU 显存被占满或分配不合理。通过五重方法可以高效应对:释放或切换 GPU、调小 batch size、定期清理显存、在测试/验证阶段禁用梯度计算,以及调整 DataLoader 的 pin_memory 设置。这些方法既能解决显存不足带来的训练中断,也能优化显存使用效率,保证大模
pytorch
——pytorch
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net