登录社区云,与社区用户共同成长
邀请您加入社区
一个非常适合初学者的大模型应用开发教程,内容系统且实践性强,能够帮助学习者快速掌握从基础到进阶的 LLM 开发技能。
本文详细介绍了在PyTorch框架中注册自定义算子并适配昇腾NPU平台的关键步骤
PyTorch作为业界主流的深度学习框架,广泛应用于深度学习模型的开发与训练。传统上PyTorch默认运行在CPU/GPU环境,而华为昇腾AI处理器通过异构计算架构CANN(Compute Architecture for Neural Networks)为PyTorch提供了强大的算力支持。本文将详细介绍如何在昇腾平台上搭建完整的PyTorch训练环境。底层:昇腾AI处理器+驱动固件中间层:CA
PyTorch生态与昇腾AI平台的适配实践,重点探讨了ResNet-50模型迁移的全流程
【AI课程领学】第八课 · 网络参数初始化(课时3) 其他初始化方法:正交、恒等、稀疏、预训练与 Transformer 初始化策略
PyTorch 2.0的XLA加速绝非简单的性能开关,而是AI开发范式的跃迁。它将开发者从"手动调优"解放,转向"编译器驱动"的新模式。从训练阶段扩展至全生命周期(数据预处理、推理、服务化)从性能优化演进为"能效-性能-合规"三位一体的部署标准行动建议优先在固定输入场景(如移动端、IoT设备)启用XLA通过的和获取最佳收益持续关注开源社区(如项目)对国产芯片的适配进展记住:XLA不是魔法,而是将"
【AI课程领学】第八课 · 网络参数初始化(课时2) 随机初始化:为什么“随机”是必要但不充分的?
碎碎念:976目标:本节手撕attention。做到能够默写以及默写标注# Transformer伪代码x = x +# 残差连接x = layer_norm(x)# 层归一化x = x + feed_forward(x)# 残差连接x = layer_norm(x)# 层归一化残差连接会让不同层的特征直接相加,若特征分布差异大,相加后数值会失真;LayerNorm 先归一化特征,让残差连接的数值
本文介绍了一种创新的方法,利用大语言模型(LLM)代理从原始文本中自动提取因果反馈模糊认知图谱(FCM)。通过三步系统指令,LLM能够系统性地识别文本中的关键概念和因果关系,构建动态系统模型,并预测其平衡状态。这一技术为复杂系统的因果推理和可解释AI开辟了新路径。阅读原文或https://t.zsxq.com/zrfLc获取pdf。
•继续卷 Scaling,但必须搞定“对齐”和“长尾”。•Agent 是生死门,模型必须学会“干活”。•攻克记忆和在线学习,让模型学会“自省”。•忘掉 App,忘掉领域模型,目标只有一个——工种替代。对于我们每一个人来说,这意味着什么?这意味着,“会用 AI 工具” 已经不够了。AI 不是锦上添花的效率工具,它是重新定义游戏规则的基础设施。正如19世纪的工厂主,面对蒸汽机时,不应该思考“怎么给我的
YOLOv5解析:PyTorch时代的工程化典范 YOLOv5是Ultralytics公司于2020年发布的基于PyTorch的目标检测框架,尽管存在命名争议,但其工程化实现、易用性和活跃社区使其成为最流行的检测框架之一。主要特点包括: 模块化架构:采用Focus模块(后改为6×6卷积)、CSP结构和SPPF模块,平衡性能与速度 多尺度模型:提供5种规模的预训练模型(n/s/m/l/x),参数从1
BERT为自然语言处理提供通用解决方案,微调时只需加全连接层。本文介绍了其在单文本分类、文本对分类或回归、文本标注和问答等任务上的应用及微调方法。
我们发现,算子级性能提升的瓶颈往往不在算子本身,而在框架与算子之间的“接口层”。NZ 格式在推理阶段表现优异,是因为数据格式在编译前已固化;而训练中,动态反向路径和多进程通信导致格式频繁切换。提前转置、格式冻结、算子融合,正是我们将推理优化思路迁移到训练端的重点。整个 GMM NZ 训练使能过程,从框架底层到算子适配,经历了多次性能权衡与调试。一次搬运,双重优化:sliceNZ 的核心价值在于合并
欢迎来到第三章节的学习。如果说前两章我们是在了解智能体是个“什么样的人”以及他的“家谱”,那么这一章,我们要真正打开它的头盖骨,看看那个被称为“大语言模型(LLM)”的大脑到底是如何像生物神经元一样运作的。别被那些学术名词吓倒。什么 Transformer、注意力机制、自回归……把它们当成我们为了造出一个“会说话的机器”而发明的一系列精巧的工具。我们会用最直观的方式拆解它们。准备好了吗?让我们开始
通过 TorchDynamo 的字节码重写、AOT Autograd 的图优化和 TorchInductor 的代码生成,实现了在保持 PyTorch 灵活性的同时获得接近静态图的性能。随着深度学习模型复杂度的不断提升,模型推理和训练的性能优化成为了业界关注的焦点。PyTorch 2.0 引入的 torch.compile 功能,通过即时编译(JIT)技术实现了显著的性能提升。随着技术的不断成熟,
随着智能设备的普及和用户对视觉体验要求的不断提高,图形渲染技术在操作系统中的地位日益重要。HarmonyOS Next作为华为推出的最新操作系统版本,在图形渲染和视觉体验方面进行了全面升级,为开发者和用户提供了更加流畅、细腻的交互体验。本文将围绕HarmonyOS Next的图形渲染技术、视觉优化策略以及实际应用展开详细解析,帮助开发者深入理解其技术细节和应用场景。:集成开发环境(IDE)支持图形
在当今快速发展的技术领域,深度学习模型的应用已经渗透到各个行业。从自动驾驶汽车到医疗影像分析,从自然语言处理到金融风险评估,深度学习模型的高效性和准确性使其成为解决复杂问题的强大工具。然而,如何将这些复杂的模型高效地部署到生产环境中,却是一个不小的挑战。Docker作为一种轻量级的容器化技术,因其便捷性、可移植性和一致性管理的优势,成为了许多开发者的首选。那么,用Docker部署深度学习模型,尤其
HR 亲口说:“我们面大模型岗,最关心的是能不能把需求变成代码,而不是学历证书。”
EEG设备的连接与数据采集;脑波分析与放松指数计算;智能环境参数的动态调节;测试与优化全流程。
HarmonyOS 5与Godot引擎的深度融合,不仅解决了传统游戏气象系统的“数据滞后、精度不足、特效失真”三大痛点,更开创了“气象数据驱动游戏特效”的新范式。从暴雨关卡的降雨量同步到全气象类型的动态模拟,技术的进步正让游戏从“虚构世界”逐步走向“数字孪生”,为用户带来更具沉浸感、科学性与社会责任感的交互体验。当游戏中的每一滴雨都与现实呼应,每一次台风都牵动玩家的“真实关切”,这或许就是技术与人
本文介绍了HarmonyOS 5新闻阅读应用的开发实战,重点讲解了响应式布局和分布式数据同步两大核心技术。通过栅格系统、断点监听实现多设备适配,利用分布式KVStore实现跨设备数据同步。文章详细解析了关键API,包括栅格布局、瀑布流、语音播报等功能实现,并提供了完整的增强型新闻详情页代码示例,展示了如何构建具备响应式UI和分布式能力的HarmonyOS应用。
HarmonyOS 5细胞工厂通过多组学数据融合与COBRA代谢模型集成,将传统细胞工厂的“经验试错”模式升级为“数据驱动的精准设计”。这一技术不仅缩短了生物合成研发周期、降低了成本,更推动了合成生物学向“高效、绿色、可预测”方向发展。未来,随着HarmonyOS在物联网与边缘计算领域的持续深化,细胞工厂或将扩展至碳中和、医药生产等全球性挑战场景,为“生物经济”提供核心技术支撑。
摘要: 2015-2025年,自动编码器(Autoencoder)从浅层降维工具发展为多模态自监督核心范式。2015年以Denoising AE为主(精度~80%),2017年VAE开启生成模型探索,2019年VAE-GAN提升生成质量。2021年自监督预训练(如SimCLR)推动表示学习,2023年多模态大模型(MAE)实现毫秒级重建。2025年,量子鲁棒VLA模型(如华为盘古、DeepSeek
摘要: PyTorch在2015-2025年间完成了从学术工具到产业级AI框架的跃迁。2015-2018年凭借动态图革命在学术界崛起,2019-2022年通过分布式训练支持大模型产业化,中国厂商开始主导应用。2023-2025年通过TorchCompile加速和量子/具身智能扩展成为行业标准,中国贡献超80%大模型实践,市场份额从<10%增至>85%,彻底取代TensorFlow成为A
上官网查询 https://developer.nvidia.com/cuda-gpus#collapseOne
cuda版本(下载需要登录)win10中可以安装多个版本的cuda,但是显卡驱动只能安装一个cuda10.2的下载地址:https://developer.nvidia.com/cuda-10.2-download-archivecuda11.4 的下载地址 : https://developer.nvidia.com/cuda-downloads显卡算力地址:https://developer.
1 END-TO-END MACHINE LEARNING FRAMEWORK(端到端的机器学习框架)上述这样命名就是因为深度学习只是机器学习的一个分支2 pytorch的优点:简单易用、分布式训练、服务器部署方便、移动端部署方便;3 PyTorch 是基于以下两个目的而打造的python科学计算框架:无缝替换NumPy,并且通过利用GPU的算力来实现神经网络的加速。通过自动微分机制,来让神经网络
上查看包括cuda Toolkit。(当然清华镜像源的方法更较为方便)还有就是Python环境的版本,在近来的代码复现过程中我一直在调整版本,一定要看好对应的Python版本。在建设虚拟环境中常常遇到版本匹配问题,很重要的是需要知晓显卡算力对应的cuda版本,像30系的显卡就已经不支持11以下的版本了,显卡的信息可以到。最后就是在安装torch包,cuda的版本也需要一一对应,选用合适的torch
,
计算机视觉爱好者,有自己的算力(8块2080Ti),熟练运用pytorch深度学习框架,擅长图像分类、目标检测、图像分割应用。有需要的小伙伴可以加我微信tiankongdecheng1
跑yolo遇到的问题watch -n 0.1 -d nvidia-smi差不多吃满了top进去查看CPU和内存的使用:如果内存使用较高说明可能是内存不够,此时您可以通过升配GPU(内存大小按GPU数量成比例分配)来排除该问题。假设您的实例核心数为5,如果CPU占用率接近500%(即5个核心都正在高负载使用)那么可能是CPU数量不够,CPU出现了瓶颈,此时您可以迁移实例到更高CPU数量的主机上去或者
图像分类是计算机视觉的核心任务,广泛应用于自动驾驶、医疗影像分析和人脸识别等领域。深度学习,特别是卷积神经网络(CNN),极大推动了这一技术的发展。2012年,AlexNet在ImageNet挑战赛中大幅降低分类错误率,标志着深度学习时代的开端。此后,模型架构从 ResNet 进化到 VisionTransformer(ViT),性能不断提升。到2025年,硬件算力增强和PyTorch 2.x 等
4.GoogleNetGoogleNet(也可称作Inception)是在2014年由Google DeepMind公式的研究员提出的一种全新的深度学习结构,并取得了ILSVRC2014比赛项目的第一名。GooleNet共有22层,并且没用全连接层,所以使用了更少的参数,在GooleNet前的AlexNet、VGG等结构,均通过增大网络的层数来获得更好的训练结果,但更深的层数同时会带来较多的负面效
大家好啊,我是小松鼠,作为白桃小师姐的好友,我一直有一个梦想,就是做一个小世界的鬼畜视频。无奈的是,菜菜的我真的学不会AU和PR,迫不得以暂时放弃了这个梦想。直到前几天,我刷GitHub的时候发现了这个项目,MockingBird!首先让我先来简单的介绍一下MockingBird,他是一个AI拟声项目,可以在5秒内克隆您的声音并生成任意语音内容,比如这个~项目地址:https://github.c
设备管理器-显示适配器 查看自己电脑显卡型号,https://developer.nvidia.com/cuda-downloads官网下载。注:nvidia-smi 大于等于nvcc --version,否则须根据显卡更新驱动。nvcc --version# 实际安装的CUDA版本(以此为准)nvidia-smi# 显示的是驱动支持的最高CUDA版本。CUDA支持算力调整至适合版本安装。选择匹配
pytorch
——pytorch
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net