登录社区云,与社区用户共同成长
邀请您加入社区
CUDA作为NVIDIA推出的并行计算平台,自2006年问世以来,已成推动人工智能、科学计算等领域技术突破的核心引擎。其架构涵盖硬件抽象层、运行时环境及开发工具链三层,通过SIMT架构、内存层次优化等实现性能突破,在金融、医学等多领域广泛应用。CUDA构建了从硬件到软件的闭环生态,拥有庞大开发者群体和行业认证标准。尽管面临华为CANN等开放生态竞争及光子计算等能效挑战,CUDA仍持续进化,其开创的
AI芯片是支撑人工智能计算的核心硬件,主要分为通用型(如GPU)和专用型(如TPU、NPU)两大类。GPU凭借并行计算能力和成熟生态,主导AI训练领域;TPU/NPU专为神经网络优化,能效比更高;FPGA提供硬件可编程的灵活性;ASIC则实现终极性能优化。选择时需权衡通用性与专用性:GPU适合算法探索,NPU适用于边缘设备,TPU/ASIC适合规模化部署,FPGA则用于特殊场景的低延迟需求。随着A
大模型的训推即训练和推理,是大模型生命周期中两个非常重要的环节,以下为你详细介绍:
在几乎所有关于大型语言模型(LLM)的访谈中,总有一个问题反复出现:“部署 LLM 需要多少 GPU 内存?这个问题并非偶然,它是衡量您对这些强大模型在实际生产环境中部署和扩展能力理解程度的关键指标。当您在处理像 GPT、LLaMA 或其他任何 LLM 时,准确估算所需的 GPU 内存至关重要。不论您面对的是7B参数的模型还是更大规模的模型,合理配置硬件资源以确保模型高效运行是不可忽视的环节。接下
RAG(检索增强生成)技术结合信息检索与语言模型,通过外部知识库检索增强AI的知识处理能力。趋动云推出基于【embeddinggemma-300m】嵌入模型和【qwen3-14b】生成模型的简易RAG项目示例,支持多语言、量化优化等功能。用户可一键部署体验,上传本地文档即可实现智能问答。项目提供快速开发环境,完成使用后需及时关闭避免额外费用。新用户可参与限时活动获取算力金奖励。
摘要:本文探讨了深度学习模型量化部署的三种关键技术:后训练量化(PTQ)、量化感知训练(QAT)和量化感知蒸馏(QAD)。PTQ简单高效但可能导致精度下降,QAT通过训练过程中模拟量化操作来恢复精度,QAD则结合知识蒸馏进一步优化性能。文章详细介绍了QAT/QAD的工作原理,并展示了如何利用NVIDIA TensorRT工具链实现这些技术。这些方法能在保持模型精度的同时显著提升推理效率,特别是对于
本博客将全面介绍CUDA中的数学函数,从基础概念到实际应用,帮助读者深入理解如何在CUDA程序中高效使用这些函数。CUDA数学函数的分类和特性标准数学函数的使用方法和精度分析内部函数的特点及其与标准函数的区别丰富的代码示例,展示各类数学函数的使用方法性能优化技巧,帮助开发者在精度和速度之间做出合理的权衡常见问题及解决方案无论你是CUDA初学者还是有经验的GPU程序员,本文都将为你提供有价值的信息和
AutoDL是一个专注于AI开发的云GPU平台,支持多种主流深度学习框架(如PyTorch、TensorFlow),并提供丰富的镜像环境。用户可以按需租用GPU资源,按小时计费,极大降低了AI开发的门槛。AutoDL为AI开发者提供了极大的便利,让我们可以专注于算法和模型本身,而不用为算力和环境配置发愁。希望这篇教程和心得能帮助你更高效地使用AutoDL,开启你的AI之旅!
NVIDIA在COMPUTEX 2024推出Rubin平台,其核心创新是专为LLM预填充阶段设计的CPX处理器。该处理器与Rubin GPU协同工作,通过异构计算解决百万级Token上下文带来的计算瓶颈。CPX针对预填充阶段的计算密集型特性进行优化,与GPU分工协作:CPX处理预填充,GPU专注于生成阶段。这种架构使预填充性能提升4倍,整体推理性能提升3倍,同时能效提高1.5倍。平台采用MGX模块
LiveTalking是一款开源实时互动数字人引擎,支持通过音频流驱动50fps高清虚拟主播。核心技术包括:1)多模态大模型实现智能交互;2)ER-NeRF增强的面部表情捕捉;3)跨域网络实现音频到全身动作的实时转换。系统提供三种部署方式(Gradio/WebRTC/RTMP),在RTX3060上可实现300ms低延迟直播。 主要优势: 10分钟快速部署,支持电商/教育等场景落地 相比Wav2Li
场景化体验优化将重塑用户交互逻辑:针对医疗远程诊断、工业协同设计等垂直场景,PC 集群需深度适配终端设备能力(如平板触控交互、手机低功耗模式),依托跨系统兼容性打通协议壁垒(如 UOS 系统下的 3D 模型轻量化渲染、iOS 终端的低延迟编码),使远程访问 3D 模型、医疗影像的操作延迟低于 50ms,与本地设备体验差异缩小至 “无感”,真正实现 “终端无算力,体验无差别”,借由 “软件封装” 中
面对无GPU资源、禁用外部API的严苛条件,本文通过llama.cpp开源项目实现70亿参数大模型在普通CPU环境的高效运行。从量化技术原理到实战部署,详解如何突破硬件限制,为资源受限团队提供可复用的落地方案。
多场峰包括:人工智能峰会、艺术指导峰会、音频峰会、教育工作者峰会、免费游戏峰会、未来现实峰会、游戏叙事峰会、独立游戏峰会、水平设计峰会、机器学习峰会和技术艺术家峰会等。提名的游戏包括《塞尔达传说:王国之泪》、《博德之门 3》、《茧》(Cocoon)、《潜水员戴夫》、《渔帆暗涌》和《漫威蜘蛛侠 2》等。2、会议期间,会有超过700场的演讲和研讨会,内容涉及AI、VR/AR、编程、叙事、独立游戏、音乐
使用AutoDL 本地部署ChatGLM3-6B(智谱清言大模型),并简单的进行一个多轮对话的调用。
OmniGen 是智源推出的一款全新的扩散模型架构,专注于统一图像生成。它简化了图像生成的复杂流程,通过一个框架处理多种任务,例如文本生成图像、图像编辑和基于视觉条件的生成等。此外,OmniGen 通过统一学习结构实现了知识迁移,使其能够适应不同的任务和领域需求。该模型不仅高度简化和易用,还在图像生成领域展示了强大的灵活性。功能介绍:文本生成图像:通过文本描述生成相应的图像。图像编辑:根据用户需求
AI变革正酣,之江潮水奔流。当宇树Unitree机器人火热出圈、DeepSeek/Qwen等大模型获得全球广泛关注、群核科技的空间智能影响多个行业……浙江,这片“敢为天下先”的土地,在人工智能产业又一次勇立潮头。数据显示,2024年浙江省人工智能核心产业营业收入接近5800亿元,增长势头强劲。浙江最新《关于支持人工智能创新发展的若干措施》(以下简称《若干措施》)更提出,到2027年,初步形成可持续
硬件故障是 GPU 运维中最直接的问题,通常表现为设备无法识别或运行异常,需优先排查物理层面问题。症状:可能原因:处理方法:症状:可能原因:处理方法:GPU 依赖驱动程序与系统、应用交互,驱动版本不匹配或配置错误是常见故障源。症状:可能原因:处理方法:症状:可能原因:处理方法:症状:可能原因:处理方法:GPU 性能未达预期(如算力低、利用率低)会直接影响业务效率,需从硬件、任务调度等层面排查。症状
硬件问题的核心是 “物理状态异常”,但表现可能被软件层掩盖(如 “驱动崩溃” 实际是硬件接触不良),需结合物理检查和工具验证。驱动和固件是硬件与软件的 “桥梁”,其问题常表现为 “间歇性失效” 或 “版本依赖冲突”,且排查依赖日志深度分析。在虚拟化(如 vGPU)或集群(如 K8s)环境中,问题常涉及 “多层级配置”,需结合虚拟化日志和节点状态排查。:2 个进程共享 1 块 24GB GPU,总显
方法1:直接在运行程序命令 前添加 CUDA_VISIBLE_DEVICES=1(自己服务器上的GPU number) 样例如下:CUDA_VISIBLE_DEVICES=1 python your_program.py方法2:在自己的代码中添加import osos.environ["CUDA_VISIBLE_DEVICES"] = "2"...
FluxGym 是一款用于简化 Flux LoRA 模型训练的工具,特别适用于低显存环境(如12GB、16GB或20GB VRAM)。LoRA 模型是一种低秩适应技术,允许在较小的数据集上微调大型模型,而无需大量计算资源。FluxGym 为用户提供了一个图形界面,使得即使没有深厚编程背景的用户也可以轻松上手训练 Flux LoRA 模型。
运维 3000 多台 GPU 机器需要综合考虑硬件、软件、监控、安全等多个方面,通过建立完善的管理体系和流程,提高运维人员的技术水平和团队协作能力,才能确保 GPU 集群的稳定运行,为业务提供有力的支持。运维 3000 多台 GPU 机器是一项复杂且具有挑战性的任务,需要从硬件管理、软件维护、监控与故障处理、安全管理等多个方面进行全面的规划和实施。
AutoDL AI算力云是一个提供人工智能算力服务的云平台。丰富的GPU资源:提供多种GPU型号,包括NVIDIA的A100A800L40V100RTX 4090RTX 3090等,能满足我们在不同场景下的需求,无论是进行大规模的AI训练还是复杂的科学计算等任务,都可以找到合适的GPU资源。灵活的付费方式:支持按量付费包日包周包月等多种付费模式。对于短期的实验或不确定时长的项目,可以选择按量付费;
一般来说,电脑默认都是使用单GPU的,本人正好拿到了两个显卡,在尝试了多次之后才成功,所以记录一下,如果要使用多GPU的话,那么必须进入Bios将Above 4G Decoder 打开 。参考:above 4g decoding记K80翻车—从计算卡变游戏卡...
在Linux服务器上安装NVIDIA驱动程序
服务器抢占空闲GPU的Shell脚本
基于AMD锐龙AI Max+ 395 Mini AI工作站,AMD正在下一盘大棋,除了前面提到的中小企业、个人开发者,Mini AI工作站还瞄准了AI教育、超级个体、数据分析、家庭AI HUB、空间智能等多个领域,并依托AMD从数据中心到边缘侧、嵌入式、再到终端设备的全栈式、端到端的全链AI解决方案优势,以及AMD中国AI应用创新联盟上百家优秀AI ISV伙伴,在硬件和软件上共同推动、赋能AI企业
阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!【DiffSynth-Studio】 模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【DiffSynth-Studio】带来的精彩体验吧!
在 Margin 测试中,BDF 号指的是 PCI Express(PCIe)设备的总线 / 设备 / 功能号(Bus/Device/Function)。通过BDF 号可以准确地定位到每个 PCIe 设备,从而对其进行相应的测试操作。例如:80:01.2就是这个NVME盘的BDF号码。
这些命令涵盖了GPU运维中的监控、管理、调试等常见任务,帮助运维人员有效管理和优化GPU资源。`nvidia-smi` 是NVIDIA提供的命令行工具,用于监控和管理GPU状态。显示系统中所有GPU的使用情况(需安装`gpustat`工具)。显示GPU的详细信息,包括温度、风扇速度、电源使用等。重置指定GPU(`<GPU_ID>`为GPU编号)。### 1. **NVIDIA-smi 命令**##
以下代码用于测试GPU多机多卡通信带宽。
本文介绍了在AutoDL算力平台上部署AI模型的完整流程:1)租用实例时选择无卡模式降低成本;2)通过VSCode远程连接服务器,使用SSH插件完成配置;3)提供两种模型下载方式(GitLFS和ModelScopeSDK),详细说明GitLFS的安装和模型下载步骤;4)部署运行阶段,指导安装vllm并启动服务,强调需指定模型路径和名称参数。整个过程覆盖从实例创建到模型服务的全链路操作。
TANGO 是一项前沿的AI技术,旨在解决传统数字人生成技术中存在的局限性,如只能生成面部或唇形同步的视频片段。通过结合音频输入与参考视频中的动作数据,TANGO 能够生成与音频内容匹配的全身动作视频,使得生成的人物形象更加生动逼真。TANGO框架的开源和高效性为其在数字人领域的应用提供了广阔的前景。以下是几个潜在的应用场景:虚拟主持人: 利用TANGO框架,可以轻松生成与真实主持人相似度极高的虚
本文记录了H800基础测试步骤及测试结果。
用于测试NVIDIA GPU是否支持P2P通信的代码
在大型语言模型(LLM)的实际部署与应用中,推理性能调优是决定技术落地成败的核心环节。随着模型规模指数级增长,如何在延迟(Latency)与吞吐量(Throughput)之间实现最佳平衡,成为开发者面临的关键挑战。
喜马拉雅AI云借助阿里云提供的HybridBackend开源框架,实现了其推荐模型在 GPU 上的高效训练。
9月10日,在Arm Unlocked 2025AI技术峰会上,全新Arm Lumex计算子系统(Compute Subsystem,CSS) 平台得以发布,其核心组件主要包括Arm C1 CPU集群、Mali G1-Ulra GPU以及系统IP,满足旗舰移动设备和 PC上持续增长的端侧 AI 体验需求。
GPU
——GPU
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net