社区云

GPU

威迪斯特来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 14小时前

CUDA：解锁并行计算潜能的通用加速引擎

CUDA作为NVIDIA推出的并行计算平台，自2006年问世以来，已成推动人工智能、科学计算等领域技术突破的核心引擎。其架构涵盖硬件抽象层、运行时环境及开发工具链三层，通过SIMT架构、内存层次优化等实现性能突破，在金融、医学等多领域广泛应用。CUDA构建了从硬件到软件的闭环生态，拥有庞大开发者群体和行业认证标准。尽管面临华为CANN等开放生态竞争及光子计算等能效挑战，CUDA仍持续进化，其开创的

#算力 #GPU #人工智能 +3

422 

8 
DK_Allen 来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 20小时前

GPU/TPU/NPU/FPGA/ASIC 各类AI芯片介绍

AI芯片是支撑人工智能计算的核心硬件，主要分为通用型（如GPU）和专用型（如TPU、NPU）两大类。GPU凭借并行计算能力和成熟生态，主导AI训练领域；TPU/NPU专为神经网络优化，能效比更高；FPGA提供硬件可编程的灵活性；ASIC则实现终极性能优化。选择时需权衡通用性与专用性：GPU适合算法探索，NPU适用于边缘设备，TPU/ASIC适合规模化部署，FPGA则用于特殊场景的低延迟需求。随着A

#fpga开发 #人工智能 #GPU

813 

22 
杰克逊的日记来自魔乐社区

modelers.csdn.net · 2025-04-21 14:01:20

大模型训推

大模型的训推即训练和推理，是大模型生命周期中两个非常重要的环节，以下为你详细介绍：

#GPU

445 

3 
AI_小站来自魔乐社区

modelers.csdn.net · 2024-09-23 10:33:04

如何精准计算：大型语言模型（LLM）部署到底需要多少GPU内存？

在几乎所有关于大型语言模型（LLM）的访谈中，总有一个问题反复出现：“部署 LLM 需要多少 GPU 内存？这个问题并非偶然，它是衡量您对这些强大模型在实际生产环境中部署和扩展能力理解程度的关键指标。当您在处理像 GPT、LLaMA 或其他任何 LLM 时，准确估算所需的 GPU 内存至关重要。不论您面对的是7B参数的模型还是更大规模的模型，合理配置硬件资源以确保模型高效运行是不可忽视的环节。接下

#人工智能 #自然语言处理 #GPU

662 

10 
virtaitech 来自 2048 AI社区

2048ai.net · 2025-09-22 14:12:35

云平台一键部署【embeddinggemma-300m】【RAG】高性能嵌入模型以及知识检索

RAG（检索增强生成）技术结合信息检索与语言模型，通过外部知识库检索增强AI的知识处理能力。趋动云推出基于【embeddinggemma-300m】嵌入模型和【qwen3-14b】生成模型的简易RAG项目示例，支持多语言、量化优化等功能。用户可一键部署体验，上传本地文档即可实现智能问答。项目提供快速开发环境，完成使用后需及时关闭避免额外费用。新用户可参与限时活动获取算力金奖励。

#人工智能 #AI #GPU +2

772 

8 
扫地的小何尚来自 2048 AI社区

2048ai.net · 2025-09-22 13:28:35

量化感知训练：如何恢复低精度模型的准确性

摘要：本文探讨了深度学习模型量化部署的三种关键技术：后训练量化(PTQ)、量化感知训练(QAT)和量化感知蒸馏(QAD)。PTQ简单高效但可能导致精度下降，QAT通过训练过程中模拟量化操作来恢复精度，QAD则结合知识蒸馏进一步优化性能。文章详细介绍了QAT/QAD的工作原理，并展示了如何利用NVIDIA TensorRT工具链实现这些技术。这些方法能在保持模型精度的同时显著提升推理效率，特别是对于

#人工智能 #GPU #语言模型

556 

9 
扫地的小何尚来自讯飞AI开发者社区

xfyun.csdn.net · 2025-03-18 09:19:56

CUDA数学函数详解：从基础到优化

本博客将全面介绍CUDA中的数学函数，从基础概念到实际应用，帮助读者深入理解如何在CUDA程序中高效使用这些函数。CUDA数学函数的分类和特性标准数学函数的使用方法和精度分析内部函数的特点及其与标准函数的区别丰富的代码示例，展示各类数学函数的使用方法性能优化技巧，帮助开发者在精度和速度之间做出合理的权衡常见问题及解决方案无论你是CUDA初学者还是有经验的GPU程序员，本文都将为你提供有价值的信息和

#python #GPU

1135 

22 
小馒头学python 来自 2048 AI社区

2048ai.net · 2025-09-21 15:20:00

高质量算力平台AutoDL使用教程、技巧与心得分享

AutoDL是一个专注于AI开发的云GPU平台，支持多种主流深度学习框架（如PyTorch、TensorFlow），并提供丰富的镜像环境。用户可以按需租用GPU资源，按小时计费，极大降低了AI开发的门槛。AutoDL为AI开发者提供了极大的便利，让我们可以专注于算法和模型本身，而不用为算力和环境配置发愁。希望这篇教程和心得能帮助你更高效地使用AutoDL，开启你的AI之旅！

#算力 #人工智能 #GPU

344 

5 
扫地的小何尚来自 2048 AI社区

2048ai.net · 2025-09-21 08:38:04

NVIDIA Rubin CPX：为百万级Token上下文工作负载加速推理性能与效率

NVIDIA在COMPUTEX 2024推出Rubin平台，其核心创新是专为LLM预填充阶段设计的CPX处理器。该处理器与Rubin GPU协同工作，通过异构计算解决百万级Token上下文带来的计算瓶颈。CPX针对预填充阶段的计算密集型特性进行优化，与GPU分工协作：CPX处理预填充，GPU专注于生成阶段。这种架构使预填充性能提升4倍，整体推理性能提升3倍，同时能效提高1.5倍。平台采用MGX模块

#人工智能 #语言模型 #GPU +1

742 

28 
正在走向自律来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 2025-09-20 23:38:51

探索LiveTalking：开启实时数字人交互新时代

LiveTalking是一款开源实时互动数字人引擎，支持通过音频流驱动50fps高清虚拟主播。核心技术包括：1）多模态大模型实现智能交互；2）ER-NeRF增强的面部表情捕捉；3）跨域网络实现音频到全身动作的实时转换。系统提供三种部署方式（Gradio/WebRTC/RTMP），在RTX3060上可实现300ms低延迟直播。主要优势： 10分钟快速部署，支持电商/教育等场景落地相比Wav2Li

#GPU

1129 

42 
高性能服务器来自广州城市开发者社区

devpress.csdn.net/guangzhou · 2025-07-25 16:06:47

GPU服务器与PC 集群（PC农场）：科技算力双子星

场景化体验优化将重塑用户交互逻辑：针对医疗远程诊断、工业协同设计等垂直场景，PC 集群需深度适配终端设备能力（如平板触控交互、手机低功耗模式），依托跨系统兼容性打通协议壁垒（如 UOS 系统下的 3D 模型轻量化渲染、iOS 终端的低延迟编码），使远程访问 3D 模型、医疗影像的操作延迟低于 50ms，与本地设备体验差异缩小至 “无感”，真正实现 “终端无算力，体验无差别”，借由 “软件封装” 中

#GPU #算力 #边缘计算

922 

6 
TGITCIC 来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 2025-09-20 17:02:00

普通CPU运行70亿参数大模型：零GPU与API困境下如何开发AI Agent

面对无GPU资源、禁用外部API的严苛条件，本文通过llama.cpp开源项目实现70亿参数大模型在普通CPU环境的高效运行。从量化技术原理到实战部署，详解如何突破硬件限制，为资源受限团队提供可复用的落地方案。

#AI智能体 #GPU

854 

19 
会议之眼来自讯飞AI开发者社区

xfyun.csdn.net · 2024-03-20 16:27:07

GDC 2024游戏开发者大会现场报道！虚拟现实技术再进化！

多场峰包括：人工智能峰会、艺术指导峰会、音频峰会、教育工作者峰会、免费游戏峰会、未来现实峰会、游戏叙事峰会、独立游戏峰会、水平设计峰会、机器学习峰会和技术艺术家峰会等。提名的游戏包括《塞尔达传说：王国之泪》、《博德之门 3》、《茧》（Cocoon）、《潜水员戴夫》、《渔帆暗涌》和《漫威蜘蛛侠 2》等。2、会议期间，会有超过700场的演讲和研讨会，内容涉及AI、VR/AR、编程、叙事、独立游戏、音乐

#游戏 #vr #人工智能 +3

745 

9 
DD_陈东东来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 2025-05-07 11:27:18

AutoDL 部署GLM大模型-简单实例讲解

使用AutoDL 本地部署ChatGLM3-6B（智谱清言大模型），并简单的进行一个多轮对话的调用。

#AIGC #GPU

1150 

15 
virtaitech 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-04-11 10:54:07

云平台一键部署【OmniGen】多功能图像生成模型（2025更新版）

OmniGen 是智源推出的一款全新的扩散模型架构，专注于统一图像生成。它简化了图像生成的复杂流程，通过一个框架处理多种任务，例如文本生成图像、图像编辑和基于视觉条件的生成等。此外，OmniGen 通过统一学习结构实现了知识迁移，使其能够适应不同的任务和领域需求。该模型不仅高度简化和易用，还在图像生成领域展示了强大的灵活性。功能介绍：文本生成图像：通过文本描述生成相应的图像。图像编辑：根据用户需求

#人工智能 #AI #算力 +2

700 

3 
大数据在线来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 2025-09-18 19:03:50

潮起之江：算力创新与赋能开启AI产业新征程

AI变革正酣，之江潮水奔流。当宇树Unitree机器人火热出圈、DeepSeek/Qwen等大模型获得全球广泛关注、群核科技的空间智能影响多个行业……浙江，这片“敢为天下先”的土地，在人工智能产业又一次勇立潮头。数据显示，2024年浙江省人工智能核心产业营业收入接近5800亿元，增长势头强劲。浙江最新《关于支持人工智能创新发展的若干措施》（以下简称《若干措施》）更提出，到2027年，初步形成可持续

#昇腾 #华为 #GPU

1048 

17 
杰克逊的日记来自讯飞AI开发者社区

xfyun.csdn.net · 2025-07-26 22:59:00

GPU运维常见问题处理

硬件故障是 GPU 运维中最直接的问题，通常表现为设备无法识别或运行异常，需优先排查物理层面问题。症状：可能原因：处理方法：症状：可能原因：处理方法：GPU 依赖驱动程序与系统、应用交互，驱动版本不匹配或配置错误是常见故障源。症状：可能原因：处理方法：症状：可能原因：处理方法：症状：可能原因：处理方法：GPU 性能未达预期（如算力低、利用率低）会直接影响业务效率，需从硬件、任务调度等层面排查。症状

#运维 #GPU #linux

2056 

18 
杰克逊的日记来自讯飞AI开发者社区

xfyun.csdn.net · 2025-07-27 13:15:37

GPU运维的疑难杂症解决

硬件问题的核心是 “物理状态异常”，但表现可能被软件层掩盖（如 “驱动崩溃” 实际是硬件接触不良），需结合物理检查和工具验证。驱动和固件是硬件与软件的 “桥梁”，其问题常表现为 “间歇性失效” 或 “版本依赖冲突”，且排查依赖日志深度分析。在虚拟化（如 vGPU）或集群（如 K8s）环境中，问题常涉及 “多层级配置”，需结合虚拟化日志和节点状态排查。：2 个进程共享 1 块 24GB GPU，总显

#运维 #linux #GPU

2324 

29 
自由的行走来自讯飞AI开发者社区

xfyun.csdn.net · 2019-09-11 09:05:16

服务器有多台GPU 如何指定GPU运行程序

方法1:直接在运行程序命令前添加 CUDA_VISIBLE_DEVICES=1(自己服务器上的GPU number) 样例如下：CUDA_VISIBLE_DEVICES=1 python your_program.py方法2：在自己的代码中添加import osos.environ["CUDA_VISIBLE_DEVICES"] = "2"...

#pytorch #GPU

3921 

2 
virtaitech 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-04-22 15:26:11

云平台一键部署【fluxgym】最强Flux-lora训练器，三步炼万物

FluxGym 是一款用于简化 Flux LoRA 模型训练的工具，特别适用于低显存环境（如12GB、16GB或20GB VRAM）。LoRA 模型是一种低秩适应技术，允许在较小的数据集上微调大型模型，而无需大量计算资源。FluxGym 为用户提供了一个图形界面，使得即使没有深厚编程背景的用户也可以轻松上手训练 Flux LoRA 模型。

#人工智能 #AI #GPU +2

728 

5 
杰克逊的日记来自讯飞AI开发者社区

xfyun.csdn.net · 2025-04-28 14:44:48

3000多台GPU机器怎么运维

运维 3000 多台 GPU 机器需要综合考虑硬件、软件、监控、安全等多个方面，通过建立完善的管理体系和流程，提高运维人员的技术水平和团队协作能力，才能确保 GPU 集群的稳定运行，为业务提供有力的支持。运维 3000 多台 GPU 机器是一项复杂且具有挑战性的任务，需要从硬件管理、软件维护、监控与故障处理、安全管理等多个方面进行全面的规划和实施。

#运维 #GPU

660 

9 
qq_42591591 来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 2025-09-17 20:55:07

【总结】使用AutoDL快速搭建计算机视觉网络模型进行模型训练

AutoDL AI算力云是一个提供人工智能算力服务的云平台。丰富的GPU资源：提供多种GPU型号，包括NVIDIA的A100A800L40V100RTX 4090RTX 3090等，能满足我们在不同场景下的需求，无论是进行大规模的AI训练还是复杂的科学计算等任务，都可以找到合适的GPU资源。灵活的付费方式：支持按量付费包日包周包月等多种付费模式。对于短期的实验或不确定时长的项目，可以选择按量付费；

#GPU

1016 

17 
智能学习者来自讯飞AI开发者社区

xfyun.csdn.net · 2021-08-03 21:21:55

关于服务器使用多GPU的方法

一般来说，电脑默认都是使用单GPU的，本人正好拿到了两个显卡，在尝试了多次之后才成功，所以记录一下，如果要使用多GPU的话，那么必须进入Bios将Above 4G Decoder 打开。参考：above 4g decoding记K80翻车—从计算卡变游戏卡...

#GPU #ubuntu

2766 
幸福右手牵来自讯飞AI开发者社区

xfyun.csdn.net · 2024-09-23 13:38:56

在Linux服务器上安装NVIDIA驱动程序

在Linux服务器上安装NVIDIA驱动程序

#linux #运维 #服务器 +1

1402 

7 
非线性光学元件来自讯飞AI开发者社区

xfyun.csdn.net · 2022-07-14 16:36:53

服务器自动抢占GPU运行程序

服务器抢占空闲GPU的Shell脚本

#linux #GPU

2019 

3 
CSDN资讯来自 2048 AI社区

2048ai.net · 2025-09-17 11:58:00

AMD Mini AI工作站：让每个人都成为超级开发者

基于AMD锐龙AI Max+ 395 Mini AI工作站，AMD正在下一盘大棋，除了前面提到的中小企业、个人开发者，Mini AI工作站还瞄准了AI教育、超级个体、数据分析、家庭AI HUB、空间智能等多个领域，并依托AMD从数据中心到边缘侧、嵌入式、再到终端设备的全栈式、端到端的全链AI解决方案优势，以及AMD中国AI应用创新联盟上百家优秀AI ISV伙伴，在硬件和软件上共同推动、赋能AI企业

#人工智能 #GPU

982 

7 
virtaitech 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-04-22 20:00:00

云平台一键部署【DiffSynth-Studio】支持wan2.1视频生成及视频lora训练

阿里通义万相Wan2.1模型登顶Vbench榜首第一，超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天，万相Wan2.1视频生成大模型正式开源！【DiffSynth-Studio】模型已经在趋动云『社区项目』上线，无需自己创建环境、下载模型，一键即可快速部署，快来体验【DiffSynth-Studio】带来的精彩体验吧！

#人工智能 #AI #GPU +2

853 

3 
2301_79085486 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-04-01 20:58:12

Margin测试

在 Margin 测试中，BDF 号指的是 PCI Express（PCIe）设备的总线 / 设备 / 功能号（Bus/Device/Function）。通过BDF 号可以准确地定位到每个 PCIe 设备，从而对其进行相应的测试操作。例如：80:01.2就是这个NVME盘的BDF号码。

#linux #服务器 #GPU

352 

5 
杰克逊的日记来自讯飞AI开发者社区

xfyun.csdn.net · 2025-03-01 11:24:26

GPU运维常用命令

这些命令涵盖了GPU运维中的监控、管理、调试等常见任务，帮助运维人员有效管理和优化GPU资源。`nvidia-smi` 是NVIDIA提供的命令行工具，用于监控和管理GPU状态。显示系统中所有GPU的使用情况（需安装`gpustat`工具）。显示GPU的详细信息，包括温度、风扇速度、电源使用等。重置指定GPU（`<GPU_ID>`为GPU编号）。### 1. **NVIDIA-smi 命令**##

#运维 #chrome #前端 +1

789 

3 
Hi20240217 来自讯飞AI开发者社区

xfyun.csdn.net · 2024-05-22 21:47:34

H800多机多卡通信带宽测试

以下代码用于测试GPU多机多卡通信带宽。

#pytorch #GPU

5607 

15 
枯叶夕阳来自北京朝阳AI社区

devpress.csdn.net/aibjcy · 2025-09-17 09:03:32

AutoDL配置以及部署大模型

本文介绍了在AutoDL算力平台上部署AI模型的完整流程：1）租用实例时选择无卡模式降低成本；2）通过VSCode远程连接服务器，使用SSH插件完成配置；3）提供两种模型下载方式（GitLFS和ModelScopeSDK），详细说明GitLFS的安装和模型下载步骤；4）部署运行阶段，指导安装vllm并启动服务，强调需指定模型路径和名称参数。整个过程覆盖从实例创建到模型服务的全链路操作。

#GPU

424 

5 
virtaitech 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-01-07 16:38:51

云平台一键部署【Tango】生成数字人视频，全身数字人

TANGO 是一项前沿的AI技术，旨在解决传统数字人生成技术中存在的局限性，如只能生成面部或唇形同步的视频片段。通过结合音频输入与参考视频中的动作数据，TANGO 能够生成与音频内容匹配的全身动作视频，使得生成的人物形象更加生动逼真。TANGO框架的开源和高效性为其在数字人领域的应用提供了广阔的前景。以下是几个潜在的应用场景：虚拟主持人：利用TANGO框架，可以轻松生成与真实主持人相似度极高的虚

#人工智能 #AI #GPU +2

1176 

16 
Hi20240217 来自讯飞AI开发者社区

xfyun.csdn.net · 2024-05-23 20:53:05

H800基础能力测试

本文记录了H800基础测试步骤及测试结果。

#GPU

5150 

8 
Coder802 来自讯飞AI开发者社区

xfyun.csdn.net · 2022-04-13 17:46:37

CUDA 测试GPU是否支持P2P通信

用于测试NVIDIA GPU是否支持P2P通信的代码

#GPU

3959 
扫地的小何尚来自讯飞AI开发者社区

xfyun.csdn.net · 2025-07-09 14:20:44

LLM 推理基准测试：使用 TensorRT-LLM 进行性能调整

在大型语言模型（LLM）的实际部署与应用中，推理性能调优是决定技术落地成败的核心环节。随着模型规模指数级增长，如何在延迟（Latency）与吞吐量（Throughput）之间实现最佳平衡，成为开发者面临的关键挑战。

#GPU #人工智能 #语言模型

1559 

21 
阿里云大数据AI技术来自讯飞AI开发者社区

xfyun.csdn.net · 2023-03-21 10:54:00

喜马拉雅基于阿里云机器学习平台PAI-HybridBackend的深度学习模型训练优化实践

喜马拉雅AI云借助阿里云提供的HybridBackend开源框架，实现了其推荐模型在 GPU 上的高效训练。

#深度学习 #人工智能 #GPU

629 
CSDN资讯来自 2048 AI社区

2048ai.net · 2025-09-16 11:49:41

超能打的端侧AI平台Arm Lumex CSS是怎样炼成的

9月10日，在Arm Unlocked 2025AI技术峰会上，全新Arm Lumex计算子系统（Compute Subsystem，CSS) 平台得以发布，其核心组件主要包括Arm C1 CPU集群、Mali G1-Ulra GPU以及系统IP，满足旗舰移动设备和 PC上持续增长的端侧 AI 体验需求。

#人工智能 #移动开发 #GPU

1006 

11 

标签介绍

GPU

——GPU

热门标签

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 kefu@csdn.net