登录社区云,与社区用户共同成长
邀请您加入社区
本文探讨了GPU如何成为大语言模型(LLM)的核心硬件,并分析了相关优化技术。首先对比了CPU与GPU的差异,指出GPU的大规模并行特性天然适合LLM的矩阵运算需求。随后详细解析了A100的层级结构、Tensor Core设计原理,以及GPU的SIMT执行模型和分层内存架构。重点阐述了常见优化手段:低精度计算减少数据搬运、算子融合降低中间结果存储、重计算节省显存、内存合并提高访问效率、分块提升数据
4月24日,由智源研究院牵头研发的众智FlagOS第一时间对DeepSeek-V4-Pro 1.6T 旗舰模型(1.86万亿参数)及DeepSeek-V4-Flash 284B 高效模型(2840亿)两个“巨无霸”模型进行全量适配,已经完成 DeepSeek-V4-Flash在 8款以上 AI 芯片上的全量适配与推理部署。
英伟达开源NemotronSpeechASR模型,专为低延迟实时语音识别设计。该模型采用缓存感知架构,将已处理语音特征缓存复用,单句转录延迟仅24毫秒,有效解决长语音识别中的延迟累积问题。支持多档延迟模式灵活调整,端到端延迟控制在500毫秒内,原生支持标点符号和大小写识别。模型具备高吞吐量和低成本优势,适用于游戏语音、实时翻译、会议记录等场景,并与LLM和TTS技术协同构建完整语音智能体方案。目前
2月17日,摩尔线程宣布已在旗舰级AI训推一体全功能GPU MTT S5000上完成对阿里最新大模型Qwen3.5的全方位适配。此次支持充分展示了摩尔线程MUSA生态的成熟度与完备性,开发者可通过MUSA C编程语言及Triton-MUSA工具链高效完成模型部署与优化。
Windows下使用PyTorch GPU训练的深度学习模型,部署到Linux NPU上操作指南,从PyTorch(GPU)到ONNX再到RKNN,最终在RK3588上实现部署推理。
Fun-ASR是通义实验室研发的端到端语音识别大模型,基于数千万小时语音数据训练,支持31种语言和多种方言口音。其轻量版Fun-ASR-Nano在保持识别效果的同时优化了模型结构,具有低延迟、易集成等特点,适用于智能客服、教育应用等场景。该模型特别擅长处理专业术语和行业表达,有效解决"幻觉"生成问题。目前已上线HuggingFace模型库和趋动云平台,提供一键部署功能,用户可通
GPU 内存的分级(gpu memory hierarchy)小普 中科院化学所在读博士研究生研究课题,计算机模拟并行软件的开发与应用Email: yaopu2019@126.com (欢迎和我讨论问题)CSDN:博客园:摘要(Abstact)GPU 的存储是多样化的, 其速度和数量并不相同,了解GPU存储对于程序的性能调优有着重要的意义。本文介绍如下几个问题:1...
你可以将GPU虚拟化的目的归纳为一次深刻的“生产力解放”将GPU从一台需要独占、难以搬运、利用率低下的“超级工作站”,转变为一个可以按片切割、通过网络随时获取、并可被智能调度的“标准化算力单元”。让任何人都能像用水用电一样,便捷、经济、安全地获取强大的AI算力,从而成为驱动人工智能普及和云服务创新的关键基础设施。
NVIDIA T4 GPU:专为AI推理而生的数据中心"常青树" 这款基于图灵架构的加速卡凭借独特优势成为云计算领域的主力选择: 专精设计:320个Tensor Core支持多精度计算,INT8/INT4推理性能达FP32的8-16倍 极致能效:70W超低功耗、单槽半高设计,实现高密度部署 四大核心应用:AI推理(NLP/CV)、视频转码、云桌面和边缘计算 平衡之道:在性能、功
本文深入解析GPU架构设计,重点对比CPU与GPU的设计哲学差异。GPU采用"吞吐量优先"策略,通过成千上万小型核心实现大规模并行计算,其流式多处理器(SM)包含CUDA核心、Tensor核心等专用计算单元,采用SIMT执行模型管理海量线程。文章详细阐述GPU的多层次架构,包括芯片级结构、SM内部组成、线程执行模型和复杂内存体系,并探讨其在AI加速和嵌入式系统中的特殊优化。GP
audodl 确实比自己买显卡训练划算。
深入理解创建使用GPU容器时nvidia container toolkit核心组件的作用与工作流程
深入理解kubernetes device plugin原理
本文介绍了云服务器(Elastic Compute Service,简称 ECS)的基本概念、特点、分类及如何根据需求选择合适的云服务器类型。云服务器是一种基于云计算技术的虚拟服务器,允许用户按需租用计算能力、存储空间和网络带宽,具有弹性扩展、按需付费和高可用性等特点。与传统物理服务器相比,云服务器无需购买和维护硬件,更加灵活且成本效益高。云服务器的配置通常包括 CPU 核心数(如 1 核)、内存
提到安装英伟达显卡容器,但是直接复制博客里面的代码会报错。因此找到英伟达官方网站进行安装——参考4.以上就是该问题的完全解决过程,希望对你有所帮助。先说结论:问题已经解决,open-webui可以在GPU上稳定运行。在搭建RAG知识库的过程中,用到Ollama框架,在使用其推荐框架。时,想利用本机自带GPU进行加速,于是执行docker命令。首先在CSDN上找到了报错解决方案——参考3.此时,重新
AutoDL #GPU #租显卡最近本地GPU显存告急,需要搬迁到云服务器,既然选就得选个稳定且性价比高的,毕竟这个活是真烧钱呐。
讲述通过GPU云服务器搭建Stable Diffusion的WebUI框架以实现2秒内文本生成图片的操作
文章大纲简介使用 wsl 的docker 进行深度学习与 原生方式的对比主要步骤1.安装 wsl-2 版本的windows NVIDIA驱动2. 在wsl-2 中安装 docker 及 NVIDIA 容器测试1,simple container测试2:Jupyter Notebooks参考文献简介目前我看官网主要推荐docker 方式了,那我们就用docker 方式试试。而且网上的安装教程也是do
简介Radeon(中文名称称为镭龙™)是一个英文产品的商标。Radeon是AMD公司出品的显示芯片的一种系列。俗称A卡。全称一般写作:AMD Radeon HD xxxx ,例如台式机显卡型号:AMD Radeon HD 6450。HD7000系列以后,AMD启用新的AMD Radeon R9/R7 xxx命名旗下新的显示芯片。出产型号AMD Radeon系列的台式机显卡有:AMD Radeon
本节关注影响深度学习计算性能的因素: 命令式编程和符号式编程、异步计算、多GPU计算
GPU
——GPU
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net