logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM × ROCm:ROCm 已成为 vLLM 生态的一等支持平台

如果你关心具体部署策略和性能调优实践,可以参考以下相关文章:多模态推理加速(一行配置的优化)[4],MoE 并行策略(TP/DP/PP/Expert Parallelism 指南)[5], vLLM 0.9.x 在 AMD GPU 上的性能调优实践 [6]。在vLLM-omni 发布当天,社区就确保 AMD 用户“首发同享”:vLLM-omni 从一开始就为 AMD ROCm GPU 提供了稳定、

Day 0 支持 Qwen3‑Coder‑Next:在 AMD GPU 上部署新一代代码大模型

与真实 IDE 场景的高适配性:得益于 256k 上下文长度以及对多种 scaffold 模板的适配能力,模型可以无缝接入多种 CLI / IDE 平台(如 Claude Code、Qwen Code、Qoder、Kilo、Trae、Cline 等),覆盖丰富的开发环境。- 先进的 Agentic 能力:通过精心设计的训练流程,模型在长链路推理(long-horizon reasoning)、复杂

OpenClaw(ClawdBot) 实战指南:如何在 AMD开发者云上用 vLLM 免费部署你的专属 Agent

接下来,在Droplet 上执行下面这条命令,从 HuggingFace 拉取经过剪枝的 MiniMax-M2.1 模型。本文将带你实操:如何在AMD Developer Cloud 上,借助企业级数据中心 GPU,AMD GPU(单卡 192GB 显存),免费运行一个强大的开源大模型,让你摆脱消费级 GPU 的限制。下面的所有步骤,都需要在你上一节已经创建好的 Droplet 上完成。现在,你可

硅谷AI空降深圳 | MakerMods × OpenClaw × AMD具身智能黑客松回顾

当代码走入现实,当复杂的模型遇见AMD的软硬件全栈支持,具身智能的落地不再是远在天边的Demo,而是触手可及的未来。3月28日至29日,由硅谷团队 MakerMods 发起,集结了来自国内及硅谷机器人领域众多社区代表、KOL及专业媒体的 “MakerMods具身智能 × OpenClaw 黑客松” 在深圳南山区火热展开。这种“统一内存、从边缘到云端”的模仿学习方案,在现场得到了参赛团队的极高反馈,

Qwen 3.6 在 AMD GPU 的 Day 0 支持

相较前代 Qwen3.5-35B-A3B ,它在 agentic 编程与推理任务上获得显著提升。我们很高兴宣布:阿里巴巴最新的Qwen3.6 系列模型,Qwen3.6-35B-A3B 与 Qwen3.6-35B-A3B-FP8,已在 AMD GPU 实现 Day 0 支持。2. 访问ROCm AI 开发者中心: https://www.amd.com/zh-cn/developer/resourc

在本地运行万亿参数LLM:基于AMD Ryzen AI Max+ 的集群实战指南

从客户端的角度来看,唯一需要修改的是基础URL和API密钥。面向原型开发、科研与企业应用,本地自托管的开源 LLM(如 Kimi K2.5)有助于在不引入按 token 计费的前提下获得优秀的 AI 效果,同时将数据与计算留在本地,更易满足隐私与合规要求。在该配置下,调优n_batch 与n_ubatch,相较于基线设置(关闭Flash Attention,batch` 与 ubatch 为 51

使用 TileLang 在 AMD GPU 上快速开发高性能 Flash Attention

对开发者而言,TileLang 提供了一种全新的算子开发范式,在“不需要深入理解硬件细节”的前提下,就可以高效利用硬件性能,加速大模型在 AMD GPU 上的部署和性能释放。延迟大幅下降:TileLang 实现的延迟仅为 PyTorch 实现的约 37.1%,为 Triton 实现的约 65.5%,相较 PyTorch 提升约 2.7×,相较 Triton 提升约 1.53× [1],充分体现了面

OpenClaw(ClawdBot) 实战指南:如何在 AMD开发者云上用 vLLM 免费部署你的专属 Agent

接下来,在Droplet 上执行下面这条命令,从 HuggingFace 拉取经过剪枝的 MiniMax-M2.1 模型。本文将带你实操:如何在AMD Developer Cloud 上,借助企业级数据中心 GPU,AMD GPU(单卡 192GB 显存),免费运行一个强大的开源大模型,让你摆脱消费级 GPU 的限制。下面的所有步骤,都需要在你上一节已经创建好的 Droplet 上完成。现在,你可

AMD GPU 全面支持 Qwen 3.5:性能、上下文长度与多模态的新突破

5] 访问 ROCm AI Developer Hub,了解更多关于在 AMD GPU 上进行 AI 开发的教程、开源项目和技术博客:https://www.amd.com/en/developer/resources/rocm-hub/dev-ai.html?通过在 AMD GPU 上实现 SGLang 与 vLLM 的 Day 0 支持,我们为开发者提供了强大的算力平台和经过优化的软件栈,使其

AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

其次,采用 Self-Forcing 训练范式[6],在训练阶段执行完整的自回归展开,并结合训练期 KV 缓存与少步生成条件下的梯度截断,使模型能够在可控的计算与显存开销下学习修正自身预测误差,从而实现整体的分布匹配优化。随着近些年扩散模型的出现与快速发展[1],视频生成算法在分辨率、生成质量以及创作范式等方面均取得了令人瞩目的进展,并辐射性地重塑了整个视频创作流程:用户只需提供文本或图像输入,视

    共 21 条
  • 1
  • 2
  • 3
  • 请选择