
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在本节中,我们将简要介绍上述提到的 AMD 工具及一些第三方工具包。

在这篇博客文章中,我们概述了Zyphra降低训练Transformer模型及其混合模型成本的愿景。我们解释了Zyphra如何通过优化AMD Instinct MI300X加速器的卓越硬件规格,使用ROCm来训练Zyphra的混合模型:Mamba2和Flash Attention v2,来实现这一愿景。在未来的工作中,Zyphra计划将Attention内核和部分Mamba2内核扩展到fp8精度,并

自从AI发布了Mixtral 8x7B以来,专家混合(MoE)在AI社区重新获得了关注。受此发展启发,多个AI公司陆续推出了基于MoE的模型,包括xAI的Grok-1、Databricks的DBRX和Snowflake的Artic。与相同规模的密集模型相比,MoE架构具备一些优势,包括更快的训练时间、加快的推理速度和在基准测试中的性能提升。该架构由两个部分组成。第一部分是稀疏的MoE层,用以替代典

软件架构核心概念与实践指南 本文系统介绍了软件架构的关键知识点,包括: 基本概念:软件架构定义系统构件、属性及交互关系,是满足质量需求、降低复杂性和成本的核心。 生命周期作用:贯穿需求、设计、实现、部署等全周期,尤其在后期涉及动态架构和架构重建。 ADL语言:专用于描述构件连接机制,通过Acme示例展示了在线书店系统的构件、连接子和配置声明。 多视图模型:以4+1视图为例,从逻辑、开发、进程、物理

万兆网络FTP性能调优指南 本文系统分析了万兆网络中FTP传输的性能瓶颈问题,指出关键不在协议本身,而在于操作系统网络栈配置与物理特性的匹配。文章从三个层面提供解决方案: 基础原理:解析FTP数据流中各层报文大小,指出TCP窗口和缓冲区是限制大文件传输的关键因素。 内核调优:针对万兆网络(10GbE)提出完整的内核参数配置方案,包括窗口缩放、BBR拥塞控制、缓冲区大小等关键参数,并给出BDP(带宽

摘要: 随着AI辅助编程工具的普及,对话式编程正改变开发者与代码的交互方式。本文探讨了编程与语言的深层关联:编程本质是运用形式化语言构建逻辑系统的过程,而自然语言则是构建心智模型的关键。通过“自然语言↔代码”的映射实验(如判断偶数的函数示例),揭示了两者的翻译关系。文章指出,对话式编程降低了学习门槛,但复杂场景仍需人工调优。未来编程或将演变为“用清晰语言驱动机器实现意图”的对话式设计,而代码本质上

自从 OpenAI 在 2022 年底推出 ChatGPT 以来,数百万人已经体验到了生成式 AI 的强大功能。尽管通用大型语言模型(LLM)可以在许多任务(例如回答快速问题和解决问题)上提供相当好的性能,但当提示是高度特定于某个领域或需要某些它们未专门训练的技能时,它们往往表现不佳。提示工程可以通过在提示中提供具体说明或示例来帮助缓解这个问题。然而,创建提示所需的技能和上下文长度的限制往往阻止了

在这篇博文中,我们简要讨论了 LLM 如 Llama 3 和 ChatGPT 如何生成文本,强调了 vLLM 在提升吞吐量和减少延迟方面的作用。我们介绍了如何在 KV 缓存中以 FP8 格式存储值,优化矩阵乘法以实现更快的计算,以及如何在 FP8 中执行完整的推理。通过这些最新的增强功能,我们展示了 ROCm 6.2 如何显著加速你的 vLLM 工作负载。

摘要: 软件重用是系统架构设计的核心实践,指利用已有软件元素(如需求文档、设计模式、代码组件、测试用例等)构建新系统,本质是知识资产复用。其分为横向重用(跨领域通用组件)和纵向重用(特定领域业务模型),可显著提升开发效率、降低成本并改善质量。然而,实施中需平衡通用性与复杂性,解决变更管理、组织文化等挑战。建议通过建立企业级资产库、推行架构评审、采用微服务架构等策略系统化落地。软件重用不仅是技术优化









