logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

手写 MoE(混合专家模型):从零实现大模型的稀疏激活架构

MoE 将单一的 FFN 替换为 $N$ 个并行的 FFN(称为"专家"):其中 $G(x) \in \mathbb{R}^N$ 是门控网络的输出,表示每个专家的权重。但这还不是稀疏的——如果所有专家都参与计算,那和普通 FFN 没有任何区别(甚至更慢)。MoE(混合专家模型)是当前大模型架构中最重要的创新之一。它通过稀疏激活打破了模型能力与计算量之间的线性关系,使得参数总量可以持续增长而推理成本

#人工智能#AIGC#深度学习 +1
手写 RLHF(强化学习人类反馈):从零实现大模型对齐训练

我们有一个人工标注数据集:对于同一个 prompt(指令),标记者比较了两个不同的模型回答 $y_1$ 和 $y_2$,给出了偏好判断:$y_1 \succ y_2$(回答 1 优于回答 2)。我们的目标是训练一个奖励函数 $r_\phi(x, y)$(由参数 $\phi$ 定义的神经网络),使得:$$r_\phi(x, y_1) > r_\phi(x, y_2) \quad \text{当且仅当

#人工智能#AIGC#深度学习 +1
Android 17 适配实战指南:新特性解读、隐私变更与迁移全攻略

Android 17 是一个"重底层、轻表层"的版本。它没有大幅修改 UI 设计语言,也没有引入新的交互范式,但在底层架构上做了一系列重要的加固和革新。隐私安全强制化、AI 能力系统化、渲染管线全面硬化——这些变化的共同指向只有一个:让 Android 成为更安全、更智能、更流畅的平台。隐私变更排第一——先解决好 Breaking Changes,再谈新特性SDK 生态先更新——升级第三方依赖能解

#人工智能#AIGC#深度学习 +1
深入解析大模型架构之争:全能通用模型 vs 领域专精模型

通用模型和专精模型之争,本质上是"One Size Fits All"与"The Right Tool for the Right Job"的工程哲学之争。两条路线各有其理论基础和实践场景,不存在绝对的对错。通用模型不断变大:GPT-5/GPT-6 和 Gemini 3.0 会进一步拉高通用能力的上限专精模型不断变精:领域数据策略和架构优化的深度远超想象两者走向融合:MoE + LoRA 等技术让

#人工智能#AIGC#深度学习 +1
【实战评测】华为云 MaaS 平台 DeepSeek 大模型推理服务 + Dify 一键部署全攻略

2025 年以来,DeepSeek 系列模型凭借其出色的推理能力和极具竞争力的价格,迅速成为国内开发者社区的热门选择。无论是 DeepSeek-V3 的综合能力,还是 DeepSeek-R1 在数学推理与代码生成方面的惊艳表现,都让人看到了国产大模型的真正实力。然而,模型强不等于应用强。部署门槛高:自建推理服务需要 GPU 算力,成本动辄数万运维复杂度高:模型版本管理、负载均衡、弹性伸缩都需要专业

#人工智能#AIGC#深度学习 +1
手写 DeepSeek 推理引擎:从零实现大模型高效推理加速

本文从零开始构建了一个面向 DeepSeek 架构的高效推理引擎,覆盖了 MLA 注意力实现、分页 KV Cache、MoE 专家调度、连续批处理、INT4 量化、推测解码等核心优化技术。回顾要点1.理解架构才能做好优化:DeepSeek 的 MLA 和 MoE 直接决定了 KV Cache 和计算调度策略2.连续批处理是现代推理引擎的基础设施:不做 CB 的推理引擎上限极低3.量化是性价比最高的

#人工智能#AIGC#深度学习 +1
Radeon 显卡跑大模型:ROCm 环境配置与 DeepSeek 本地部署全攻略

大模型本地部署不是 N 卡专属。AMD Radeon 显卡凭借大显存和逐渐成熟的 ROCm 生态,正在成为高性价比的 AI 推理选择。本文记录一套经过实测的 ROCm 环境搭建流程,以 Radeon RX 7900 XTX(24GB)为例,完整演示从驱动安装到 DeepSeek-R1 推理,再到生产级 API 服务的全过程。所有步骤均在 Ubuntu 22.04 LTS 上验证通过。AMD Rad

#人工智能#AIGC#深度学习 +1
Radeon 显卡跑大模型:ROCm 环境配置与 DeepSeek 本地部署全攻略

大模型本地部署不是 N 卡专属。AMD Radeon 显卡凭借大显存和逐渐成熟的 ROCm 生态,正在成为高性价比的 AI 推理选择。本文记录一套经过实测的 ROCm 环境搭建流程,以 Radeon RX 7900 XTX(24GB)为例,完整演示从驱动安装到 DeepSeek-R1 推理,再到生产级 API 服务的全过程。所有步骤均在 Ubuntu 22.04 LTS 上验证通过。AMD Rad

#人工智能#AIGC#深度学习 +1
手写 Transformer:从零实现多头注意力机制与完整架构(附完整代码)

亲手实现 Transformer 并训练它,和只调 API 是完全不同的体验。这里分享几个在训练过程中最容易踩坑的地方和对应的解决方案。原始 Transformer (2017)/ | \/ | \| | || | || |本文从零手写了一个完整的 Transformer 模型,涵盖了从 Scaled Dot-Product Attention 到完整 Encoder-Decoder 架构的全部组

#人工智能#AIGC#深度学习 +1
手写 AI 推理加速引擎:从零实现 KV Cache 与 Speculative Decoding

大模型推理慢是生产环境的第一痛点。同样是 7B 模型,naive 逐 token 生成和经过优化的推理引擎,吞吐差距可达5-10 倍。本文不依赖任何推理框架,从零手写 KV Cache 和 Speculative Decoding 两大加速技术,代码可直接运行,效果立竿见影。KV Cache:缓存历史 K/V 矩阵,消除 attention 的重复计算。实现简单,加速效果 5-15x,是所有推理框

#人工智能#AIGC#深度学习 +1
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择