logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

投机推理技术原理

投机推理(Speculative Decoding)是在大模型推理阶段广泛采用的一类性能优化技术,核心目标是在不降低输出质量(或在可控范围内)的前提下,显著降低推理时延并提高吞吐量。该方法已成为当前主流大模型推理系统的关键工程手段。

文章图片
#深度学习
多层感知机(MLP):深度学习中的基础构建模块

本文将系统介绍 MLP 的结构原理、核心特性、典型应用场景,并结合昇腾 NPU 的硬件优势,探讨其在实际部署中的优化路径。

文章图片
#深度学习#人工智能
多层感知机(MLP):深度学习中的基础构建模块

本文将系统介绍 MLP 的结构原理、核心特性、典型应用场景,并结合昇腾 NPU 的硬件优势,探讨其在实际部署中的优化路径。

文章图片
#深度学习#人工智能
混合专家模型(MoE)架构深度解析:从专家本质到负载均衡

随着大语言模型规模持续扩大,参数量与计算开销呈指数级增长,传统稠密模型在推理效率与训练成本上面临严峻挑战。混合专家模型(Mixture of Experts, MoE)应运而生,通过引入稀疏激活机制,在保持模型容量的同时显著降低实际计算量。MoE 的核心思想是将前馈神经网络(FFN)层拆分为多个独立的“专家”子网络,由门控路由机制动态选择最适配的少数专家进行计算。本文将从专家本质、路由机制与负载均

#负载均衡#人工智能#深度学习
DiT原理及代码实现

Latent diffusion models 直接在高分辨率像素空间中训练 Diffusion Model 会导致巨大的计算量。LDM[1]通过两阶段方法解决这个问题:\学习一个 AutoEncoder,用学习过的 AutoEncoderEEE将图像压缩为更小的空间表征。在zExz=E(x)zEx而非原图xxx上训练一个扩散模型,这个过程中EEE被冻结。在生成新图片时,从扩散模型中采样zzz,再

#深度学习#人工智能#AIGC +1
强化学习算法原理:PPO、GRPO、DAPO

然而,对空间中对所有可能性进行穷举是不可能的,因此通常做法是采样一些轨迹(N个动作),用它们的reward来判断策略的好坏,并调整现有策略(网络权重),使高优势动作的概率增加,低优势动作的概率减少。GAE引入了一个新的参数λ,当λ=0的时候,GAE会退化成时序差分法,而λ=1的时候,GAE则会退化为蒙特卡洛法,而在之间取值的时候,就可以调节两者的权重,从而寻找一个最优的平衡点。初始化与Actor模

#人工智能#自然语言处理
WeMM多模态大模型在MindIE-LLM框架上的迁移适配实践

WeMM 是 WeChatCV 推出的最新一代多模态大语言模型。WeMM 具备动态高分辨率图片下的中英双语对话能力,在多模态大语言模型的榜单中是百亿参数级别最强模型,整体测评结果(Avg Rank)位居第一梯队。本文记录了将WeMM多模态大模型适配到MindIE-LLM推理框架的完整过程,迁移过程中重点解决了模型结构分析、权重转换、Embedding融合和服务化对接等关键技术挑战。

文章图片
#人工智能#机器学习#深度学习 +1
VILA1.5-8b40b模型昇腾NPU迁移适配实践

VILA 是由 NVIDIA Research 和 麻省理工学院 联合开发的一系列高性能视觉语言模型,它融合了计算机视觉和自然语言处理两大领域的技术,旨在实现更加智能和自然的图像理解和语言交互。VILA 是一种将视觉信息引入 LLM 的视觉语言模型,由视觉编码器、LLM 和投影仪组成,它们桥接了来自两种模态的嵌入。为了利用强大的 LLM,VILA 使用视觉编码器将图像或视频编码为视觉标记,然后将这

文章图片
#昇腾AI大模型#人工智能#python +2
VILA1.5-8b40b模型昇腾NPU迁移适配实践

VILA 是由 NVIDIA Research 和 麻省理工学院 联合开发的一系列高性能视觉语言模型,它融合了计算机视觉和自然语言处理两大领域的技术,旨在实现更加智能和自然的图像理解和语言交互。VILA 是一种将视觉信息引入 LLM 的视觉语言模型,由视觉编码器、LLM 和投影仪组成,它们桥接了来自两种模态的嵌入。为了利用强大的 LLM,VILA 使用视觉编码器将图像或视频编码为视觉标记,然后将这

文章图片
#昇腾AI大模型#人工智能#python +2
    共 14 条
  • 1
  • 2
  • 请选择