logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek DSpark 详解:V4 实测提速 60%~85%,它做对了什么?

DSpark:基于置信度调度的半自回归推测解码技术 本文介绍了DeepSeek团队提出的DSpark技术,通过创新性的半自回归生成和动态验证调度机制,显著提升了大语言模型的推理效率。该技术包含两个核心模块: 半自回归生成:采用并行骨干网络快速生成草稿,结合轻量级顺序模块修正局部依赖关系 置信度调度验证:根据前缀存活概率和系统负载动态调整验证长度 实验表明,DSpark在Qwen3等模型上相较传统方

文章图片
#DeepSeek#人工智能
一文梳理主流 LLM 架构技术演进

本文回顾了大型语言模型(LLM)的架构演进历程,重点分析了GPT、BERT、T5三大早期技术路线的特点及现代Decoder-only架构成为主流的原因。文章指出,现代LLM围绕能力提升、效率优化和长上下文支持三大目标持续创新,采用高频组件如RoPE、GQA、SwiGLU等技术。通过梳理GPT系列的发展脉络,揭示了从GPT-1的预训练微调范式到GPT-3规模扩展带来的通用能力突破,最终形成以自回归生

文章图片
#架构#人工智能
一文梳理主流 LLM 架构技术演进

本文回顾了大型语言模型(LLM)的架构演进历程,重点分析了GPT、BERT、T5三大早期技术路线的特点及现代Decoder-only架构成为主流的原因。文章指出,现代LLM围绕能力提升、效率优化和长上下文支持三大目标持续创新,采用高频组件如RoPE、GQA、SwiGLU等技术。通过梳理GPT系列的发展脉络,揭示了从GPT-1的预训练微调范式到GPT-3规模扩展带来的通用能力突破,最终形成以自回归生

文章图片
#架构#人工智能
2026年最新全面综述JavisVerse | 一文详解大型基础模型中的视听智能(AVI)

这篇名为 JavisVerse 的综述深入探讨了大型基础模型时代的视听智能(AVI)发展现状。作者群来自新加坡国立大学、牛津大学及微软等顶级机构,系统性地构建了涵盖感知、生成与交互三大维度的技术分类体系。文中详尽梳理了从模态表征、跨模态对齐到自回归与扩散生成的核心技术演进路径。

文章图片
#音视频#多模态
到底了