logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

深度学习LLM数据结构

可提供的服务

暂无可提供的服务

DeepSeek-R1论文详解

DeepSeek-R1论文详细解读

文章图片
#人工智能
大模型扫盲之推理时显存占用计算

快速计算大模型推理时所需显存

文章图片
#人工智能
DeepSeek发布新的注意力机制NSA(论文详解)

长上下文建模对于下一代语言模型至关重要,然而标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力为在保持模型能力的同时提高效率提供了一个有前景的方向。我们提出了原生可训练稀疏注意力机制(NSA),它将算法创新与硬件适配优化相结合,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒度token压缩与细粒度token选择相结合,既保留了全局上下文感知,又保证了局部精度。我们的方法通过两

文章图片
#论文阅读#人工智能
全面解析DeepSeek算法细节(1) —— 混合专家(Mixture of Expert, MoE)

DeepSeek系列模型算法细节剖析之混合专家(MoE)

文章图片
大模型扫盲之推理性能指标全面详解

大模型推理性能指标(计算操作字节比,计算算术强度,瓶颈分析,推理时间/内存计算)详解

文章图片
#人工智能
大模型具体是如何推理生成的?

详细解读大模型推理输出的全过程

文章图片
#语言模型
深度学习面试八股文(2)——训练

利用自己构建的agent总结的算法面试八股,会从机器学习,深度学习一直到大语言模型,多模态大模型,llm发展到现在,在这个领域已经基本没有幻觉现象了,是个不错的复习手段。持续更新…

文章图片
#算法#人工智能#深度学习
    共 17 条
  • 1
  • 2
  • 请选择