
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
它是一个覆盖模型从“设计图纸”到“流水线生产”再到“日常运行”全生命周期的系统性工程。几乎每一个压缩或优化的决策,都会像基因突变一样,在模型的行为、结构和效率上打下深刻且独特的烙印,最终共同塑造了模型的终极指纹。是LLM从实验室走向现实世界的必由之路,而这条路上做出的每一个工程决策,都源于开发者对效率、成本、性能三者之间平衡的独特“哲学”。它是整个“LLM指纹”体系中,最深刻、最全面,也最接近模型

性价比非常高,它用最简单的思想、最低的计算成本,解决了模型压缩这个核心问题中最普遍的部分。尽管它存在理论上的局限性,但在工程实践中,经过迭代微调、正则化以及与激活信息结合等方式的“魔改”后,它依然宝刀不老。尽管从理论上看,梯度剪枝似乎更为“深刻”,但基于权重大小的剪枝凭借其无可比拟的。)探讨了基于梯度的剪枝方法。现在,不妨回归本源,剖析剪枝领域中。基于权重大小的剪枝几乎是所有模型压缩任务的**“第

例如,对于注意力机制来说,“人咬狗”和“狗咬人”这两个句子,如果不加入位置信息,词向量本身是完全一样的,模型将无法区分其天差地别的含义。通过精心设计的“压力测试”,例如操纵输入文本的长度、结构和顺序依赖性,就可以像地质学家探测地层一样,探测出模型所使用的位置编码类型,从而揭示其架构的“秘密”之一。因此,位置编码的本质工作就是为输入序列中的每一个Token(词或子词)附加一个独特的、代表其在序列中绝

通过精心设计的探针任务,可以清晰地看到其信息流动的通路是密集的全连接(MHA),还是带有局部窗口(SWA),亦或是分组共享(GQA)。它们通过改变“一个词可以关注哪些其他的词”这一基本规则,直接影响了模型构建上下文依赖关系的方式,从而在生成文本的。不同的注意力机制就像不同类型的思维模式,差异会在模型生成的文本中留下深刻且可识别的印记。这条路径的核心思想是“一个词的含义主要由其邻近的词决定,没必要关

笔者尝试对比了“关于推理时Scaling”与现有技术,粗浅分析如下:

DeepSeek与清华大学联合发布的论文《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》,核心在于提出一种新的推理时Scaling方法,即通过动态调整奖励机制,而非改变模型参数,来提升大规模语言模型(LLM)的推理能力。这种方法突破了传统依赖强化学习(RL)在训练阶段优化模型性能的局限,为LLM推理能力的提升提供了全新方法论。论文中的"Scaling"主要指推理计算资源的扩展,而

【代码】DeepSeek底层揭秘——交互指令集。

是一种将大语言模型 (LLM) 与外部程序(如 Python 解释器)结合起来,以提高 LLM 在处理需要精确计算或符号推理的任务时的准确性和可靠性的框架。未来,随着 LLM 技术的不断发展和 PAL 框架的不断完善,程序辅助语言模型有望在更多领域发挥重要作用。程序辅助语言模型 (PAL) 是一种将大语言模型 (LLM) 与外部程序结合起来,以提高 LLM 在处理需要精确计算或符号推理的任务时的准

是在 LoRA (Low-Rank Adaptation) 基础上发展起来的一种更高效的参数微调技术,尤其适用于资源极度受限的场景。它在保持 LoRA 优点的同时,进一步通过量化 (Quantization)技术压缩预训练模型,显著降低了内存占用,使得即使在消费级硬件上也能微调大型模型。

是一种将大语言模型 (LLM) 与多模态信息(如图像、文本)结合起来,以增强其在需要多模态推理的任务中性能的提示技术。与传统的单模态思维链 (CoT) 提示不同,Multimodal CoT 不仅利用文本信息进行推理,还利用图像等其他模态的信息,从而更全面地理解任务,并生成更准确、更相关的答案。多模态思维链提示 (Multimodal CoT Prompting) 是一种将大语言模型 (LLM)








