logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型之注意力机制实现

位置问题修正KV Cache 拼接dim=-1应为dim=1标准注意力路径缺少应加xv拆分未view应加这段代码是一个高度优化、功能完整GQA(内存效率)RoPE(位置感知)KV Cache(推理加速)(计算效率)因果掩码(自回归约束)尽管存在几处小 bug(已在上文指出),但整体结构清晰、符合工业级大模型设计范式,是理解 LLaMA、Gemma 等模型注意力机制的优秀参考。

#深度学习#人工智能#机器学习
大模型-位置编码RoPE的具体实现

【代码】大模型-位置编码RoPE的具体实现。

#深度学习
目标检测和大模型领域中下采样和上采样是什么意思

在目标检测和大模型(如视觉大模型、多模态大模型等)领域中,下采样(downsampling) 和 上采样(upsampling) 是图像/特征图尺度变换的关键操作,主要用于多尺度特征提取、空间信息恢复等任务。

#目标检测#目标跟踪#人工智能
大模型之-层归一化RMSNorm的实现

【代码】大模型之-层归一化RMSNorm的实现。

#人工智能
大模型之Block实现

【代码】大模型之Block实现。

#pytorch#python#深度学习
论文阅读:KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation

作者构建了一个含有8000个知识内容的知识集,并拆分成了六个不同类别的数据集,评估了推理效果,指标为ACC和R1(衡量输出和参考答案的相关性)对实体进行标准化的目的类似于:在某个时间点,某种年龄和某种性别的人并发症状可能比较明显,因此我们可以利用实时的外部知识去丰富实体的属性内容。我的想法是将余弦相似度与KL散度,然后利用词典对句子分词,捕获谓语动词评价其词汇的情感,将三者综合起来作为句子与句子之

文章图片
#论文阅读#boosting#集成学习
PPO算法学习

图1:强化学习的流程如图一所示,智能体与环境的交互过程如下:目的: 智能体在与环境交互的过程中不断学习,最终找到一个策略,能够根据当前的 State 环境状态和 Reward 奖励反馈,来选择最佳的 Action。在1.1中,我们谈到了奖励值 Rt ,它表示环境进入状态 St 下的即时奖励。但如果只考虑即时奖励,目光似乎太短浅了:当下的状态和动作会影响到未来的状态和动作,进而影响到未来的整体收益。

文章图片
#算法#学习
VLLMs学习-LLMEngine(模型初始化)

主要包含CUDA内核的优化。

#学习
大模型之注意力机制实现

位置问题修正KV Cache 拼接dim=-1应为dim=1标准注意力路径缺少应加xv拆分未view应加这段代码是一个高度优化、功能完整GQA(内存效率)RoPE(位置感知)KV Cache(推理加速)(计算效率)因果掩码(自回归约束)尽管存在几处小 bug(已在上文指出),但整体结构清晰、符合工业级大模型设计范式,是理解 LLaMA、Gemma 等模型注意力机制的优秀参考。

#深度学习#人工智能#机器学习
书生大模型基础岛-第三关:LangGPT结构化提示词编写实践

背景问题:近期相关研究发现,LLM在对比浮点数字时表现不佳,经验证,internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题,例如认为13.8

文章图片
#人工智能
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择