谁怕平生太急个人主页

@jinselizhi

谁怕平生太急

2022-06-24 21:14:33 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Megatron-lm、DeepSpeed

3、Megatron-LM 综合应用了数据并行（Data Parallelism），张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）。ZeRO将模型训练阶段，每张卡中显存内容分为两类：模型（参数、梯度、Adam状态）、剩余（激活值、临时缓冲区、显存碎片）。2、并行的方式：数据并行、模型并行（张量并行、流水线并行）。1、为了训练更多的数据、更大

llava论文阅读

我们首次尝试仅使用语言模型GPT-4来生成多模态的语言-图像指令跟随数据。通过在生成的数据上进行指令微调，我们引入了LLaVA（Large Language and Vision Assistant）：一个端到端训练的大型多模态模型，它将视觉编码器与LLM（Large Language Model）连接起来，用于通用的视觉和语言理解。构建了两个评价基准。llava的效果：在一个合成的多模态指令遵循

#论文阅读

大模型之MoE

在做完capacity + random routing后，我们最终确认了每个token要发去的top2expert和其对应的权重，通过加权计算的方式，确认Moe-Layer最终的输出结果。: 为每个expert设置capacity（expert buffer），限制它能处理的最大token数量，多出来的token算为溢出，在top2Expert都溢出的情况下，该token会被直接发去下一层att

大模型之DPO

这个loss同样用 Reference模型来计算KL散度，以免训练出来的模型偏离 SFT后的模型太远。研究引入身份偏好优化（IPO），它为 DPO 损失添加了正则化项，使人们能够训练模型收敛，而无需提前停止等技巧。实验的感觉是不如PPO、可能的原因是没有很好的调参，也可能是因为PPO pipeline环节引入了较多的人工经验。这么设计、意味着训练样本构造batch时，要将一个对话的样本放在一个ba

大模型之CoT和ToT

将 ToT 框架的主要概念概括成了一段简短的提示词，指导 LLM 在一次提示中对中间思维做出评估。我的看法：如果模型足够强大，CoT和ToT的作用将大大减少。一句话总结：CoT和ToT都是Prompt技巧中的一种。，引导语言模型探索把思维作为中间步骤来解决通用问题。Chain-of-Thought思维链。：Tree of Thoughts 思维树。ToT 基于思维链提示进行了。

面试问题记录1

文本大模型推理加速的技术方案种类繁多，不同技术针对的瓶颈不同。

#面试

大模型之MoE

Agent的长期记忆

如果什么时候，可以不断流式的接受外界的输入token，KV Cache一直在GPU内存或者临时换出到CPU内存，这样KV Cache就是AI Agent的工作记忆，或者说AI Agent的状态，这是的Agent或许就是不断进行的“半神”存在。大模型的输入：包括角色设定（system prompt）、最近对话、全局记忆概要（即角色对用户的核心记忆 b.2）、经过RAG的聊天记录分段总结（a.）和分类

大模型之RLHF

loss含义是对上文St而言，如果token At产生的预估收益越高，那就增大它出现的概率，否则降低它的概率。这一步设计的目的是要让 Rt 可计算，其中一种设计是除了最后的T时刻，其余时刻的即时奖励，我们就用“Actor是否遵循了Ref的约束”来进行评价。3、在t时刻，At对应的即时收益为Rt，总收益是Vt（Vt=即时收益+未来收益），也可以理解成“对人类喜好的衡量”，此时模型的状态有St变

大模型之DPO

共 52 条

请选择