W: 算法狗后台回复资料领取面试题库个人主页

@2501_91504718

W: 算法狗后台回复资料领取面试题库

2025-04-03 22:25:36 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型面试题：大模型的训练和推理中显存和计算量的情况

我整理好的1000+面试题，请看或者最好将URL复制到浏览器中打开，不然可能无法直接打开好了，我们今天针对上面的问题，

#语言模型 #人工智能 #机器学习 +1

大模型面试题：现有的大模型如何实现灵活填空生成文本呢

我整理好的1000+面试题，请看或者最好将URL复制到浏览器中打开，不然可能无法直接打开好了，我们今天针对上面的问题，

#语言模型 #人工智能 #机器学习 +1

现有的大模型如何实现灵活填空生成文本呢

我整理好的1000+面试题，请看或者最好将URL复制到浏览器中打开，不然可能无法直接打开好了，我们今天针对上面的问题，

#语言模型 #人工智能 #机器学习 +1

大模型面试题：PPO算法到底是on-policy还是off-policy

PPO（Proximal Policy Optimization）是一种主要基于on-policy的强化学习算法，同时融合了部分off-policy特性。其核心设计要求使用当前策略收集的数据进行更新（on-policy特点），但通过重要性采样机制允许有限次数据重用（off-policy特性）。PPO采用裁剪或KL散度约束来限制策略更新幅度，确保新策略不会偏离原始数据分布太远。这种混合设计既保持了o

#pytorch #人工智能 #python +1

大模型面试题：请问下离散KL散度的计算方式有哪些？

本文详细推导了三种KL散度估计器(k1,k2,k3)的构造过程。k1基于蒙特卡洛直接估计，无偏但高方差；k2利用二阶泰勒展开近似，低方差但有偏；k3通过控制变量法结合前两者的优点，实现了无偏且低方差的估计。推导过程涉及期望估计、泰勒展开和控制变量法等数学工具，清晰展示了各估计器的原理与特性。

#机器学习 #深度学习 #人工智能 +1

大模型算法面试题：PPO算法到底是on-policy还是off-policy

PPO算法本质上是on-policy方法，但通过重要性采样等技术部分借鉴了off-policy思想。它要求使用当前策略收集数据（on-policy特性），但允许对同一批数据进行多次梯度更新（off-policy特性），并通过裁剪或KL惩罚限制更新幅度。相比完全off-policy算法（如DQN、SAC），PPO不能随意使用历史数据，数据时效性要求更高。这种设计在保持on-policy稳定性的同时，

#人工智能 #机器学习 #深度学习 +1

大模型面试题：大模型使用几十条数据微调后为啥性能差的很多？

一个很有意思的回答：大模型的Loss Landscape 是由多个“Basin”（盆地）组成的，而不是一个平滑的曲面。如果微调（Fine-Tuning）的优化方向偏离了Basic Capacity Basin，就可能容易训崩掉，虽然训崩的概率不大。，但少数方向（如过大的学习率、错误的优化目标）会让模型“滑出”Basin。内，SFT 通常不会损害模型的整体能力，只是调整其行为分布。在这个Basin

#人工智能

大模型面试题：解释下minimax中lighting attention的由来

摘要：本文介绍了LightningAttention技术在解决传统注意力机制O(n²)复杂度问题上的演进。传统SoftmaxAttention难以处理长序列，线性注意力通过激活函数替换降低复杂度至O(nd²)。重点分析了LightningAttention-2的创新：采用分块策略，将注意力分为块内（传统左乘+掩码）和块间（缓存KV右乘）处理，首次实现因果模型的线性复杂度。该技术通过SRAM优化和

#人工智能 #语言模型

大模型面试题：大模型推理中超出训练长度的外推方式有哪些？

摘要：本文总结了Transformer模型在推理时超出训练长度范围的外推方法，主要包括ALiBi、内插法、NTK-Aware和Yarn等四种主流技术。ALiBi通过添加不可学习的偏置实现外推，内插法通过缩放位置编码适应长文本，NTK-Aware采用动态调整的进制转换策略，而Yarn则结合了灵活进制设计和温度调节。这些方法各有特点，旨在解决模型在长序列推理时的性能下降问题。文章详细分析了每种方法的原

#语言模型 #人工智能 #机器学习 +1

大模型面试题：PPO算法到底是on-policy还是off-policy

PPO算法本质上是on-policy方法，但通过重要性采样等技巧部分借鉴了off-policy思想。它要求使用当前策略生成的数据进行更新（on-policy特性），但允许有限次重用旧数据（off-policy特性），并通过裁剪或KL惩罚来约束更新幅度。与完全off-policy算法（如SAC、DQN）相比，PPO不能任意重用历史数据，而是需要在保持on-policy稳定性的前提下，有限提升数据效率

#机器学习 #深度学习 #人工智能 +1

共 15 条

请选择