logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PPO算法详解:强化学习策略优化的新高度

PPO(Proximal Policy Optimization,近端策略优化)算法是一种在强化学习领域广泛应用的策略优化算法。它在2017年由John Schulman等人提出,是TRPO(Trust Region Policy Optimization,信任域策略优化)算法的改进版本,旨在解决TRPO计算复杂度高、实现困难的问题,同时保持良好的性能。PPO算法在许多实际应用中表现出色,尤其是在

#算法#人工智能#机器学习 +4
PPO算法详解:强化学习策略优化的新高度

PPO(Proximal Policy Optimization,近端策略优化)算法是一种在强化学习领域广泛应用的策略优化算法。它在2017年由John Schulman等人提出,是TRPO(Trust Region Policy Optimization,信任域策略优化)算法的改进版本,旨在解决TRPO计算复杂度高、实现困难的问题,同时保持良好的性能。PPO算法在许多实际应用中表现出色,尤其是在

#算法#人工智能#机器学习 +4
一文读懂语言模型的困惑度

困惑度是基于语言模型的概率分布计算的,它衡量的是模型对一个给定文本序列的困惑程度。具体来说,困惑度是模型对文本序列的预测概率的倒数的几何平均值。

#算法#transformer#人工智能 +4
大模型的输出:温度对输出的影响

通过这个例子,我们可以看到温度系数如何影响模型的概率分布:低温度系数:使概率分布更加集中,模型更倾向于选择高概率的单词,生成结果更加稳定和一致。高温度系数:使概率分布更加平缓,模型的选择更加随机,生成结果更加多样化和富有创造性。这个机制在实际应用中非常重要,比如在对话生成中,高温度系数可以使对话更加自然和有趣;而在需要准确性的任务(如机器翻译)中,低温度系数可能更合适。

#机器学习#算法#人工智能 +4
《强化学习基础概念:四大模型与两大损失》

策略是一个函数,它将状态映射到动作的概率分布。用数学符号表示为πa∣s\pi(a|s)πa∣s,其中sss表示状态,aaa表示动作,πa∣s\pi(a|s)πa∣s表示在状态sss下选择动作aaa的概率。策略决定了智能体在环境中如何行动,从而影响其获得的奖励和最终的学习效果。确定性策略(Deterministic Policy):对于每个状态sss,策略π\piπ映射到一个唯一确定的动作aaa,即

#网络#人工智能#算法 +2
混合专家模型(MoE):高效处理复杂任务的智能架构,DeepSeek性能出色的秘诀

是一种先进的神经网络架构,旨在通过整合多个的预测来提升整体模型性能。其核心思想是将,并由不同的分别处理,从而实现更高的效率和更好的性能。简单说就是,混合专家模型比如,满血版的模型总参数量为,但它在运行时的,大大节省了算力。因为每个token只会激活,所以比要小很多。

文章图片
#架构#深度学习#人工智能 +4
手动实现一个迷你Llama:手动实现Llama模型

Llama 模型在自然语言处理领域有着广泛的应用,它通过自注意力机制能够有效地捕捉序列中的长距离依赖关系。为了更好地理解和实现这个模型,我们先从一些基础的代码和概念入手。在开始之前,我们需要导入一些必要的 Python 库。这些库将帮助我们完成模型的构建和训练。这些库涵盖了数学运算、数据结构定义、类型提示以及 PyTorch 框架的相关功能,为后续的模型实现提供了强大的支持。接下来,我们来定义一个

#网络#人工智能#算法 +3
RAG库搭建:从零开始,开启智能问答新世界

当我们输入一个问题,问题的答案会从文档中检索出来,然后将答案和问题一起输入到大模型中生成答案。问答模块其实非常简答,将检索到的内容和用户的问题进行拼接,然后使用LLM进行回答即可。的结合,它通过将文档和用户问题进行匹配,从而实现。要实现一个最简单的RAG,我们首先要了解。

#分类#神经网络#机器学习 +2
优化算法深度剖析:梯度下降、动量方法与自适应学习率

通过计算损失函数对参数的梯度,沿着梯度下降的方向更新模型参数,直到找到最小值或足够接近最小值的解。其核心思想是基于损失函数的梯度方向来调整参数,以最小化损失。梯度下降的核心思想是基于损失函数的梯度方向来调整参数。具体来说,它通过计算损失函数对参数的梯度,沿着梯度下降的方向更新模型参数,直到找到最小值或足够接近最小值的解。其更新公式为:θt+1=θt−η∇J(θt)\theta_{t+1} = \t

#算法#学习#人工智能 +4
RoPE:为什么你的Transformer模型需要这种“旋转”的力量?qwen2.5的位置编码!

在RoPE中,频率fff的变化体现了位置信息的多层次编码、不同尺度的敏感度、相对位置的自然表示以及模型的灵活性和适应性。这种设计使得RoPE能够在Transformer模型中有效地编码位置信息,从而提高模型对序列数据的理解能力。

#transformer#深度学习#人工智能 +4
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择