秋天是倒放的春天963 个人主页

@2302_80236633

秋天是倒放的春天963

2024-02-01 10:29:52 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

PPO算法详解：强化学习策略优化的新高度

PPO（Proximal Policy Optimization，近端策略优化）算法是一种在强化学习领域广泛应用的策略优化算法。它在2017年由John Schulman等人提出，是TRPO（Trust Region Policy Optimization，信任域策略优化）算法的改进版本，旨在解决TRPO计算复杂度高、实现困难的问题，同时保持良好的性能。PPO算法在许多实际应用中表现出色，尤其是在

#算法 #人工智能 #机器学习 +4

PPO算法详解：强化学习策略优化的新高度

#算法 #人工智能 #机器学习 +4

一文读懂语言模型的困惑度

困惑度是基于语言模型的概率分布计算的，它衡量的是模型对一个给定文本序列的困惑程度。具体来说，困惑度是模型对文本序列的预测概率的倒数的几何平均值。

#算法 #transformer #人工智能 +4

大模型的输出：温度对输出的影响

通过这个例子，我们可以看到温度系数如何影响模型的概率分布：低温度系数：使概率分布更加集中，模型更倾向于选择高概率的单词，生成结果更加稳定和一致。高温度系数：使概率分布更加平缓，模型的选择更加随机，生成结果更加多样化和富有创造性。这个机制在实际应用中非常重要，比如在对话生成中，高温度系数可以使对话更加自然和有趣；而在需要准确性的任务（如机器翻译）中，低温度系数可能更合适。

#机器学习 #算法 #人工智能 +4

《强化学习基础概念：四大模型与两大损失》

策略是一个函数，它将状态映射到动作的概率分布。用数学符号表示为πa∣s\pi(a|s)πa∣s，其中sss表示状态，aaa表示动作，πa∣s\pi(a|s)πa∣s表示在状态sss下选择动作aaa的概率。策略决定了智能体在环境中如何行动，从而影响其获得的奖励和最终的学习效果。确定性策略（Deterministic Policy）：对于每个状态sss，策略π\piπ映射到一个唯一确定的动作aaa，即

#网络 #人工智能 #算法 +2

混合专家模型（MoE）：高效处理复杂任务的智能架构，DeepSeek性能出色的秘诀

是一种先进的神经网络架构，旨在通过整合多个的预测来提升整体模型性能。其核心思想是将，并由不同的分别处理，从而实现更高的效率和更好的性能。简单说就是，混合专家模型比如，满血版的模型总参数量为，但它在运行时的，大大节省了算力。因为每个token只会激活，所以比要小很多。

#架构 #深度学习 #人工智能 +4

手动实现一个迷你Llama：手动实现Llama模型

Llama 模型在自然语言处理领域有着广泛的应用，它通过自注意力机制能够有效地捕捉序列中的长距离依赖关系。为了更好地理解和实现这个模型，我们先从一些基础的代码和概念入手。在开始之前，我们需要导入一些必要的 Python 库。这些库将帮助我们完成模型的构建和训练。这些库涵盖了数学运算、数据结构定义、类型提示以及 PyTorch 框架的相关功能，为后续的模型实现提供了强大的支持。接下来，我们来定义一个

#网络 #人工智能 #算法 +3

RAG库搭建：从零开始，开启智能问答新世界

当我们输入一个问题，问题的答案会从文档中检索出来，然后将答案和问题一起输入到大模型中生成答案。问答模块其实非常简答，将检索到的内容和用户的问题进行拼接，然后使用LLM进行回答即可。的结合，它通过将文档和用户问题进行匹配，从而实现。要实现一个最简单的RAG，我们首先要了解。

#分类 #神经网络 #机器学习 +2

优化算法深度剖析：梯度下降、动量方法与自适应学习率

通过计算损失函数对参数的梯度，沿着梯度下降的方向更新模型参数，直到找到最小值或足够接近最小值的解。其核心思想是基于损失函数的梯度方向来调整参数，以最小化损失。梯度下降的核心思想是基于损失函数的梯度方向来调整参数。具体来说，它通过计算损失函数对参数的梯度，沿着梯度下降的方向更新模型参数，直到找到最小值或足够接近最小值的解。其更新公式为：θt+1=θt−η∇J(θt)\theta_{t+1} = \t

#算法 #学习 #人工智能 +4

RoPE：为什么你的Transformer模型需要这种“旋转”的力量？qwen2.5的位置编码！

在RoPE中，频率fff的变化体现了位置信息的多层次编码、不同尺度的敏感度、相对位置的自然表示以及模型的灵活性和适应性。这种设计使得RoPE能够在Transformer模型中有效地编码位置信息，从而提高模型对序列数据的理解能力。

#transformer #深度学习 #人工智能 +4

共 56 条

请选择