logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

24/11/14 算法笔记<强化学习> 马尔可夫

一. MDP马尔可夫决策过程是马尔可夫链的扩展,它引入了决策的概念。在MDP中,每个状态都对应一个或多个动作,而动作会影响下一个状态的转移概率和获得的奖励。MDP由四个主要元素组成:状态空间、动作空间、转移概率和奖励函数。状态空间定义了所有可能的状态,动作空间定义了在每个状态下可执行的动作,转移概率描述了执行某个动作后转移到另一个状态的概率,奖励函数则定义了在特定状态下执行特定动作后获得的即时奖励

#机器学习#人工智能
24/11/12 算法笔记<强化学习> 自注意力机制

这部分代码初始化了四个线性层(全连接层),分别用于计算值(values)、键(keys)、查询(queries)和输出。由于我们使用的是多头注意力机制,所以需要将输入的嵌入向量分割成多个头,每个头都有自己的线性层。然后,我们对这些分数应用softmax函数,以获得每个头的注意力权重。然后,我们调整张量的维度,以便于后续的合并操作。这里使用断言语句来确保嵌入维度可以被头数整除,这是实现多头注意力机制

文章图片
24/12/5 算法笔记<强化学习> doubleDQN,duelingDQN

我们前面了解了DQN网络的一些知识,然而DQN还有一些改进的方法,比如doubleDQN和duelingDQN,我们先来将一下doubleDQN和DQN.

文章图片
论文笔记 <交通灯> IntelliLight:一种用于智能交通灯控制的强化学习方法

IntelliLight提出了一种创新强化学习方法优化智能交通灯控制,针对三个核心问题:1) 通过PhaseGate机制对不同相位激活独立决策分支,解决传统DQN的相位混淆问题;2) 采用MemoryPalace为每个相位-动作组合建立专属记忆池,均衡采样缓解数据不平衡;3) 基于济南市1.7亿条真实交通数据训练,融合CNN提取的图像特征与传统交通参数。实验表明该方法有效提升动态交通环境下的控制性

文章图片
#论文阅读
25/2/17 <嵌入式笔记> 桌宠代码解析

这个寒假跟着做了一个开源的桌宠,我们来解析下代码,加深理解。

文章图片
#单片机#嵌入式硬件#机器人
机器学习实战笔记3乳腺癌数据集

加个参数目的是为了保持训练集和验证集(或测试集)中各类别的比例与整个数据集中的比例相同。输出乳腺癌数据集的详细描述,通常包括数据集的来源、特征的解释、数据集的版权信息等。遍历包含列名和对应数组(或序列)的列表,并打印出每个数组中各个值的频率(比例)分割:random_state随机种子,test_size25%是测试集。中的一个函数,用于按列合并数组。在这个例子中,它将特征数据。函数将数据集分割为

文章图片
#机器学习#人工智能
深度学习实战笔记7kaggle比赛:图像分类

train_iter: 训练数据的迭代器。: 训练和验证数据的迭代器(如果有的话)。valid_iter: 验证数据的迭代器。test_iter: 测试数据的迭代器。batch_size: 每个批次加载的样本数量,这个变量在代码中没有直接定义,应该在外部定义好。模型: 定义了一个继承自的类,这意味着这个块可以在图的编译模式下运行,也可以在命令式模式下运行。: 构造函数接受以下参数:: 卷积层的通道

文章图片
#深度学习#分类
基于星火大模型的群聊对话分角色要素提取挑战-baseline2,task4技术笔记4

回顾数据集,我们的训练集为130条,但如果只是130条做微调一个问题是数据量太少了,我们没法完全去微调我们的数据。function call可以设计出专门用来抽取的工具,相比于直接调用大模型,function call的优势在于可以稳定控制输出,得到需要的输出结构。当你处理复杂问题的时候,往往单独使用大语言模型无法直接完成你想要的内容,这里你可以试试做一个自己的agent。设计总结模型,首先训练出

文章图片
#语言模型
论文笔记 <交通灯> <多智能体>DERLight双重经验回放灯机制

本文提出DERLight算法改进交通信号控制,针对传统优先级经验回放(PER)的存储和计算效率问题,设计双重经验池机制:普通池存储基础交互数据,优先池筛选高价值样本(奖励≥历史均值且>中位数)并按10%概率启动训练。创新性地引入动态训练周期调节机制,通过加权函数平衡即时与历史奖励影响。采用压力奖励函数(Pi=Nin-Nout)优化车流分布。实验表明该方法在通行时间、吞吐量和收敛速度上优于主流算法,

文章图片
#论文阅读#深度学习#人工智能
25/1/13 嵌入式笔记 继续学习Esp32

ESP32 的 LEDC 模块提供了多个独立的 PWM 通道,可以用来生成 PWM 信号,控制设备如 LED 亮度、舵机角度等。ESP32通过定时器可以完成各种预设好的任务,ESP32定时器达到指定时间后也会产生中断,然后在回调函数内执行所需功能。设计理念是:信号线尽量少并且速率要尽量高,信号线少,可以减少引脚占用,这对早期的芯片(引脚很少)的很重要。简单来说,只需要2根线,就可以对多台设备传输大

文章图片
#学习
    共 26 条
  • 1
  • 2
  • 3
  • 请选择