
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
概念RL(Reinforcement Learning)–强化学习是指agent(智能体),通过使未来的道德奖励最大化,来学习在不确定的环境中所要进行的动作。特点强化学习不同于其他机器学范式的区别在于以下几点:1、There is no supervisor,only a reward signal(在RL中没有监督者,只有一个奖励信号)2、Feedback is delayed,not inst
《STMARL: A Spatio-Temporal Multi-Agent Reinforcement Learning Approach for Cooperative Traffic Light Control》,这是中国科学技术大学发表在交通顶级期刊IEEE Transactions on Mobile Computing 2020上的一篇文章。Abstract智能交通灯控制系统的发展是实
蒸馏(distilation):将知识从大模型转移到小模型。
学了了tensorflow 中关于函数以及Variable函数的使用,以下是相关代码以及注释。import tensorflow as tfstate=tf.Variable(0,name='variable1')#给定变量的初始值以及名字print(state.name)#打印变量名con=tf.constant(1,name='constant1')#常量值为1new_value=tf.add
《STMARL: A Spatio-Temporal Multi-Agent Reinforcement Learning Approach for Cooperative Traffic Light Control》,这是中国科学技术大学发表在交通顶级期刊IEEE Transactions on Mobile Computing 2020上的一篇文章。Abstract智能交通灯控制系统的发展是实
最近总结了在人工智能中常用的英语词汇,如下:CV(computer vision)–计算机视觉NN(neural network)–神经网络CNN(convolutional neural network)–卷积神经网络BN(batch normalization)–批标准化Pooling–池化Dropout–舍弃Receptive Field–感受野Padding在神经网络中一般表示全0填充Ac
tf.stack()是一个矩阵拼接函数,会根据函数中对应的参数调整拼接的维度。 axis=0,表示在第一个维度及逆行数据的拼接,如1x3和1x3的数据拼接会形成一个形状为2x3的数据。axis=1表示在第二维的数据进行拼接。import tensorflow as tfimport numpy as npa=tf.constant([[1,2,3],[4,5,6]])aa1=tf.constant







