
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
model predictive control MPC,模型控制预测,MPC使用了集成learning,用多个环境模型来predict,最后用CEM来做模型控制预测的。值函数方式DQN、策略方式的REINFORCE,以及两者结合的Actor-Critic,都是从环境采样数据来train,并没有相应的环境模型,通常环境模型可以帮助智能体train或者决策的。不存在显式的策略,使用环境模型来选择当前

TPPO algorithm 最大化 update 前后两个策略的JθEπ0s0JθEπ0s0的差值,也就是最大化残差的累加和,并且两个策略的KL散度要满足一定条件,不能太大的,导致步子太大扯着蛋。但是每个残差又要尽可能地小,来train价值网络的,保证策略收敛的,也就是最大化残差的和,同时要保证单个残差尽可能地小。PPO algorithm和TPPO是类似的情况,加入了截断条件,也就是重要性

除夕, 春节, 张灯结彩,喜气洋洋,大片的雪花飘落,很多雪花的, 贴春联、年画、窗花, 守岁, 压岁钱, 燃爆竹, 花炮,鞭炮,爆竹,年,祭祖,祭拜祖先,吃饺子、吃年糕,白色, 糖果, 礼物,橘子,花生,瓜子,肉,腊肉,猪肉,牛肉,食物,鸡肉,鸭肉,鹅肉,辣椒,很暖和,节日气氛很浓厚,大家都团团圆圆,没有人,图像内没有人,壁炉, 烤火,很暖和,柴火,煤炉,守岁、贴门神、贴春联、贴年画、挂灯笼等习俗

然后mac安装vmware fusion,需要注册比较繁琐的。虚拟机安装小型操作系统win10。
在显示数学公式的时候,通常都是文字格式,但网页显示需要用到katex常见的数学公式渲染工具,包括了mathjax和katex,katex更加轻量化,延迟低很多vscode中渲染markdown内的数学公式就是使用的katex下面是通过Katex渲染以后的结果在VUE3内的使用方式。

初始的学习率为lr,可以在前面的0.8*num_epochs,学习率下降到 lr*0.1,然后在0.9*num_epochs下降到 lr*0.01;也可以多次下降,0.4642,下降6次,0.4642**6=0.010005316163952237,0.4642**3=0.100026577288
af28b32d7e553898b2a91af498b1fb666fdebe0c 需要替换成 vscode 客户端菜单栏上的 help-about,然后复制下来,Commit 相应的字符串就是需要的,本人的就是。下载以后放到 /home/zj/.vscode-server目录,然后解压的,移动过去就行,最后就可以用remote-ssh来connect的。

转tensorrt模型有很多种方式, onnx, trtexec.exe, pytorch

这个文篇包含了两类mask,一类是 padding mask ,另一类则是 future mask ,第一类是用来减小padding的反向梯度的避免网络主要训练padding符号,第二类是用来遮挡后面的符号,前面的符号只能和之前的做线性或者非线性运算,不能和以后的符号有关系。要提到transformer的attention的mask,就需要先来看看train的过程,mask主要是用来缩小某些符号在

手动开启需要修改配置文件:/etc/ssh/sshd_config,修改里面的PasswordAuthentication yes就行。阿里云默认是使用ssh的密钥登陆的,若是配置了免密登录,此时ssh的密钥登录就被关闭了,需要手动开启的。此时需要使用紧急救援工具才行。因ssh已经不能使用了。
