
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
model和policy的区别Model:Mathematical models of dynamics and rewardPolicy: Function mapping agent’s states to actionsmodel-based和model-free的区别有模型学习是指根据环境中的经验,构建一个虚拟世界,同时在真实环境和虚拟世界中学习;免模型学习是指不对环境进行建模,直接与真实

在深度学习进行分布式训练时,常常采用同步数据并行的方式,也就是采用大的batch size进行训练,但large batch一般较于小的baseline的batch size性能更差,请问如何理解调试learning rate能使large batch达到small batch同样的收敛精度和速度?最近在进行多GPU分布式训练时,也遇到了large batch与learning rate的理解调试
前言:安装TensorFlow的GPU版本真的不是一件容易的事,好难,网上的各种安装教程倒是不少,但是基本没有一个能完全照着那种方法就能安装成功的,甚至有些连最基本的一些必需的步骤都没写到,那样子的话能安装到位才是奇迹。在经历各种踩坑后,我通过大量的互联网搜索,综合各个网站上写到的安装tensorflow-gpu的方法,终于总结出来一个走的通的方法,并且亲自动手实践,成功在Linux(Ubun..
说到密码,我们第一个想到的就是登陆账户的密码,但是从密码学的角度来看,这种根本就不算合格的密码。为什么呢,因为我们的账户密码,是依靠隐蔽性来达到加密作用:密码藏在我心里,你不知道,所以你登不上我的账户。然而密码技术认为,「保密」信息总有一天会被扒出来,所以加密算法不应该依靠「保密」来保证机密性,而应该做到:即便知道了加密算法,依然无计可施。说的魔幻一点就是,告诉你我的密码,你依然不知道我的...

值得注意的是,在DETR的代码(https://github.com/facebookresearch/detr/blob/29901c51d7fe8712168b8d0d64351170bc0f83e0/d2/detr/detr.py#L10)中,的。

最近写代码发现每个项目下的搜索都不能正常显示所有,原因是因为pycharm缓存过多需要清理,路径:file -> Invalidate Caches / Restart。
这部分转载自 https://www.zhihu.com/question/608732789/answer/3141379386。

理论上,大模型可以处理任意长度的问题长度,但受限于GPU显存和算力,过长的文本会使GPU出现OOM内存溢出及耗时过高,用户等待时长过长问题。目前工业界对超长文本的处理,大部分通过RAG的方式处理,也是业界比较流行的,但除RAG外其实也有两大类方法,主要是按是否需要重新对齐大模型的方式分为:不训练LLM大模型和训练LLM大模型参数,其实RAG也算是不需要重新对大模型训练的一种,RAG相关本文就不再赘

Single scale 就是指一个图片送给CNN一个图片,对应的Multi scale 一般是会送给CNN十张图片,比如高宽是256*256的图片,multi scale 则会在四个角和中心crop 5个224*224,再把五个crop的图片flip ,总共得到十个图片送给CNN。数据增强对深度神经网络的训练来说是非常重要的,尤其是在数据量较小的情况下能起到扩充数据的效果。本文总结了pytorc
量化方法的目的就是使用 8 位或 16 位的整型数来替代浮点数,这种方法试图利用定点点积来替代浮点点积,这很大程度上降低了神经网络在无硬浮点设备上的运算开销。同时,该方法在一些支持单指令流多数据流 SIMD 的硬件设备上优势就更加明显了,比如128-bit 寄存器 SSE 可以单个指令同时运算 4 个 32 位单精度浮点,8 个 16 位整型,16 个 8 位整型。假设一个 t 时长的音频,引擎处








