
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
该分支在输入序列中维护一个固定大小的窗口,对窗口内的 token 进行常规的注意力计算,确保模型能敏感地捕捉到近邻之间的细节和依赖关系,从而防止在全局稀疏化处理时局部信息被遗漏,这个就没什么特别可讲得了。在传统的注意力机制中,随机的内存访问会造成较大的延迟,而 NSA 的选择分支通过对连续块的选择,有效避免了这种问题,确保了硬件的高速缓存(cache)和带宽能得到最优利用,从而进一步提高计算速度(
W(权重矩阵,int8):| 1| -3 |6 || 4|8 | -4 || 0|2 | -2 | A(输入激活矩阵,int8):| 4|1|| -6 |4|| 3| -5|就是先把之前的矩阵打散,然后再给化成小的矩阵,比如都化成2*2的小矩阵,这样容易提升查找的命中率,然后为了优化内存的存储方式,再做一个permutation,最后可能就这样(随便举个例子)

它的意义为,一个状态-行动对 (s, a) 的最优价值,等于所有可能的下一个状态 s' 的最优价值的期望值,而下一个状态的最优价值,是通过在下一个状态选择 最优行动 来达成的。一个状态-行动对 (s, a) 的价值,等于所有可能的下一个状态 s' 的价值的期望值,而下一个状态的价值又取决于策略 π 在该状态下选择不同行动的概率以及这些行动对应的动作价值。贝尔曼方程通过期望处理这种不确定性。这个方程
例如,如果代理选择“上 (UP)”,则向上移动的概率为 0.8,而向左移动的概率为 0.1,向右移动的概率为 0.1(因为左和右与上是直角方向)。然而,在某些上下文中,奖励函数也可以定义为R(s, a, s’),表示从状态s通过动作a转移到s’后的奖励,这取决于具体问题设置。A是动作空间,可能在每个状态s下有不同的可用动作集合A_s。状态S(States):系统可能处于的所有情况或配置,例如在一个
这几周比较忙,也没看啥也没写啥(主要在打街霸6的天梯),但是这个论文我扫了一眼还是有价值的,所以给大家解读一下这个论文:https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/其实对于这个解决了什么问题,没那么抽象比如让gpu算一个浮点数,基本算几次可能结果都不一样。浮点数最后影响了概率,概率分布和采样影
相当而言,下面的这个方式,比较好容易被接受,就是把感知,预测,决策这些模块在一个模型了,planning和control这些不用放在模型里执行,在模型外,可以写一些兜底的策略,比如紧急避障,紧急刹车,限速啥的。:跟踪模块持续监控并预测周围移动物体的位置和速度,例如其他车辆和行人,以便系统能够做出及时和准确的反应,避免碰撞。这是一个错误的理解,特斯拉的纯视觉方案在训练时有text指令的输入,所以它也

有点意思的论文 2410.13639简而言之就是曼彻斯特大学,浙大和中科大还有一些开源的项目组一些一起研究OpenAI O1的人,来发O1为什么牛B的论文正常,研究红楼梦毕竟也有红学(我是一集红楼梦也没看过,书和电视都没看过)。。。文章主要讲分析猜测和评估OpenAI的推理模式在不同任务上的效果同时也利用不同的模型比如GPT4o,Gemma,LLama, Qwen等尝试利用分析出来的O1的推理方式

做算力的人天又塌了!!!(这个正月,塌好几次了)https://arxiv.org/pdf/2501.19393李飞飞团队刚刚发布的论文,仅仅用了 1000 个样本,用了 16 块 H100,在 26 分钟就训练完成了可以匹敌 o1-preview 的模型。但是具体的情况?本着本 blog 一贯认真负责的追求事实真相的原则,我抽丝剥茧展开说一下。S1 这个模型的训练方法基础模型性能很好 Qwen2
最近有个模型挺火啊现在都排进了HF排行榜的第四了模型叫做microsoft/bitnet-b1.58-2B-4T其实非常小的一个模型,只有2B,那这东西有多大意义呢?它主要探索一个打法也就是这篇论文先说这论文解决啥问题。
该分支在输入序列中维护一个固定大小的窗口,对窗口内的 token 进行常规的注意力计算,确保模型能敏感地捕捉到近邻之间的细节和依赖关系,从而防止在全局稀疏化处理时局部信息被遗漏,这个就没什么特别可讲得了。在传统的注意力机制中,随机的内存访问会造成较大的延迟,而 NSA 的选择分支通过对连续块的选择,有效避免了这种问题,确保了硬件的高速缓存(cache)和带宽能得到最优利用,从而进一步提高计算速度(







