kingsoftcloud 个人主页

@kingsoftcloud

kingsoftcloud

2023-05-03 17:24:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Murati的thinking machines的论文到底讲了什么

这几周比较忙，也没看啥也没写啥（主要在打街霸6的天梯），但是这个论文我扫了一眼还是有价值的，所以给大家解读一下这个论文：https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/其实对于这个解决了什么问题，没那么抽象比如让gpu算一个浮点数，基本算几次可能结果都不一样。浮点数最后影响了概率，概率分布和采样影

#人工智能

萝卜快跑和端到端的自动驾驶（1）

相当而言，下面的这个方式，比较好容易被接受，就是把感知，预测，决策这些模块在一个模型了，planning和control这些不用放在模型里执行，在模型外，可以写一些兜底的策略，比如紧急避障，紧急刹车，限速啥的。：跟踪模块持续监控并预测周围移动物体的位置和速度，例如其他车辆和行人，以便系统能够做出及时和准确的反应，避免碰撞。这是一个错误的理解，特斯拉的纯视觉方案在训练时有text指令的输入，所以它也

#人工智能 #机器学习

纯研究O1的论文都发出来了，让我想起来研究红楼梦的红学

有点意思的论文 2410.13639简而言之就是曼彻斯特大学，浙大和中科大还有一些开源的项目组一些一起研究OpenAI O1的人，来发O1为什么牛B的论文正常，研究红楼梦毕竟也有红学（我是一集红楼梦也没看过，书和电视都没看过)。。。文章主要讲分析猜测和评估OpenAI的推理模式在不同任务上的效果同时也利用不同的模型比如GPT4o，Gemma，LLama, Qwen等尝试利用分析出来的O1的推理方式

#人工智能

算力人再次天塌？李飞飞的s1是怎么炼成的

做算力的人天又塌了！！！（这个正月，塌好几次了）https://arxiv.org/pdf/2501.19393李飞飞团队刚刚发布的论文，仅仅用了 1000 个样本，用了 16 块 H100，在 26 分钟就训练完成了可以匹敌 o1-preview 的模型。但是具体的情况？本着本 blog 一贯认真负责的追求事实真相的原则，我抽丝剥茧展开说一下。S1 这个模型的训练方法基础模型性能很好 Qwen2

#人工智能

bitnet-b1.58-2B-4T和三进制

最近有个模型挺火啊现在都排进了HF排行榜的第四了模型叫做microsoft/bitnet-b1.58-2B-4T其实非常小的一个模型，只有2B，那这东西有多大意义呢？它主要探索一个打法也就是这篇论文先说这论文解决啥问题。

#自然语言处理 #深度学习 #人工智能

快速讲一下deepseek的新论文，这次他们魔爪伸向了attention

该分支在输入序列中维护一个固定大小的窗口，对窗口内的 token 进行常规的注意力计算，确保模型能敏感地捕捉到近邻之间的细节和依赖关系，从而防止在全局稀疏化处理时局部信息被遗漏，这个就没什么特别可讲得了。在传统的注意力机制中，随机的内存访问会造成较大的延迟，而 NSA 的选择分支通过对连续块的选择，有效避免了这种问题，确保了硬件的高速缓存（cache）和带宽能得到最优利用，从而进一步提高计算速度（

#人工智能

快速讲一下deepseek的新论文，这次他们魔爪伸向了attention

#人工智能

解读DeepseekV3

(主要是后训练阶段)它模型下载下来看起来还能行啊，也就不到700G，那正常671B的参数，根本不可能这么点显存占用，因该1.4T左右，这是因为它原生就FP8出的，这大概是我知道的第一个原生之直接出FP8的模型，Meta说很早就用FP8训练了，那Llama3啥的也默认都BF16的，有些特定的模型FP8 GPTQ/AWQ过,像它这么激进的应该是第一个。d_c 表示压缩后的维度，远小于 d_h * n_

#人工智能 #深度学习 #机器学习

到底了