logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从哈尔滨索菲亚教堂到 AI Infra 看人群扎堆的本质

逻辑斯蒂增长模型的核心是增长受承载力的约束,初期因资源充足快速增长,后期因资源有限增速放缓,最终趋于饱和,我对其简单修正,加入一个令人悲伤的离场衰减项,这恰好契合互联网当下的跟风现象,无论是打卡景点还是入局 AI,参与者都会随信息裂变快速增加,但优质资源总有上限,最终拥挤不堪(内卷)。用本文的模型可以拟合西湖景区,哈尔滨冰雪游,淄博烧烤,智能手机,共享单车,新能源汽车,AI 大模型等,仍在持续增长

#人工智能
避不开的数据拷贝(2)

如果数据是严格保序的,通用机器需无条件满足该约束,典型例子是通用处理器,即 CPU,它的处理资源必须在时间维度分割成流水线,作为数据的串行指令在其中接力通过。还有一个问题,如果必须要搬运,数据搬运过程中为什么需要 buffer,为什么不能一镜到底,推而广之,为什么要接力,转介。既然处理器是通用机器,就没有专属数据,所以数据都要从别处调来,这就涉及到了数据搬运,就有了外设的概念。总之都是数据能不动就

文章图片
#网络
多路径可靠传输协议(比如 MPTCP)为什么低效

我在十年前曾排查过多起由于多核网关并发处理 TCP 流导致其吞吐下降一到两个数量级的案例,彼时各类转发技术刚刚开始还没完全开始卷,大多数人觉得并行处理可优化一切(现在依然这样认为),却忽略了流式传输的内在约束,这些案例正反面证明我上面的论述,换句话说,把 MPTCP 调度策略去掉,按 roundrobin or 时间戳 hash 的方式选择 Subflow,将会获得类似结局。此外,MPTCP 路径

文章图片
#网络
LLM(大语言模型) 的本质是概率

不会类比,不懂共情(这两点一向是被计算机背景的理工群体鄙视的),没有泛化能力,无法举一反三,不会归纳演绎,这才是 AI 的瓶颈,而不是铺天盖地的算力,以及那些以为 scale 就够了的能力,但在本质上,只要 AI 仍然是个概率预测机器,那些 scale up 也好,scale out 也好,都仍然在做概率预测,正如它们名字一样,规模扩大了而已。这个过程最精妙的结果是,在交叉熵损失和 Softmax

#语言模型#人工智能#自然语言处理
干重活儿的互联网

cpu 互联网只是数据的仓库,无论是你浏览网页,看视频,玩游戏,所有的内容几乎都来自于 “录入”,你上传一张图片,图片就保存在某个地方,当人们想看它时,它就从这个地方传输到人们眼前的屏幕上,互联网核心只看管数据,却无力触动数据,因为算力不行。我解释到,手工操作类似 cpu,机器批量操作类似 gpu,jpu。我只能这样讲,因为小孩子喜欢很酷的东西,他们喜欢无人机根据人的遥控去送货胜于人根据算法的指令

文章图片
#网络
交叉熵(Cross Entropy)及其应用实例

最近看大模型相关的论文和书籍,发现了宝藏,这里面全都是我感兴趣的单点,概率统计学,非线性,GPU 并行的切割方向,负反馈,矩阵,函数图像…当模型对某个类别的预测概率高于真实概率时,梯度为正,提示应该降低相应的 logit,当预测不足时,梯度为负,提示应该增加 logit。影响更大,两者偏离越大,损失越大,直观上看,交叉熵更重视出类拔萃者,而忽略了卑微者,这就是一种有意义的 “拔优”,涌现正基于这种

信息守恒下的涌现与 AI 传输质量观测

在做法上,我可能会用实际流量样本训练 DCN 本身,在它能为拥塞控制给出建议之前,实际的流量或人为注入的流量(例如 incast)最为输入,人工的,传统算法的或 SDN 的决策作为目标,都是该 AI DCN 的学习样本,该 AI DCN 就像一个神经网络本身一样收敛,涌现出应对任何流量模式的即时应对措施,在我看来这就算一种即时的 “在线推理”。不管怎样,信息守恒,只是难以暴露,依赖大模型的涌现能力

#人工智能#算法
大模型的秘密:从三元一次方程组到 KV Cache

写这篇文章有四个理由。周一下午一个僵死一年的传输优化群突然有人问 BBR 的问题,没什么人接话;我每周五晚上到周日早晨都会写网络方面的随笔记录并分享在 pyq,经常有人评论 AI 如何,我颇为不屑;周四早上看,已经很少有我精通的了;我并不好奇当今几乎所有的招聘以及各个技术群的话题都与大模型相关,我担心的是如果不去擦点边,将来会很艰难,甚至群里瞎扯淡都插不上话,所以我花了点时间浏览了。

HTTP 2.0 的真正革命

本质上 capacity-seeking 也由此导致,你不能干巴巴眼睁睁看着并行资源长期空闲,就必须让串行流尽可能粗壮,这里有两个相互决定,早期终端单线程处理结构决定了流式传输协议行为,后期流式传输结构反过来制约终端的并行处理能力,决定了终端串行处理以及奇技淫巧的行为,悲观讲,二者错配,用发展的眼光,这是螺旋上升的必然。有知识不一定有文化,会做并不意味着懂,作为工程的网络,做过的都会做,但就像流水

#http#网络协议#网络
谈谈具身智能

人类不如 LLM 学得快,但 LLM 始终还是不能真正理解世界,没有归纳,抽象,类比,泛化的能力,原因就在于它只是一个抽象的语言模型,而语言本身就是抽象,泛化的结果,它不是世界的本质,它只是勾勒世界的轮廓,而世界的本质是物理定律,探知这个本质需要去和物理世界世界接触,而不是仅仅接收对它的语言描述,我非常看好具身智能。物理世界的规则是固定的,学习它即可。依靠与物理世界互动,获得物理因果,用这种因果指

#人工智能#机器学习#算法
    共 155 条
  • 1
  • 2
  • 3
  • 16
  • 请选择