logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM(大语言模型) 的本质是概率

不会类比,不懂共情(这两点一向是被计算机背景的理工群体鄙视的),没有泛化能力,无法举一反三,不会归纳演绎,这才是 AI 的瓶颈,而不是铺天盖地的算力,以及那些以为 scale 就够了的能力,但在本质上,只要 AI 仍然是个概率预测机器,那些 scale up 也好,scale out 也好,都仍然在做概率预测,正如它们名字一样,规模扩大了而已。这个过程最精妙的结果是,在交叉熵损失和 Softmax

#语言模型#人工智能#自然语言处理
干重活儿的互联网

cpu 互联网只是数据的仓库,无论是你浏览网页,看视频,玩游戏,所有的内容几乎都来自于 “录入”,你上传一张图片,图片就保存在某个地方,当人们想看它时,它就从这个地方传输到人们眼前的屏幕上,互联网核心只看管数据,却无力触动数据,因为算力不行。我解释到,手工操作类似 cpu,机器批量操作类似 gpu,jpu。我只能这样讲,因为小孩子喜欢很酷的东西,他们喜欢无人机根据人的遥控去送货胜于人根据算法的指令

文章图片
#网络
交叉熵(Cross Entropy)及其应用实例

最近看大模型相关的论文和书籍,发现了宝藏,这里面全都是我感兴趣的单点,概率统计学,非线性,GPU 并行的切割方向,负反馈,矩阵,函数图像…当模型对某个类别的预测概率高于真实概率时,梯度为正,提示应该降低相应的 logit,当预测不足时,梯度为负,提示应该增加 logit。影响更大,两者偏离越大,损失越大,直观上看,交叉熵更重视出类拔萃者,而忽略了卑微者,这就是一种有意义的 “拔优”,涌现正基于这种

信息守恒下的涌现与 AI 传输质量观测

在做法上,我可能会用实际流量样本训练 DCN 本身,在它能为拥塞控制给出建议之前,实际的流量或人为注入的流量(例如 incast)最为输入,人工的,传统算法的或 SDN 的决策作为目标,都是该 AI DCN 的学习样本,该 AI DCN 就像一个神经网络本身一样收敛,涌现出应对任何流量模式的即时应对措施,在我看来这就算一种即时的 “在线推理”。不管怎样,信息守恒,只是难以暴露,依赖大模型的涌现能力

#人工智能#算法
大模型的秘密:从三元一次方程组到 KV Cache

写这篇文章有四个理由。周一下午一个僵死一年的传输优化群突然有人问 BBR 的问题,没什么人接话;我每周五晚上到周日早晨都会写网络方面的随笔记录并分享在 pyq,经常有人评论 AI 如何,我颇为不屑;周四早上看,已经很少有我精通的了;我并不好奇当今几乎所有的招聘以及各个技术群的话题都与大模型相关,我担心的是如果不去擦点边,将来会很艰难,甚至群里瞎扯淡都插不上话,所以我花了点时间浏览了。

HTTP 2.0 的真正革命

本质上 capacity-seeking 也由此导致,你不能干巴巴眼睁睁看着并行资源长期空闲,就必须让串行流尽可能粗壮,这里有两个相互决定,早期终端单线程处理结构决定了流式传输协议行为,后期流式传输结构反过来制约终端的并行处理能力,决定了终端串行处理以及奇技淫巧的行为,悲观讲,二者错配,用发展的眼光,这是螺旋上升的必然。有知识不一定有文化,会做并不意味着懂,作为工程的网络,做过的都会做,但就像流水

#http#网络协议#网络
谈谈具身智能

人类不如 LLM 学得快,但 LLM 始终还是不能真正理解世界,没有归纳,抽象,类比,泛化的能力,原因就在于它只是一个抽象的语言模型,而语言本身就是抽象,泛化的结果,它不是世界的本质,它只是勾勒世界的轮廓,而世界的本质是物理定律,探知这个本质需要去和物理世界世界接触,而不是仅仅接收对它的语言描述,我非常看好具身智能。物理世界的规则是固定的,学习它即可。依靠与物理世界互动,获得物理因果,用这种因果指

#人工智能#机器学习#算法
也谈谈字节的 veRoCE

没现成的就想不到,有现成的就随机组合,总能组合成对的,一招鲜,吃遍天。我一向是个行者游士,于八方没利害,不开大会,不提派驰,没作品,就只说我看到的,我看到的是客观,我说的我看到的却是主观,所以我的观点是直观的。只要确保计算资源在网格(网格,不是网络)上分布是均匀的,同样用一套趋向目标的随机规则就可以保证流量是均匀的,flow-based fairness 这问题本身就消失了,看,多么简单,我们几千

大模型知识蒸馏技术

进一步思考,“知识蒸馏” 其实是我们最拿手的传统教育模式,在古代,背会唐诗三百首,不会写也会偷,在当代,虽然我们的思维方式不是那么异想天开,但我们的考试成绩秒杀全宇宙,这背后都是对范式的记忆和应用,即,将知识的范式当作知识本身来学习,因此才得以弯道超车,省却了大量时间,这岂不就是大模型蒸馏。这个过程中,我是大模型,女儿是小模型,我由于 30 多年的积累训练,早就有了各种解题范式,而她不需要重复这

#人工智能#机器学习
LLM(大语言模型)和高尔顿板

既然 LLM 本质上是个概率机,而那些涌现出来的神奇效果又被各种矩阵,张量,非线性函数绕晕了头,而我们连自己头脑也同样不了解,再加上程序员看不起哲学,既然一切成了一团迷雾,概率的事还要概率自身来解释,而高尔顿板就是一个现成的概率机,所以用它来可视化概率导致的神奇效果的原理,显然高尚。下面实验所有代码均在。在我的世界观中,我们既是高尔顿板中的小球,受概率支配,又是调整钉子的训练者,能改变概率,还是观

#语言模型#人工智能#自然语言处理
    共 437 条
  • 1
  • 2
  • 3
  • 44
  • 请选择