logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Freedos在运行时从实模式进入保护模式

台风夜基本是不会睡觉的,写点有意思的。此时,2019年8月10日 2:20.酷爱历史,于是在主音吉他手的推荐下,在历史的垃圾堆里找到了Freedos。这个从1994年开始的dos兼容开源操作系统。实际上,它就是dos,可以说它是MS-DOS的续命者。非常令人震惊,2016年至今,这个Freedos竟然依然活跃。我以前竟然不知道这个。我一直以为1994年和现在的201X年对于计算机这个特定的领...

性能优化的边界-不该优化什么

大开合的性能提升往往来自于粗粒度的排列组合,而不是细粒度的优化,也就是说,知道哪种场景选择哪个现成的构件去搭建系统,比优化单独构件的收益边际更高,随着边际收益递减,才需要过渡到更细粒度的优化,例如优化算法,但往往在这个时候,系统表现已经足够好了,且有能力继续优化的工人也非常稀少了。这段话意思是,绝大多数肉眼可见的性能提升来自于对既有技术构件的选型,而对细节的细粒度优化收益小到毛毛雨,而成本往往也支

文章图片
#性能优化
一个关于人工智能实现的讨论

突然发现一场战争刚刚过去,自己没有来得及参战,战利品当然就没有机会了,不过观战也是不错的选择。这篇帖子讨论的非常不错,大家都阐述了自己的观点,值得一看前面写过一些文章来讨论人工智能,我的观点就是以当前纯算法的努力实现真正的人工智能几乎不可能,突然发现一个帖子,里面阐述的更加具体了一些,大家都发表了自己的意见,很激烈。本贴子主要的观点有随机和进化,我也比较认同这二者,因此我更有必要收藏它了。

#算法#搜索引擎#网络
终于有人掀 TCP/IP 了

总之,在一个受控的,规则的好网络(DCN 大多符合),要用最大胆但最简单的策略处理传输(例如 NACK-GBN,ECN,Credit),反之,再一个分布式的,不规则的尽力而为网络(比如广域网),则要用最保守谨慎的策略(例如 SACK),哪怕复杂一些的策略处理传输,背后的理念是没有免费的午餐,捡自家的特产来交易。再次申明我的观点,TCP/IP 并不适合所有场景,点名就是不适合数据中心,特别是 AI

#tcp/ip#网络协议#网络
大模型知识蒸馏技术

进一步思考,“知识蒸馏” 其实是我们最拿手的传统教育模式,在古代,背会唐诗三百首,不会写也会偷,在当代,虽然我们的思维方式不是那么异想天开,但我们的考试成绩秒杀全宇宙,这背后都是对范式的记忆和应用,即,将知识的范式当作知识本身来学习,因此才得以弯道超车,省却了大量时间,这岂不就是大模型蒸馏。这个过程中,我是大模型,女儿是小模型,我由于 30 多年的积累训练,早就有了各种解题范式,而她不需要重复这

#人工智能#机器学习
大模型知识蒸馏技术

进一步思考,“知识蒸馏” 其实是我们最拿手的传统教育模式,在古代,背会唐诗三百首,不会写也会偷,在当代,虽然我们的思维方式不是那么异想天开,但我们的考试成绩秒杀全宇宙,这背后都是对范式的记忆和应用,即,将知识的范式当作知识本身来学习,因此才得以弯道超车,省却了大量时间,这岂不就是大模型蒸馏。这个过程中,我是大模型,女儿是小模型,我由于 30 多年的积累训练,早就有了各种解题范式,而她不需要重复这

#人工智能#机器学习
LLM(大语言模型) 的本质是概率

不会类比,不懂共情(这两点一向是被计算机背景的理工群体鄙视的),没有泛化能力,无法举一反三,不会归纳演绎,这才是 AI 的瓶颈,而不是铺天盖地的算力,以及那些以为 scale 就够了的能力,但在本质上,只要 AI 仍然是个概率预测机器,那些 scale up 也好,scale out 也好,都仍然在做概率预测,正如它们名字一样,规模扩大了而已。这个过程最精妙的结果是,在交叉熵损失和 Softmax

#语言模型#人工智能#自然语言处理
为什么缩放点积使梯度更稳定

(buffer 的平方反比律),我是三句话不离本行,AIMD 对 buffer 的占用就是按 n 缩放,所以它随 n 越来越小,与本文结论一致,非常公平地使 “权重会趋近于均匀分布”,公平性是 AIMD 特征,但 softmax 恰恰需要 “选择性聚焦”,而不是公平。通过缩放点积,将 softmax 函数的输入控制在一个合理的动态范围,防止了梯度消失,确保了训练过程的稳定和高效,缩放后的注意力权重

#机器学习#人工智能
ECC算法分析--openssl的实现以及其调用流程

ecc的过程与rsa相比有很大的不同,ecc涉及到了很多额外的概念,比如group等等,另外ecc包含两套截然不同的机制,这就是ecdsa和ecdh,这两套机制统一于ecc,在非ecc算法中,这两套机制是由两个独立的算法实现的,比如对于加密/解密以及签名/验证这一类需求来说使用的是rsa,dsa,对于密钥协商这一类需求来说使用的是dh,如何把这两类算法统一到一个结构中是类似openssl等框架需要

#算法
交叉熵(Cross Entropy)及其应用实例

最近看大模型相关的论文和书籍,发现了宝藏,这里面全都是我感兴趣的单点,概率统计学,非线性,GPU 并行的切割方向,负反馈,矩阵,函数图像…当模型对某个类别的预测概率高于真实概率时,梯度为正,提示应该降低相应的 logit,当预测不足时,梯度为负,提示应该增加 logit。影响更大,两者偏离越大,损失越大,直观上看,交叉熵更重视出类拔萃者,而忽略了卑微者,这就是一种有意义的 “拔优”,涌现正基于这种

    共 441 条
  • 1
  • 2
  • 3
  • 45
  • 请选择