logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于 AIMD 的 BBR

但每一种做法的评论中都会有喷子,比如放了太多料就毁了食材,比如这道菜放了酱油就意味着失败,焯水不焯水,老抽还是炒糖色,但如果真有大厨做某道菜,并真吃到嘴里,你会发现无论怎么做都好吃,大厨和喷子的区别在哪?拿捏本味是核心,这一点只有大厨明白,剩下的都是调味,无论用不用调料,用什么调料都不是重点,鱼可做鱼生也可红烧,螃蟹既可清蒸也能爆炒,但喷子的点却在这些非重点,而他们并不知道食材的本味到底是什么性质

文章图片
漫谈TCP/IP网络(2)

下午跟同事聊了一会儿技术形而上,有一些想法,就写一点。之前写过一些关于分组交换和TCP/IP网络的,所以我很难给这篇随笔命名,就叫《漫谈TCP/IP(2)》吧,以后再写就是3,4,5…类推。https://blog.csdn.net/dog250/article/details/118244454https://blog.csdn.net/dog250/article/details/115565

tcp bbr pacing 的对与错

那主机可以不 pacing 吗,显然不可以,为了降低第一跳突发减少第一跳 bufferbloat,所有主机固定 pacing 也不是不行,比如 500mbps pacing,而不是以主机能力突发。至于后面的跳,主机控制不了,只能交换机做。bbr probe 效果并非如论文所说为探测空闲资源,现实中,在多流共享全链路场景不得已的行为,系统本身不稳定,bbr 需要不停 probe 扶正,而计算的代价非

文章图片
#tcp/ip#网络#服务器
TCP的TIME_WAIT快速回收与重用

声明一点:Linux中是无法修改tcp的TIME_WAIT值的,除非重新编译,起码我是没有找到怎么改。值得注意的是,net.ipv4.tcp_fin_timeout这个参数是FIN_WAIT_2的值,而不是TIME_WAIT的值。我不知道为何很多人都会把它当成是TIME_WAIT的值,想了一下,我觉得是两点:1.TIME_WAIT过于耀眼,以至于所有出现timeout,加上里面有个tcp的配置,都

X Window System(X11)

于是,X 系统仅由三部分组成,X Server,X Client,X Protocol。我在前面聊互联网发展史和其背后的哲学时,涉及到 “网络最初是基于对等通信,逐步走向内容提供和消费”,而 X 系统在此过程中,从早期加入 C/S 一族,恰好服务于系统本身,也就是说,它是系统的组成部分,于是,X 视角下的整个网络就是一台分布式处理机。典型的场景,Windows 主机的显示器坏了,需要换一台显示器,

文章图片
大模型知识蒸馏技术

进一步思考,“知识蒸馏” 其实是我们最拿手的传统教育模式,在古代,背会唐诗三百首,不会写也会偷,在当代,虽然我们的思维方式不是那么异想天开,但我们的考试成绩秒杀全宇宙,这背后都是对范式的记忆和应用,即,将知识的范式当作知识本身来学习,因此才得以弯道超车,省却了大量时间,这岂不就是大模型蒸馏。这个过程中,我是大模型,女儿是小模型,我由于 30 多年的积累训练,早就有了各种解题范式,而她不需要重复这

#人工智能#机器学习
大模型知识蒸馏技术

进一步思考,“知识蒸馏” 其实是我们最拿手的传统教育模式,在古代,背会唐诗三百首,不会写也会偷,在当代,虽然我们的思维方式不是那么异想天开,但我们的考试成绩秒杀全宇宙,这背后都是对范式的记忆和应用,即,将知识的范式当作知识本身来学习,因此才得以弯道超车,省却了大量时间,这岂不就是大模型蒸馏。这个过程中,我是大模型,女儿是小模型,我由于 30 多年的积累训练,早就有了各种解题范式,而她不需要重复这

#人工智能#机器学习
LLM(大语言模型) 的本质是概率

不会类比,不懂共情(这两点一向是被计算机背景的理工群体鄙视的),没有泛化能力,无法举一反三,不会归纳演绎,这才是 AI 的瓶颈,而不是铺天盖地的算力,以及那些以为 scale 就够了的能力,但在本质上,只要 AI 仍然是个概率预测机器,那些 scale up 也好,scale out 也好,都仍然在做概率预测,正如它们名字一样,规模扩大了而已。这个过程最精妙的结果是,在交叉熵损失和 Softmax

#语言模型#人工智能#自然语言处理
为什么缩放点积使梯度更稳定

(buffer 的平方反比律),我是三句话不离本行,AIMD 对 buffer 的占用就是按 n 缩放,所以它随 n 越来越小,与本文结论一致,非常公平地使 “权重会趋近于均匀分布”,公平性是 AIMD 特征,但 softmax 恰恰需要 “选择性聚焦”,而不是公平。通过缩放点积,将 softmax 函数的输入控制在一个合理的动态范围,防止了梯度消失,确保了训练过程的稳定和高效,缩放后的注意力权重

#机器学习#人工智能
ECC算法分析--openssl的实现以及其调用流程

ecc的过程与rsa相比有很大的不同,ecc涉及到了很多额外的概念,比如group等等,另外ecc包含两套截然不同的机制,这就是ecdsa和ecdh,这两套机制统一于ecc,在非ecc算法中,这两套机制是由两个独立的算法实现的,比如对于加密/解密以及签名/验证这一类需求来说使用的是rsa,dsa,对于密钥协商这一类需求来说使用的是dh,如何把这两类算法统一到一个结构中是类似openssl等框架需要

#算法
    共 445 条
  • 1
  • 2
  • 3
  • 45
  • 请选择