logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【百度】智能云大规模 AI 高性能网络的设计与实践

百度智能云AIPod高性能网络设计满足大模型训练的三大核心需求:超大规模、超高带宽和超长稳定。针对千亿参数大模型训练所需的分布式并行计算,AIPod采用8通道CLOS架构设计,支持超16K GPU规模,通过无收敛网络拓扑和RDMA技术实现单卡20GB/s的Allreduce带宽。在网络稳定性方面,创新性地采用动态负载均衡、黑盒探测和性能透视平台等技术,将硬件故障影响控制在秒级。实践表明,该网络能支

#人工智能#网络
快手DHPS 基于RDMA 通信的可负载均衡高性能服务架构

摘要:快手研发的DHPS架构通过创新性改造,构建了国内首个基于RDMA通信的高性能在线服务系统。该架构采用端网协同设计,包含三大核心模块:构建支持AZ级部署的四层网络、自主研发高性能存储引擎和RDMA通信库、实现智能流量调度。存储引擎采用12路CuckooHash索引和SIMD优化技术,查询吞吐提升270%;通信库实现RDMA与TCP自动切换,网络延迟降低35%。整套系统在200节点规模下实现99

#负载均衡#架构#运维
分布式限速器

限流算法漏桶算法漏桶算法思路很简单,水(也就是请求)先进入到漏桶里,漏桶以一定的速度出水,当水流入速度过大会直接溢出,然后就拒绝请求,可以看出漏桶算法能强行限制数据的传输速率。 示意图(来源网络)如下:令牌桶算法令牌桶算法和漏桶算法效果一样但方向相反的算法,更加容易理解。随着时间流逝,系统会按恒定1/QPS时间间隔(如果QPS=100,则间隔是10ms)往桶里加入令牌(想象和漏洞漏水相反,有个水龙

Redis Gossip广播通信 2.redis gossip的应用

Redis Cluster节点通信Redis Cluster采用P2P的Gossip协议,每个节点与其他节点间不断通信交换信息,一段时间后节点信息一致,每个节点都知道集群的完整信息。Redis Cluster通信过程:(1)集群中的每个节点都会单独开辟一个TCP通道,用于节点之间彼此通信,通信端口号在基础端口上加10000;(2)每个节点在固定周期内通过特定规则选择几个节点发送ping消息;(3)

0-日志平台-graylog放弃&ES术语简介

使用的目的:从filebeat采集到kafka的数据,在ELK方案中使用的是logstash落到ES那么在graylog中要实现logstash如下两个重要功能:1.消息体的解析(包含过滤、剔除、提取,转换)2.ES的索引映射,ES作为底层的存储,涉及到日至平台性能,因此这个索引映射和存储要把握住使用的流程:1.input配置,kafka接入extractor提取器:解析json解析message

agent的方式接入Prometheus

摘自我球的docs文档,我没时间在CSDN上再写一份,见maven repo:https://mvnrepository.com/artifact/io.prometheus.jmx/jmx_prometheus_javaagent在pom中引用:<!--https://mvnrepository.com/artifact/io.prometheus.jmx/j...

JVM类装载体系结构

本文章涉及的代码在github上:https://github.com/singgel/eight-sorting-algorithms/tree/master/src/test/java/com/hks/eightsortingalgorithms/classLoaderJVM的class转载方式java的class只在需要的时候才内转载入内存,并由java虚拟机的执行引擎来执行,而执行...

IaaS、PaaS、SaaS、CaaS、MaaS五者的区别_云计算概念大全

 云计算构架图          很明显,这五者之间主要的区别在于第一个单词,而aaS都是as-a-service(即服务)的意思,这五个模式都是近年来兴起的,且这五者都是云计算的落地产品,所以我们先来了解一下云计算是什么。 1、云计算是什么云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。...

TCP的CLOSE_WAIT和TIME_WAIT问题汇总

线上环境挂了,咋整?排查思路:是不是特例还是所有情况下的数据都获取不到?是不是网络断了(比如某厂的光缆又断了?)是不是服务停了 (Sig 11?OOM?或者core dump)是不是应用服务器都CPU 100%了?看看监控系统有没有报警? (当然得有对吧)看看DB是不是被人删了?(进过某旅游网站的事件后,这总也是一种可能行对吧)有云监控,可以看下SLB的心跳还活着,排除网络问题所有服务器的CPU/

linux查看端口port所运行的文件的位置

一,使用netstat来查看端口9002的pid为12903netstat -antlp|grep 9002二,使用cd打开pid所在的文件路径cd /proc/12093三,你所看到的cwd就是java虚拟机运行的12093pid的文件所在位置cd /root/star-bi-new/star/star-server/output...

    共 22 条
  • 1
  • 2
  • 3
  • 请选择