logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

智算时代的流量枢纽:蚂蚁 AI Gateway 如何提升大模型推理效能

为了保证同样前缀的请求尽可能地落到同样的引擎,我们在全局维护一个近似的前缀树,能够根据用户输入的 Prompt 计算出每个引擎能够有百分之多少的复用率,然后把这个复用率加到打分的公式里。面对日新月异的推理场景,和蒸蒸日上的推理需求,沿用传统的网关的思路无法很好地服务用户的需求,我们必须另辟蹊径,在推理场景里引入新的网关架构。1. 每次选中一个节点后,立刻将它的运行任务数 +1,因为引擎指标的更新不

#人工智能#gateway
蚂蚁智能运维:单指标异常检测算法初探

1背景介绍AntMonitor:蚂蚁集团研发的一款面向云原生时代的全功能智能运维产品,包含业务监控、应用监控、基础设施监控、云原生可观测、一站式多维分析等功能。其中,智能化的单指标异常...

#算法#大数据#编程语言 +2
20+ 免费社区工具大盘点,让你的开源项目起飞!

前言 ⚡️作为一个很小的工作小组,维护着KusionStack这个开源项目,日常工作中要同时兼顾研发和运营不是一件容易的事儿。所以团队需要借助各种工具变得更加高效、有序,找到正确的工具就像周一早上的第一杯咖啡一样重要 ☕️。本文记录了团队过去用到的种种工具,从GitHub这样的代码托管平台,到Slack和Reddit这些用户交流社区,到OSS Insight这样的洞察工具,再到...

#开源
议题介绍|DLRover Open Day「大模型时代的 AI 基建」

本周六!本周六!本周六!DLRover 将举办首次开放日活动!欢迎更多小伙伴参与共建合作DLRover 是什么DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能化分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等

#人工智能
Dragonfly 在 Kubernetes 多集群环境下分发文件和镜像

文|戚文博(花名:百蓦)DragonflyMaintainer蚂蚁集团软件工程师主要负责「基于 P2P 的文件分发以及镜像加速系统」。本文2036字 阅读8分钟Dragonfly 提供高效、稳定、安全的基于 P2P 技术的文件分发和镜像加速系统,并且是云原生架构中镜像加速领域的标准解决方案以及最佳实践。现在为云原生计算机基金会(CNCF)托管作为孵化级(Incubating)项目。文章主...

#kubernetes#容器#云原生
Dragonfly 最新版本 v2.0.9 发布

文|戚文博(花名:百蓦)DragonflyMaintainer蚂蚁集团软件工程师主要负责「基于 P2P 的文件以及镜像加速系统」。本文5005字 阅读13分钟Dragonfly 最新正式版本 v2.0.9 已经发布!感谢 Dragonfly 的贡献者们,同时也感谢默默支持 Dragonfly 项目的各个公有云团队。欢迎访问 d7y.io[1]网站来了解详情,下面具体介绍 v2.0.9 ...

#网络
Dragonfly 和 Nydus Mirror 模式集成实践

文|戚文博(花名:百蓦)DragonflyMaintainer蚂蚁集团软件工程师主要负责「基于 P2P 的文件以及镜像加速系统」。本文2175字 阅读15分钟PART. 1背景自 17 年开源以来,Dragonfly 被许多大规模互联网公司选用并投入生产使用,并在 18 年 10 月正式进入 CNCF,成为中国第三个进入 CNCF 沙箱级别的项目。2020 年 4 月,CNCF 技术监督...

#kubernetes#容器#云原生
Docker 环境基于 Dragonfly 的 Kubernetes 多集群镜像分发实践

文|唐荦彦深信服高级开发工程师主要负责 SASE 云化架构以及基础设施建设本文 3056 字,阅读 6 分钟01你将在本文学到什么?多 K8S 集群镜像分发方案Dragonfly 的理解Harbor 的预热机制Dragonfly 的使用以及排障02K8S 多集群镜像分发问题在边缘云架构的生产环境下,演进过程中,一开始的镜像分发方案如下:每个边缘集群都存在节点的 Harbor 仓库,进行缓存...

#docker#kubernetes#容器 +2
DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践

文|王勤龙(花名:长凡)蚂蚁集团AI 系统工程师文|张吉(花名:理之)蚂蚁集团 AI系统工程师文|兰霆峰四川大学 20 级计算机系专注分布式深度学习领域,主要参与蚂蚁大规模分布式训练引擎的设计和开发本文5104字 阅读13分钟01背景.如今大语言模型(LLM)的分布式训练节点规模越来越大,训练耗时长。比如 OpenAI 在 1024 个 NVIDIA A100 GPU 上训练 GPT...

#kubernetes#容器#云原生
Dragonfly 加速 Git LFS 大文件分发

Dragonfly GitHub:https://github.com/dragonflyoss/Dragonfly21Git LFS 是什么?Git LFS [1]是 Git Large File Storage 的缩写,这是一个用来处理大型文件的 Git 扩展工具。Git 在处理大量的小型文件时表现出色,但它并不擅长版本控制大型二进制文件,比如视频、音频、数据集、模型资源等。如果这些大文件直.

#git
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择