
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了在Kubernetes环境下搭建分布式深度学习训练平台的全流程。首先详述了Kubernetes集群的部署和验证方法,包括网络插件安装和工作节点添加。其次讲解了深度学习环境的容器化配置,包括Docker镜像构建和Kubernetes资源分配。重点展示了TensorFlow和PyTorch两种框架的分布式训练实现方案,涵盖代码编写和Kubernetes Job配置。最后提供了监控工具选择和性
大语言模型 (LLM) 因其在各种任务中的卓越表现而备受关注。然而大语言模型的部署推理并不简单,尤其是针对在给定资源受限场景下,巨大的计算和内存需求给LLM推理部署带来了挑战,具体如:高延迟、低吞吐、高存储等。

deepseek最近引起了NLP领域的极大关注,也让大家进一步对MOE架构提起了信心,借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。
在现实世界中,团队可能需要处理并非整齐地排列成行和列的数据。当处理照片、视频和自然语言等复杂的非结构化数据时,这种情况尤为常见。这时,矢量数据库就派上用场了。哪个矢量数据库最适合您的项目?目前市场上领先的矢量数据库有哪些?深入了解我们对市场上 17 个最流行的矢量数据库的概述,了解您的选择并为您的项目挑选最佳工具。要点总结什么是向量数据库?几年前首次出现,旨在为基于神经网络的新一代搜索引擎提供支持

技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。开源了六种大小的基础和聊天模型,即0.5B、1.8B、4B、7B、14B、32B、72B 和 110B,以及 MoE 模型(64个expert)开源了0.5B、1.5B、7B、57B-A14B(共57B但激活14B
所谓自定义backend就是自己写推理过程,正常情况下整个推理过程是通过模型直接解决的,但是有一些推理过程还会包含一些业务逻辑,比如:整个推理过程需要2个模型,其中要对第一个模型的输出结果做一些逻辑判断然后修改输出才能作为第二个模型的输入,最简单的做法就是我们调用两次triton服务,先调用第一个模型获取输出然后进行业务逻辑判断和修改,然后再调用第二个模型。不过在triton中我们可以自定义一个b
大模型常见推理框架:Transformers、Llama.cpp、Llamafile、Ollama、vLLM、TGI(Text Generation Inference)、DeepSpeed。是重点。

一文搞懂AI人工智能大模型训练、推理、微调

由于服务器无法访问外网,只能预先准备好镜像,安装包、编译源码等,接下来准备安装 TensorRT-LLM,推荐使用 Docker 构建和运行 TensorRT-LLM,整个安装步骤参考 TensorRT-LLM 中构建 Docker 镜像的。通常,build.py 仅需单个 GPU,但如果您有推理所需的所有 GPU,则可以通过添加 --parallel_build 参数来启用并行构建,以使引擎构建
当今监控乃至整个运维行业正处在变更之际,面对诸多变化和不确定性,运维监控的规划应该首先考虑保证技术投资的可持续性,避免锁定在某一具体的架构和方案上,而是立足核心技术要点与诉求,跟随技术潮流,平滑演进,保持技术先进性,在演进过程中分阶段持续输出业务价值。本文将介绍几种常见运维监控系统的技术选型。监控系统的功能监控系统是运维系统或平台系统中较为核心的组成部分,它承载了运维工作中数据闭环的部分。从功能角








