
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
nvidia.com/mig-1g.5gb: "1" # 精确请求一个 1g.5gb 规格的 MIG 实例。aliyun.com/gpu-mem: "4" # 请求 4GiB 的显存配额和相应的算力时间片。nvidia.com/gpu: "1" # < 请求 1 个 GPU。下面我们看看在不同的技术方案下,nvidia.com/gpu: "1" # < 限制也必须是 1。nvidia.com/mi

DyLoRA (Dynamic Low-Rank Adaptation) 是一种在 LoRA (Low-Rank Adaptation) 基础上发展起来的动态参数微调技术。与 LoRA 采用固定的低秩矩阵不同,DyLoRA 允许 LoRA 模块的秩 (rank)根据输入动态变化。这种动态调整机制使得模型能够根据输入样本的复杂度和重要性,自适应地分配计算资源,从而在保持性能的同时,进一步提升效率和灵

deepEP (DeepSeek EndPoint) 是 DeepSeek 开源的一款高性能、低延迟的分布式通信库,专为大规模深度学习训练和推理场景设计。它旨在优化分布式计算环境中的通信效率,特别是在节点间数据交换、梯度同步、模型分发等方面,能够显著提升训练速度和推理性能。deepEP 的设计目标是提供一种易于使用、高度灵活且性能卓越的通信解决方案,以满足日益增长的 AI 模型规模和数据量需求。

是一种结合了主动学习(Active Learning)和提示工程(Prompt Engineering)的技术,旨在通过迭代地选择最有信息量的样本进行标注,并利用这些标注样本来优化大语言模型(LLM)的提示,从而提高 LLM 在特定任务上的性能。主动提示 (Active Prompt) 是一种结合了主动学习和提示工程的技术,旨在通过迭代地选择最有信息量的样本进行标注,并利用这些标注样本来优化 LL

是DeepSeek团队开源的一套针对于大规模并行任务(如分布式AI训练任务)负载均衡问题的弹性、智能、并行调度平台。其设计目的是优化大规模GPU/ CPU集群资源的高效管理、任务实时分配与并发执行,动态地将负载分布到计算节点上,进行高效的计算资源利用率与最优的任务执行性能。与传统网络层负载均衡(如 NGINX、HAProxy)或云原生负载均衡(如 K8s的Ingress)截然不同的是,EPLB关注

Smallpond 是一个专为大规模 AI 训练设计的高性能、分布式数据加载和预处理框架。它由上海交通大学 IPADS 实验室开发,旨在解决 AI 训练中数据 I/O 瓶颈问题,特别是与 3FS 文件系统结合使用时,能够显著提升数据加载和预处理的效率。Smallpond 的设计理念是“小数据池”(small pond),通过将大规模数据集划分为多个小数据块(chunks),并利用分布式缓存和并行处

是一种针对大型预训练语言模型 (LLMs) 的高效微调技术。它旨在解决全参数微调所带来的计算和存储成本问题。冻结预训练模型的原始参数,并通过引入少量可训练的低秩矩阵来模拟参数更新。这样,在微调过程中,只需要优化这些低秩矩阵的参数,而不需要修改原始模型的参数,从而大大减少了需要训练的参数量。

GEMM (General Matrix Multiplication) 指的是通用矩阵乘法,是线性代数中一个基础且核心的运算。在机器学习,特别是深度学习领域,GEMM 占据了绝大部分的计算量。DeepSeek 开源的 GEMM 库,专注于提供极致性能的矩阵乘法运算,针对不同的硬件平台(如 CPU、GPU)进行深度优化,旨在加速 AI 模型的训练和推理过程。

"Multi-LoRA Combination Methods" 指的是在 LoRA (Low-Rank Adaptation) 微调的基础上,使用多个 LoRA 模块,并通过特定的方法将它们组合起来,以适应多任务学习、领域自适应或模型个性化等场景的技术。与传统的 LoRA 方法只使用单个 LoRA 模块不同,"Multi-LoRA Combination Methods" 能够利用多个 LoRA

Dify 是一个专注于帮助用户快速构建、部署和管理基于大语言模型(LLM)的 AI 应用的工具。它的核心目标是降低开发门槛,让开发者和非技术用户都能轻松利用大语言模型(如 OpenAI 的 GPT 系列)来创建定制化的 AI 应用。总体而言,Dify 是一个非常适合快速开发和部署 AI 应用的工具,尤其适合那些希望快速验证想法或构建原型的用户。Dify 是一个强大的 AI 工具,旨在降低大语言模型








