
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:LLM(大语言模型)和Ranking(排序模型)代表了AI领域两大核心技术范式。LLM作为生成式大模型,体现大参数量、长序列、高算力需求等极端性能挑战;Ranking作为判别式模型,覆盖高并发、低延迟等工业级在线服务需求。二者共同涵盖了从训练到推理的核心性能瓶颈:LLM在训练阶段面临显存、并行、计算效率等挑战,推理阶段存在高延迟、低吞吐问题;Ranking则需解决多特征融合、增量训练等训练难

传统的时序预测方法,如 ARIMA、LSTM 等,虽然有较好的性能,但通常在处理复杂的、包含多种输入特征的时序数据时,表现不佳。TFT 是在 Transformer 的基础上进行了改进,专门针对多变量时序数据的建模需求,提出了一些新技术,使其更适合进行长时间序列的预测,尤其是在金融、医疗和工业领域等应用场景中。总体来说,TFT 结合了 Transformer 和传统时序建模技术的优点,是一个非常强

时间卷积神经网络(Temporal Convolutional Network,TCN)是一种具有时序特性的卷积神经网络,由Lea等人于2016年首次提出,起初应用于视频里动作的分割,后逐渐拓展到了一般性时序领域。TCN将一维全卷积网络、因果卷积和膨胀卷积结合在一起,具有稳定性更高,求解速度更快等优点。

众所周知,机器学习是一门跨学科的学科,主要研究计算机如何通过学习人类的行为和思维模式,以实现某些特定的功能或目标。它涉及到概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,使用计算机作为工具并致力于真实实时的模拟人类学习方式, 并将现有内容进行知识结构划分来有效提高学习效率。深度学习是机器学习的一个子集或一个重要分支。深度学习是机器学习的一种方法,通过模仿人类神经网络来实现学习。深度学习的

1.是一种用于时间序列预测的深度学习模型,它结合了Transformer架构的优点和专门为时间序列设计的一些优化技术。TFT尤其擅长处理多变量时间序列数据,并且能够捕捉到长期依赖关系,同时通过自注意力机制有效地处理时序特征。TFT的工作原理主要由以下几个部分组成:1.:TFT的输入是一个多变量时间序列,每个样本包含多个特征(如10个特征,每个特征有240个时间步)。每个时间步的特征值可以是连续的(

这些网络在全连接神经网络的基础上,引入了卷积、循环等更复杂的连接方式,以适应不同的任务和数据类型。其命名来源于本身的运行原理,即Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。该函数可以生成一个用于二分类或多分类问题的数据集,其中你可以控制数据集的许多属性,如样本数量、特征数量、信息性特征的数量、冗余特征的数量

摘要:大模型分布式训练主要通过数据并行、模型并行和混合并行三种方式实现。数据并行将训练数据拆分到多个GPU,每个GPU持有完整模型;模型并行(含张量并行和流水线并行)将模型拆分成部分分配给不同GPU;混合并行则组合多种方式,适用于超大规模模型训练。其中,数据并行适合数据量大的场景,模型并行解决单卡显存不足问题,混合并行(如GPT-3训练采用的3D并行)能显著提升训练效率。DeepSpeed的ZeR

集群调度系统是大规模集群(尤其是多 GPU / 超算集群)的 “必备基础设施”,核心价值是 “统一管理资源、有序调度任务”,避免冲突、提升利用率、保障稳定性。若在科研机构 / 超算中心,主要做长时大规模计算(如大模型训练、科学模拟),Slurm 是首选 —— 稳定、适配 HPC 场景,是科研界的 “标准工具”;若在互联网公司 / 云厂商,主要做 AI 推理、快速迭代的训练任务,或需要容器化部署,K

DCTCP 的工作原理可概括为“ECN 早感知 + 平滑窗口调整 + 低队列控制”通过 ECN 机制实现 “不丢包的拥塞预判”,解决传统 TCP 反应滞后的问题;以拥塞标记比例(F)为核心,实现窗口的平滑调整,平衡吞吐量与延迟;最终将网络队列长度控制在极低水平,完美适配智算中心 “长流高吞吐、短流低延迟” 的混合需求,成为数据中心 / 智算中心传输控制的基础优化方案。

智算中心作为AI和数字经济的"超级大脑",通过分布式架构和高速网络整合算力资源,支撑深度学习等高性能计算需求。RDMA技术凭借零拷贝、低延迟特性成为核心传输方案,其中RoCEv2因兼容性和成本优势成为主流。国内外应用显示,该技术能显著提升GPU集群训练效率,但面临拥塞敏感等挑战。未来需优化传输控制技术,以支撑更大规模部署。智算中心建设正加速推进,为"东数西算"








